Statystyczna analiza danych

Podobne dokumenty
warunek (tzn. macierz M musi być stochastyczna): dla każdego k Q mamy

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Statystyczna analiza danych

Elementy modelowania matematycznego

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Własności statystyczne regresji liniowej. Wykład 4

MODELOWANIE STOCHASTYCZNE CZĘŚĆ II - ŁAŃCUCHY MARKOWA. Biomatematyka Dr Wioleta Drobik-Czwarno

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

Prawdopodobieństwo i statystyka r.

Modele zapisane w przestrzeni stanów

Metoda największej wiarogodności

Granica kompresji Kodowanie Shannona Kodowanie Huffmana Kodowanie ciągów Kodowanie arytmetyczne. Kody. Marek Śmieja. Teoria informacji 1 / 35

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

ZŁOŻONOŚĆ OBLICZENIOWA ALGORYTMÓW

Metody systemowe i decyzyjne w informatyce

Fuzja sygnałów i filtry bayesowskie

Testowanie hipotez statystycznych

Metody probabilistyczne

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Spacery losowe generowanie realizacji procesu losowego

Uogolnione modele liniowe

Ekonometryczne modele nieliniowe

dla t ściślejsze ograniczenie na prawdopodobieństwo otrzymujemy przyjmując k = 1, zaś dla t > t ściślejsze ograniczenie otrzymujemy przyjmując k = 2.

Funkcje wielu zmiennych

Metody systemowe i decyzyjne w informatyce

i=7 X i. Zachodzi EX i = P(X i = 1) = 1 2, i {1, 2,..., 11} oraz EX ix j = P(X i = 1, X j = 1) = 1 7 VarS 2 2 = 14 3 ( 5 2 =

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Przepustowość kanału, odczytywanie wiadomości z kanału, poprawa wydajności kanału.

Prawdopodobieństwo i statystyka

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Algorytmy MCMC i ich zastosowania statystyczne

Agata Boratyńska Statystyka aktuarialna... 1

PROCESY STOCHASTYCZNE. PEWNE KLASY PROCESÓW STOCHASTYCZNYCH Definicja. Procesem stochastycznym nazywamy rodzinę zmiennych losowych X(t) = X(t, ω)

Rzut oka na współczesną matematykę spotkanie 3: jak liczy kalkulator i o źródłach chaosu

Modelowanie motywów łańcuchami Markowa wyższego rzędu

Optymalizacja systemów

NIEKLASYCZNE MODELE MARKOWA PROBLEMY NUMERYCZNE

Weryfikacja hipotez statystycznych

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Prawdopodobieństwo i statystyka r.

Metody systemowe i decyzyjne w informatyce

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

19 marzec, Łańcuchy Markowa z czasem dyskretnym. Procesy Stochastyczne, wykład 6, T. Byczkowski, Procesy Stochastyczne, PPT, Matematyka MAP1136

Proces rezerwy w czasie dyskretnym z losową stopą procentową i losową składką

Matematyka ubezpieczeń majątkowych r.

Aby mówić o procesie decyzyjnym Markowa musimy zdefiniować następujący zestaw (krotkę): gdzie:

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Układy stochastyczne

Procesy Stochastyczne - Zestaw 1

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Statystyka i Analiza Danych

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Stochastyczne zagadnienie rozdziału z dyskretnym rozkładem popytu

Algorytmy stochastyczne, wykład 05 Systemy Liendenmayera, modelowanie roślin

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Podstawowe modele probabilistyczne

Matematyka ubezpieczeń majątkowych r.

O ŚREDNIEJ STATYSTYCZNEJ

Wykład 11: Martyngały: definicja, twierdzenia o zbieżności

Matematyka ubezpieczeń majątkowych r.

Estymacja gęstości prawdopodobieństwa metodą selekcji modelu

1 Gaussowskie zmienne losowe

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Statystyka Matematyczna Anna Janicka

Rozpoznawanie obrazów

Filtr Kalmana. Struktury i Algorytmy Sterowania Wykład 1-2. prof. dr hab. inż. Mieczysław A. Brdyś mgr inż. Tomasz Zubowicz

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Wstęp do programowania

Kodowanie informacji

Jądrowe klasyfikatory liniowe

ZŁOŻONOŚĆ OBLICZENIOWA ALGORYTMÓW

P(F=1) F P(C1 = 1 F = 1) P(C1 = 1 F = 0) P(C2 = 1 F = 1) P(C2 = 1 F = 0) P(R = 1 C2 = 1) P(R = 1 C2 = 0)

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

Prawdopodobieństwo i statystyka

Metody systemowe i decyzyjne w informatyce

Metody Rozmyte i Algorytmy Ewolucyjne

złożony ze słów zerojedynkowych o długości co najmniej 3, w których druga i trzecia litera od końca sa

Modelowanie rynków finansowych z wykorzystaniem pakietu R

Metoda najmniejszych kwadratów

Lista 0. Kamil Matuszewski 1 marca 2016

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

wstęp do informatyki i programowania część testowa (25 pyt. / 60 min.)

Optymalizacja harmonogramów budowlanych - szeregowanie zadań. Mgr inż. Aleksandra Radziejowska AGH Akademia Górniczo-Hutnicza w Krakowie

5 Błąd średniokwadratowy i obciążenie

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Transkrypt:

Statystyczna analiza danych ukryte modele Markowa, algorytm EM Anna Gambin Instytut Informatyki Uniwersytet Warszawski

ńczonymi l łańcuch Markowa Q, zbiór stanów M = (p k,l ) k,l Q, stochastyczna ścia ze stanu k d macierz przejść l Q p k,l = 1.

ukryte modele Markowa Niech Σ b edzie alfabetem. k Q, e k (x) ele Ma Σ. Tak x Σ probabilistyczne automaty z wyjściem stan ukryty obserwacja w każdym stanie x Σ e k(x) = 1 tanach (z pewnym w każdym stanie emitowany jest jakiś symbol

z wikipedii :) x states y possible observations a state transition probabilities b output probabilities

przykład: nieuczciwe kasyno F - uczciwa kostka L - fałszywa kostka - szóstka wypada z prawdopodobieństwem = 0.5, pozostałe z pr = 0.1 Możemy, na przyk lad, mieć do czynienia z nastepuj acym modelem: p F,F = 0.95, p L,L = 0.9, p F,L = 0.05, p L,F = 0.1; ponadto prawdopodobieństwo emisji jest zdefiniowane nastepuj aco: e F (x) = 1/6 dla x {1, 2, 3, 4, 5, 6} oraz e L (6) = 0.5 i e L (x) = 0.1 dla x {1, 2, 3, 4, 5}

przykład: wyspy CpG 5 C G 3 CpG z dużym prawdopodobieństwem C-> T (metylacja) proces ten jest zahamowany w regionach promotorowych i w pobliżu miejsc rozpoczynających rejony kodujące my tutaj do czynienia z ukrytym A +, C +, G +, T +, A, C, G, T. w stanie A ξ (gdzie ξ {, +}), emitujemy A stany ukryte

przykład: wyspy CpG http://www.cellscience.com/

przykład: introny/eksony

ukryte modele Markowa c.d. Niech S Σ oraz π Q bed a niepustymi ciagami równej d lugości n = S = π > 0. Prawdopodobieństwo tego że S zostanie wyemitowane oraz uk lad bedzie zmienia l stany wed lug kolejności π wynosi P (S, π) = n 1 t=0 e π(t+1) (S(t + 1)) p π(t),π(t+1), gdzie w powyższym wzorze przyjmujemy, że π(0) = k 0, jest stanem poczatkowym. 1 2 3 e 1 p 1, 2 p 2, 3 S(1) S(2) S(3)

algorytm Viterbiego S Σ słowo zaobserwowane na wyjściu poszukiwany π ciąg stanów, który doprowadził do wyemitowania jb S P (S, π ) = max{p (S, π) π Q, π = S }.

algorytm Viterbiego 0 < i S dziej optym v(i, k) = max{p (S[1..i], π) π Q i, π(i) = k}. v(0, k) = { prawdopodobieństwo najlepszej drogi kończącej się w k { 1 gdy k = k 0, 0 gdy k k 0. v(i, k) = e k (S(i)) max l Q [v(i 1, l) p l,k].

algorytm Viterbiego maksymalne prawdopodobieństwo znajdujemy ze wzoru: P (S, π ) = max[v( S, k)]. k Q optymalną ścieżkę odtwarzamy z zapamiętanych wskaźników

algorytm Viterbiego-złożoność czas O( S Q 2 ) pamięć O( S Q ) UWAGA problem: mnożenie małych liczb

przykład: nieuczciwe kasyno

prawdopodobieństwo emisji słowa P (S) = π P (S, π) P (S, π) = 0 dla S π. UWAGA: liczba ścieżek wykładnicza! można aproksymować za pomocą π ale nie trzeba...

algorytm prefiksowy 0 < i S dziej optym f(i, k) = k Q {π π(i)=k} P (S[1..i], π). prawdopodobieństwo wyemitowania prefiksu długości i droga kończy sie w stanie k

algorytm { prefiksowy rytmu Viterbiego mamy { 1 gdy k = k 0, f(0, k) = 0 gdy k k 0. f(i, k) = e k (S(i)) l Q f(i 1, l) p l,k emitowania s lowa S wyn P (S) = k Q f( S, k).

algorytm sufiksowy Prawdopodobieńs 0 i S = m prawdopodobieństwo wyemitowania sufiksu i..m i-ty symbol emitowany w stanie k

algorytm prefiksowy sufiksowy - złożoność czas O( S Q 2 ) pamięć O( S Q )

i-ty krok w stanie k pod warunkiem, że nastąpiła emisja słowa S P (π(i) = k S) = P (π(i) = k & S) P (S) = f(i, k) b(i, k) P (S) prawdopodobieństwo a posteriori

estymacja parametrów HMM ze praw- S 1,..., S n, mi badź zaobserwowany zbiór słów uczących y, Σ alfabet Q z e zbiór stanów p k,l oraz e k (x), znamy szukamy

estymacja parametrów HMM n P M (S 1 &... & S n ) = P M (S j ) j=1 prawdopodobieństwo wygenerowania słów S 1...S n w modelu M

estymacja parametrów HMM log(p M (S)), c Score M (S) szukamy M który maksymalizuje n j=1 malizować Score M (S j ).

estymacja parametrów HMM uproszczenie s lowa S j znamy ciag stanów π j dla Niech P k,l bedzie równe liczbie przejść ze stanu k w stan l w ciagach π 1,..., π n. E k (x) b edzie równe liczbie emisji symbolu x wczas przyjmujemy w stanie k. p k,l = P k,l q Q P k,q, e k (x) = E k (x) y Σ E k(y).

zadanie: estymacja parametrów HMM f (j) (i, k) M lgorytmu (i, k) ksowego b (j) M f(i, k) = b(i, k) = l Q P (S[1..i], π). {π π(i)=k} p k,l e l (S(i + 1)) b(i + 1, l) S 1,..., S n Σ Q HMM M maksymalizujący n j=1 Score M(S j ).

algorytm Bauma Welcha Krok 1: (Inicjalizacja) ustalone). Krok 2: Obliczmy wartość oczekiwana liczby przejść k do stanu w l. modelu Zauważmy, M ze stanu że dlak1 do stanu i S l., prawdo opodobieństwo tego że f (j) M (i, k) pm k,l em l (S j (i + 1)) b (j) M (i + 1, l) P M (S j ) prawdopodobieństwo: -ty krok emisji i S j w stanie k i +1 w stanie l

algorytm Bauma Welcha P k,l = n j=1 S j i=1 f (j) M (i, k) pm k,l em l (S j (i + 1)) b (j) (i + 1, l) M P M (S j ). E k (x) = n j=1 i I j (x) f (j) M (i, k) b(j) M (i, k) P M (S j ) I j (x) = {i S j (i) = x}

algorytm Bauma Welcha Krok 3: p k,l = P k,l q Q P k,q, e k (x) = E k (x) y Σ E k(y). M.

algorytm Bauma Welcha Krok 4: Obliczamy n j=1 Score M (S j ) niż z góry zadane ε > 0 od poprzednie jeśli nie różni się wiele od poprzedniej wartości iterujemy, aż poprawa będzie niewielka to przerywamy lokalne maksimum różne pkty startowe

algorytm Bauma Welcha szczególny przypadek algortymu EM (Expectation- Maximization) służącego do estymacji parametrów modelu stochastycznego wady: lokalne maksimum powolna (liniowa) zbieżność wrażliwość na punkt startowy

ogólniej: algorytm EM z rozkładu wiarygodność danych: estymator największej wiarygodności często łatwiej maskymalizować

ogólniej: algorytm EM algorytm przydatny w dwóch przypadkach: zakładamy niepełne dane (np. niektóre jest ciężko zaobserwować) funkcja wiarygodności jest analitycznie nie do ugryzienia, ale zmienia się to jeśli uwzględnimy dodatkowe (ukryte) parametry.

ogólniej: algorytm EM efektywna iteracyja metoda maksymalizacji logarytmu wiarygodności przy założeniu ukrytych/ niepełnych danych. W każdej iteracji dwa kroki: E-krok: liczymy warunkową wartość oczekiwaną wiarygodności, pod warunkiem obserwowanych danych oraz aktualnych oszacowań parametrów. M-krok: szukamy parametrów, które maksymalizują funkcję wiarygodności. zbieżność zagwarantowana, bo wiarygodność rośnie w każdej iteracji

funkcja wypukła

algorytm EM maksymalizujemy: w kroku n oszacowanie dla chcemy znaleźć nowe oszacowanie, takie że czyli maksymalizujemy różnicę:

algorytm EM ukryte dane - zmienna losowa rozkład łączny:

algorytm EM Johan Jensen

EM wybiera maksymalizujące

algorytm EM

algorytm EM EM wybiera maksymalizujące wyrzucamy czynniki niezależne od

algorytm EM warunkowa wartość oczekiwana

E- krok kontemplacja czasami rozkład brzegowy jest prostym wyrażeniem zależnym od danych i paramaterów z poprzedniego kroku... czasami jest trudno... często używamy gęstości w postaci: nie zależy ona wtedy od wcześniejszych kroków...

algorytm EM E-krok: M-krok:

uogólniony algorytm EM wybieraliśmy, żeby maksymalizowało A wystarczy, żeby:

algorytm EM: zbieżność czyli wiarygodność w każdej iteracji nie maleje dodatkowo jeśli maksymalizuje oraz to jest punktem krytycznym również dla