Statystyczna analiza danych (molekularnych) estymacja bayesowska i MLE

Podobne dokumenty
Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Statystyczna analiza danych (molekularnych) modele liniowe

Prawdopodobieństwo i statystyka r.

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Oznacza to, że chcemy znaleźć minimum, a właściwie wartość najmniejszą funkcji

Prawdopodobieństwo i statystyka

Agata Boratyńska Statystyka aktuarialna... 1

Metody probabilistyczne

Komputerowa analiza danych doświadczalnych

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Komputerowa analiza danych doświadczalnych

Weryfikacja hipotez statystycznych

Ważne rozkłady i twierdzenia

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Metody systemowe i decyzyjne w informatyce

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Testowanie hipotez statystycznych.

Matematyka ubezpieczeń majątkowych r.

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Wykład 3 Momenty zmiennych losowych.

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Wykład 3 Momenty zmiennych losowych.

Statystyka w przykładach

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Ważne rozkłady i twierdzenia c.d.

Metody systemowe i decyzyjne w informatyce

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

P (A B) = P (A), P (B) = P (A), skąd P (A B) = P (A) P (B). P (A)

Estymacja parametrów rozkładu cechy

1 Gaussowskie zmienne losowe

zadania z rachunku prawdopodobieństwa zapożyczone z egzaminów aktuarialnych

Wykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Rozpoznawanie obrazów

Monte Carlo, bootstrap, jacknife

Metoda największej wiarygodności

Rozpoznawanie obrazów

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Metody probabilistyczne

Metoda najmniejszych kwadratów

1.1 Wstęp Literatura... 1

Prawdopodobieństwo i statystyka r.

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Zawansowane modele wyborów dyskretnych

Pobieranie prób i rozkład z próby

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Metody systemowe i decyzyjne w informatyce

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Wnioskowanie bayesowskie

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Kwantyle. Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p. , że. Możemy go obliczyć z dystrybuanty: P(X x p.

Rachunek prawdopodobieństwa i statystyka

PEWNE FAKTY Z RACHUNKU PRAWDOPODOBIEŃSTWA

Wnioskowanie statystyczne. Statystyka w 5

Rozkłady prawdopodobieństwa zmiennych losowych

5 Błąd średniokwadratowy i obciążenie

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Spis treści 3 SPIS TREŚCI

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Estymatory nieobciążone

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Metody systemowe i decyzyjne w informatyce

Metoda największej wiarogodności

Metody probabilistyczne

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Prawdopodobieństwo i statystyka

Wykład 3 Jednowymiarowe zmienne losowe

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Uogolnione modele liniowe

Podstawowe modele probabilistyczne

Prawdopodobieństwo i statystyka

dla t ściślejsze ograniczenie na prawdopodobieństwo otrzymujemy przyjmując k = 1, zaś dla t > t ściślejsze ograniczenie otrzymujemy przyjmując k = 2.

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Testowanie hipotez statystycznych.

WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska

Matematyczne metody w naukach biomedycznych: regresja i analiza wariancji.

Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1

Zestaw 2: Zmienne losowe. 0, x < 1, 2, 2 x, 1 1 x, 1 x, F 9 (x) =

Transkrypt:

Statystyczna analiza danych (molekularnych) estymacja bayesowska i MLE Anna Gambin 0 kwietnia 01 Spis treści 1 Estymacja bayesowska 1 Paradoks więźnia.1 Rozkład a priori................................. 3 3 Estymacja największej wiarygodności 5 1 Estymacja bayesowska Rozważmy następujący przykład (z Wikipedii :). Obserwujemy wejście do szkoły, w której uczą się zarówno chłopcy jak i dziewczynki w proporcjach 6 : 4. Dysponujemy wiedzą, że wszyscy chłopcy noszą spodnie, oraz że połowa dziewczynek nosi spódnice, a połowa spodnie. Widzimy z daleka postać w spodniach. Jakie jest prawdopodobieństwo, że jest to dziewczyna? Niech A oznacza zdarzenie bycia dziewczynką, A chłopcem, B zdarzenie noszenia spodni. Chcemy znać prawdopodobieństwo P (A B). Wiemy, że P (A) = 0.4 oraz P (A ) = 0.6. Dodatkowo P (B A) = 0.5, ponieważ co druga dziewczyna chodzi w spodniach i P (B A ) = 1 (wszyscy chłopcy noszą spodnie). Ze wzoru na prawdopodobieństwo całkowite: Czyli ze wzoru Bayesa: P (B) = P (B A)P (A) + P (B A )P (A ) = 0.5 0.4 + 1 0.6 = 0.8 P (A B) = P (B A)P (A) P (B) 1 = 0.5 0.4 0.8 = 0.5

Pokontemplujmy ten wzór w ogólniejszej postaci: f X Y =y (x) = L X Y =y (x) f X (x) + L X Y =y(x) f X (x)dx f X Y =y (x) nazywamy gęstością a posteriori zmiennej X pod warunkiem danych Y = y, L X Y =y (x) nazywamy wiarygodnością, + L X Y =y(x) f X (x)dx jest stałą normalizującą, a f X (x) nazywamy gęstością a priori zmiennej losowej X. Paradoks więźnia Na kolejnym przykładzie przedstawimy główne pomysły stojące za bayesowską estymacją parametrów. Wyobraźmy sobie trzech więźniów, nazwijmy biedaków A, B i C. Wszyscy wiedzą, że następnego dnia dwóch spośród nich wyjdzie na wolność. A zakłada, że ma szanse 3 opuścić mury więzienia, ale postanawia jeszcze dla poprawy nastroju podpytać strażnika. Prosi go o ujawnienie, który z pozostałych więźniów (poza nim) wyjdzie na wolność. Dostaje odpowiedź: B, a następnie zaczyna się zamartwiać, że jego szanse zmalały do 1 (bo albo wyjdzie on, albo C). Czy to możliwe, że dane (wiedza o tym, że B wychodzi) zmieniły prawdopodobieństwo? Podobny paradoks można znaleźć rozważając prostą grę losową: mamy trzy kubeczki, pod jednym znajduje się nagroda. Wskazujemy na jeden z kubeczków, a wtedy prowadzący grę podnosi jeden z pustych kubeczków (ale nie nasz wybrany). Możemy teraz zmienić nasz wybór, albo przy nim pozostać. Co się bardziej opłaca? Żeby odpowiedź na to pytanie była całkowicie jasna, wyobraźmy sobie 100 kubeczków (pod jednym znajduje się nagroda). Losujemy kubeczek i z prawdopodobieństwem 1 100 trafiamy w nagrodę. Następnie prowadzący grę podnosi 98 pustych kubeczków. Teraz jest jasne, że powinniśmy wskazać na drugi z odwróconych kubeczków, żeby nasze szanse na zdobycie nagrody wzrosły do 1. Powróćmy do naszych więźniów i zastanówmy się, czy i kiedy dane zmieniają prawdopodobieństwo. Załóżmy, że opisana sytuacja powtarza się wielokrotnie (z kolejnymi trójkami więźniów o pseudonimach A, B i C). Są trzy możliwości wyboru pary więźniów wychodzących na wolność. Jeśli jest to para A i B, to strażnik na pytanie A kto wychodzi odpowie B, podobnie jeśli jest to para A i C, to strażnik musi odpowiedzieć C. W sytuacji, gdy A pozostaje w więzieniu odpowiedź strażnika może być B lub C. Oznaczmy przez S b zdarzenie, że

strażnik wskazuje na B i przyjmijmy, że P (S B BC) = x, dla 0 < x < 1. Niech A oznacza zdarzenie, że więzień A wychodzi na wolność, analogicznie BC jest zdarzeniem, że wolność odzyskują więźniowie B i C. Mamy: = P (A S B ) = P (AB S B ) + P (AC S B ) = P (S B AB) P (AB) P (S B AB) P (AB) + P (S B BC) P (BC) + P (S B AC) P (AC) = = 1 3 1 1 3 + x 1 + 0 = 1 1 + x 3 Widzimy z powyższych rachunków, że jeśli x = 1 to prawdopodobieństwo wyjścia na wolność więźnia A nie ulega zmianie, mimo znajomości danych. Jednak kiedy x 1 odpowiedź strażnika wnosi nową informację i szanse A rosną lub maleją..1 Rozkład a priori Zastanówmy się co uczynić jak nie znamy x (właściwie skąd mielibyśmy znać:). Często w modelu są takie nieznane (lub nieinteresujące) parametry. Wtedy rozwiązanie polega na "wycałkowaniu"ich, czyli liczymy: P (A S B ) = x P (A S B, x)p (x)dx = x 1 1 + x P (x)dx gdzie P (x) jest prawdopodobieństwem a priori. Zauważmy, że jest to prawdopodobieństwo prawdopodobieństwa sytuacja dość powszechna we wnioskowaniu bayesowskim. Jaki rozkład przyjąć może nasz więzień jako rozkład a priori? Jedną z możliwości jest rozkład jednorodny: P (x) = 1 dla 0 x 1. Wtedy: P (A S B ) = x 1 P (x)dx = ln = 0.693 1 + x Inny wynik otrzymamy zakładając skoncentrowany w punkcie x = 1 rozkład a priori: P (x) = δ(x 1 ) dla 0 x 1, gdzie δ(x) jest tak zwaną funkcj a impulsow a zwaną też funkcją delta Diraca, zdefiniowaną następująco: { + dla x = 0 δ(x) = 0 dla x 0 3

Funkcja delta Diraca może być uważana za funkcję rozkładu gęstości ciągłej zmiennej losowej zwanej zmienną pewną. Niech σ oznacza wariancję, a µ wartość oczekiwaną tej zmiennej. Wtedy zachodzi: δ(x µ) = lim f(x) σ 0 Dla takiego wyboru prawdopodobieństwa a priori mamy: P (A S B ) = 1 1 + 1 Naszym zadaniem będzie teraz wyestymować parametr x = P (S B BC), czyli prawdopodobieństwo, że strażnik wskaże więźnia B pod warunkiem, że kolejnego dnia zostaną zwolnieni B i C. Do tego zadania niezbędne są dane o historii poprzednich podpowiedzi strażnika w takich sytuacjach. Załóżmy, że te odpowiedzi były następujące (pamiętamy, że zawsze pyta więzień A o innego zwalnianego): = 3 BCBCCBCCCBBCBCBCCCCBBCBCCCBCBCBBCCB Mamy N = 35, N B = 15, N C = 0. Załóżmy przez chwile, że te dane pochodzą z serii niezależnych prób Bernoulliego. Ponieważ podchodzimy do sprawy "bayesowsko"interesuje nas prawdopodobieństwo a posteriori, czyli P (dane x). W tym momencie wyraźnie rysuje się różnica w podejściu tradycyjnym i bayesowskim. W tym pierwszym nie martwimy się o żadne rozkłady a priori, potrzebujemy jedynie wystarczającej statystyki (odpowiednio dużo prób), żeby policzyć: ( ) N P (dane x) = x N B (1 x) N C N B Natomiast w podejściu bayesowskim mamy następującą proporcjonalność (współczynnik dwumianowy znika w stałej proporcjonalności, gdyż nie zależy od x): P (dane x) x N B (1 x) N C P (x) gdzie P (x) jest rozkładem a priori. Za takim podejściem kryje się przesłanie, żeby użyć tylko tych danych, które widzimy, zamiast zakładać coś o wszystkich ( ) N N B permutacjach. Zakładając jednorodny rozkład a priori mamy: P (dane x) = x N B (1 x) N NB 1 Natomiast mianownik (stała normująca) wynosi: 1 0 x N B (1 x) N N B dx = Γ(N B + 1)Γ(N N B + 1) Γ(N + ) 4

Rysunek 1: Rozkład a posteriori dla X, czyli prawdopodobieństwa, że strażnik odpowie B na pytanie więźnia A, dla obserwowanych danych N = 35 i N B = 15. Rysunek 1 przedstawia gęstość dla rozkładu a posteriori zmiennej x = P (S B BC). Zauważmy, że estymator największej wiarygodności to po prostu procent odpowiedzi typu B: P (dane x) x = 0 = x = N B N Policzmy jeszcze średnią i odchylenie standardowe naszego estymatora dla x. < x >= 1 0 xp (dane x)dx = N B + 1 N + var(x) =< x > < x > = (N B + 1)(N N B + 1) (N + ) (N + 3) Widzimy, że rozkład jest coraz bardziej skupiony (ma mniejszą wariancję) wraz z przyrostem danych. 3 Estymacja największej wiarygodności Sformułujmy wymagania, jakie chcemy, żeby spełniał dobry estymator ˆθ dla parametru θ: estymator powinien być nieobciażony, czyli E(ˆθ) = θ. 5

powinien być również zgodny, czyli jeśli ξ n oznacza estymator z n obserwacji dla parametru ξ, to: ɛ > 0 P ( ξ n ξ > ɛ) n 0 powinien mieć również niską wariancję (jeśli jest nieobciążony), lub niski błąd średniokwadratowy (jeśli jest obciążony). 1 ostatnia pożądana własność to znana postać rozkładu dla estymatora lub chociaż rozkładu asymptotycznego. Okazuje się że estymator największej wiarygodności (ang. Maximum Likelihood Estimator MLE) spełnia większość tych postulatów. Rozważmy dyskretne zmienne losowe Y 1, Y,... Y n, niezależne o identycznym rozkładzie. Ich łączny rozkład wynosi: P (Y 1 ; ξ) P (Y ; ξ)... P (Y n ; ξ) gdzie ξ jest nieznanym parametrem, który chcemy wyestymować. Oznaczmy Y = (Y 1, Y,... Y n ). Wiarygodność to po prostu rozkład łączny traktowany jako funkcja parametru ξ. L(ξ, Y ) = P (Y 1 ; ξ) P (Y ; ξ)... P (Y n ; ξ) Wartość ˆξ, która maksymalizuje L(ξ, Y ) nazywamy estymatorem największej wiarygodności dla parametru ξ. W celu znalezienia tej wartości różniczkujemy funkcję wiarygodności: ξ L(ξ, Y ) = 0 log L(ξ, Y ) = 0 ξ Jeśli chcemy uzyskać konkretne oszacowanie parametru ξ dla danych y = (y 1, y,... y n ), po prostu podstawiamy dane do funkcji wiarygodności i liczymy maksimum dla L(ξ, y). Przykład 1 Niech zmienne Y 1, Y,... Y n maja rozkład Poissona z parametrem λ. L(λ, Y ) = e λ λ Y 1 Y 1! e λ λ Y Y!... e λ λ Yn Y n! = e nλ λ Y i (Yi!) log L(λ, Y ) = nλ + ( Y i ) log λ log( (Y i!)) Yi log L(λ, Y ) = n + = log L(λ, Y ) = 0 dla λ λ λ ˆλ = Ȳ Podsumowujac (nieobciażony) estymator MLE dla parametru λ jest równy średniej z obserwacji, a jego wariancja wynosi λ. n 1 W sytuacji kiedy błąd średniokwadratowy (MSE) dla estymatora obciążonego jest mniejszy niż wariancja dla nieobciążonego wariantu, lepiej wybrać estymator obciążony. 6

Przykład Rozważny n niezależnych prób Bernouilliego: { 0 z prawdopodobieństwem 1 p Y i = 1 z prawdopodobieństwem p L(p, Y ) = n p Y i (1 p) 1 Y i = p Y (1 p) n Y i=1 gdzie Y = n i=1 Y i jest suma sukcesów. Załóżmy, że a Y n 1, wtedy ˆp = Y = n Ȳ. Nasz estymator jest oczywiści nieobciażony i łatwo pokazać, że ma wariancję p(1 p), n a więc jest również zgodny. Powyższa konstrukcje łatwo uogólnić na przypadek rozkładu wielomianowego. Jednak w przypadkach brzegowych (dla Y = 0 lub Y = n) musimy postapić inaczej. Np, dla Y = n, funkcja wiarygodności wynosi p n p log L(p, Y ) = n p = 0 Widzimy, że powyższe równanie nie ma rozwiazania, czyli musimy szukać estymatora na brzegu obszaru zmienności dla p. Wiemy, że 0 p 1, czyli estymator MLE dla Y = n jest równy ˆp = 1. Rozważmy teraz przypadek zmiennych ciągłych o gęstości f X zależnej od parametru ξ. Funkcja wiarygodności jest równa: L(ξ, X) = f X (X 1 ; ξ) f X (X ; ξ)... f X (X n ; ξ) Przykład 3 Niech X 1, X,... X n maja rozkład normalny o średniej µ i znanej wariancji σ. Naszym zadaniem jest znaleźć estymator największej wiarygodności dla µ. Po zlogarytmowaniu otrzymujemy: L(µ, X) = n 1 e (X i µ) σ πσ i=1 stała niezależna od µ n (X i µ) i=1 σ = ˆµ = X Estymator jest nieobciażony i ma wiariancję σ. Korzystaj ac z nierówności Czebyszewa możemy pokazać zgodność n estymatora. 7

Literatura [1] Julian J. Faraway Practical Regression and Anova using R, 00. [] K. Seefeld, E. Linder, Statistics using R with biological examples, 007. [3] W.P. Krijnen Applied statistics for bioinformatics using R, 009. [4] S.K. Mathur, Statistical Bioinformatics with R, Elsevier Academic Press, 010. [5] W. J. Ewens, G. R. Grant, Statistical Methods in Bioinformatics Springer-Verlag, 001. 8