Metoda największej wiarygodności

Metoda największej wiarygodności Próbki w obecności tła Funkcja wiarygodności Iloraz wiarygodności Pomiary o różnej dokładności Obciążenie Informacja z próby i nierówność informacyjna Wariancja minimalna Własności asymptotyczne funkcji wiarygodności Jednoczesna estymacja kilku parametrów Przedziały ufności 1

Pobieranie próbki w obecności tła Często w eksperymencie mamy do czynienia z sytuacją, gdy zaobserwowane zdarzenie może być tego rodzaju, który badamy (sygnał) lub innego typu (tło) i nie jesteśmy ich w stanie odróżnić. Można zaproponować prawdopodobieństwo zaobserwowania n S przypadków sygnału, n B przypadków tła, w sumie n przypadków: f n S ; S = 1 n S! e S S n S f n B ; B = 1 n B! e B n B B f n ; S B = 1 n! e S BS B n Jednak wzory te nie uwzględniają ograniczeń na liczby n B i n S, np. takich, że n B nie może być większe niż zaobserwowane k.

Próbki z tłem normalizacja Rozkład dla przypadków tła należy obciąć na k: f ' n B ; B = f n B ; B / nb =0 Podobnie dla rozkładu dla sumy przypadków: f ' n ; S B = f n ; S B / nb =0 Teraz można już obliczyć granice przedziału ufności poszukiwanego parametru λ S przy poziomie ufności 1-α: gdzie F' jest dystrybuantą zrenormalizowanej gęstości prawdopodobieństwa: zaś dla górnej granicy prawdopodobieństwa: k f n B ; B, n B k k f n B ; B, n B k / =F ' k1; S B 1 / =F ' k ; S B F ' k ; S B = n=0 K 1 f ' n ;S B =P K k =F ' k1; S up B 3

Funkcja wiarygodności Pewien zbiór parametrów λ określa gęstość prawdopodobieństwa f dla zmiennych x: = 1,,, p f = f x ; X = x 1, x,, x n Pomiar wielkości X, czyli pobranie próby o liczności 1 może prowadzić do uzyskania wyniku x (j). dp j = f x j ;dx jest wtedy prawdopodobieństwem a posteriori. Mówi, jakie było prawdopodobieństwo uzyskania wyniku x (j) takiego, że x i (j) <x (j) <x i (j) +dx, i=1,...,n Dla próby o elementach: x 1, x,, x j,, x mamy iloczyn prawdopodobieństw: dp= j=1 f x j ;d x 4

Iloraz wiarygodności Takie prawdopodobieństwo jest funkcją parametrów λ. Gdy wiemy, że badana populacja jest scharakteryzowana jednym z dwóch możliwych zestawów parametrów, możemy określić iloraz wiarygodności: Mówi on, że zbiór parametrów λ 1 jest Q razy bardziej prawdopodobny niż zbiór λ. Q= j=1 j=1 f x j ; 1 d x f x j ; d x 5

Funkcja wiarygodności Funkcją wiarygodności nazywamy iloczyn: L= j=1 Jest to odpowiednik gęstości prawdopodobieństwa ale jako że jest określony a posteriori i jest funkcją próby jest więc zmienną losową. ajwiększą ufnością obdarzymy ten zestaw parametrów, dla którego funkcja wiarygodności ma maksymalną wartość. Aby ułatwić znalezienie maksimum, wprowadzamy czyli logarytmiczną funkcję wiarygodności. W oczywisty sposób ma ona maksima dla tych samych λ co funkcja wiarygodności. f X j ; l=ln L= j=1 ln f X j ; 6

Równanie wiarygodności W najprostszym przypadku, gdy mamy tylko jedną składową λ problem redukuje się do rozwiązania równania wiarygodności: czyli: gdzie: l '= j=1 l '=dl /d =0 d d ln f X j ;= j=1 jest pochodną logarytmiczną f względem λ Gdy wektor λ ma p składowych, mamy układ równań: f ' f = j=1 x ;= j d d ; f x j / f x j ; l i =0, i=1,,, p x j ; 7

Pomiary o różnej dokładności Mierzymy wielkość różnymi przyrządami. Każdy pomiar x (j) ma w ogólności inny błąd σ j ale układa się wokół wartości rzeczywistej, która będzie naszym szukanym parametrem λ. Przy założeniu, że błędy mają rozkład normalny mamy pobieranie próby o liczności 1 z rozkładów Gaussa o a=λ, σ=σ j f X j ;dx= 1 j exp x j dx j Dla pomiarów funkcja wiarygodności wynosi: L= j=1 j exp x j j 1 8

ajbardziej wiarygodny wynik Logarytmiczna funkcja wiarygodności wynosi: Równanie wiarygodności przybiera postać: A jego rozwiązanie to: l= 1 x j const j=1 dl d = j=1 = j=1 Czyli wynik najbardziej wiarygodny jest średnią ważoną pomiarów, gdzie waga każdego pomiaru jest odwrotnością jego wariancji. j x j j =0 x j j / j=1 1 j 9

Uśrednianie wielu pomiarów przykład S. Eidelman et al., Phys. Lett. B 59, 1 (004) Pomiar stałej sprzężenia oddziaływań silnych szukanie najbardziej wiarygodnego wyniku 10

Wartość obciążenia estymatora Estymator S nazywamy nieobciążonym, gdy wartość obciążenia B(λ) wynosi 0 dla każdego : B=E S =0 Wariancja σ (S) powinna być też jak najmniejsza. Czasem trzeba szukać kompromisu między tymi warunkami. Mamy estymator (funkcję próby x): S x 1, x,, x Łączna gęstość prawdopodobieństwa próby to: f x 1, x,, x ;= f x 1 ; f x ; f x ; A wartość oczekiwana estymatora to: E S = S x 1, x,, x f x 1 ; f x ; f x ;dx 1 dx dx Przekształcając wzór początkowy mamy: E S =B 11

Obciążenie a funkcja wiarygodności Różniczkując pod całką względem λ: 1B ' = S j=1 czyli w skrócie: 1+B'(λ) = E(S l') Podobnie różniczkując warunek normalizacji: otrzymujemy: j=1 =E { S j=1 f ' x j ; f x j ; f ' x j ; f x j ; f x1 ; f x ;dx 1 dx dx f ' x j ; f x j ; } =E {S j=1 Łączymy oba równania mnożąc drugie przez E{S} x j ;} f x 1 ; f x ;dx 1 dx =1 f x 1 ; f x ;dx 1 dx dx =E {l ' }=0 1B ' =E {S l ' } E {S } E {l ' }=E {[S E {S }]l ' } 1

Informacja z próby Jeśli X i Y są zm. los. i X i Y mają skończone wartości oczekiwane, to E { XY } E { X } E {Y } Wtedy: [1B ' ] E {[S E {S }] } E {l ' } E{l' } wyrażamy korzystając w definicji l': E {l ' }=E { j=1 x j, } =E { j=1 x j ; }E { i j x i ; x j ;} Wyrazy mieszane znikają i możemy napisać: E {l ' }=E { j=1 x j, }=E { j=1 Składniki sumy są niezależne. Definiujemy informację próby ze względu na λ: I =E {l ' }= E { f ' x j ;/ f x j ; } f ' x j ; f x j ; } 13

ierówność informacyjna Różniczkując względem λ wyrażenie: Otrzymujemy: { E f ' x ; } f x ; = 0 = { f ' f f ' x ; f x ; f x ;=0 f ' f ' } f dx=e { f ' f Czyli informację możemy wyrazić przez: } E { f ' f '} I = E { f ' x ; f x ; A więc I(λ) = E{l' } = - E{l''}. Wprowadzamy nierówność informacyjną: } { f ' x ; = E f x ; [1B ' ] S I, lub S = '} [1B ' ] I 14

Wariancja minimalna ierówność informacyjna podaje związek pomiędzy obciążeniem, wariancją i informacją. Stanowi też ograniczenie od dołu dla minimalnej wariancji danego estymatora. Dla znikającego obciążenia mamy: σ (S) 1/I(λ). Można wykazać, że estymator o minimalnej wariacji jest związany z f. wiarygodności postaci: L=expl=exp[ l ' d ]=exp[ AS E {S }d ]=d exp {BSC } Dla estymatora o minimalnej wariancji mamy: S =1/ I =1/ E {l ' } Korzystając ze wzoru na l' mamy: 1 S = A E {S E S } = 1 A S, S = 1 A 15

Funkcja wiarygodności przykłady Rozkład Poissona f k = k k! e Funkcja wiarygodności l= j=1 {k j ln ln k j! } oraz jej pochodna dl d =l '= j=1 1 j=1 { j k 1 } = {k j }= K Średnia arytmetyczna z k jest nieobciążonym estymatorem o minimalnej wariancji Rozkład dwumianowy Stąd: czyli średnia arytmetyczna k/n jest estymatorem o minimalnej wariancji równej λ(1-λ)/n Lk,= n k k 1 n k l=ln L=k ln n k ln 1 ln n k l '= k n k 1 = n k 1 n 16

Kombinacja błędów Wracamy do problemu wielokrotnych pomiarów tej samej wielkości metodami o różnych błędach Przekształcamy to wyrażenie do: l '= j=1 x j j=1 j dl d =l '= j=1 x j Widzimy, że estymator wartości średniej jest nieobciążony i ma minimalną wariancję: Czyli uśredniamy błędy w kwadratach 1 j = j=1 S= = j=1 j { = j=1 j j=1 x j j / j=1 1 j 1 1 j x j / 1 j=1 j } j 17

Własności asymptotyczne Badamy asymptotyczne własności estymatorów i funkcji wiarygodności dla. Estymator S= to rozwiązanie równania wiarygodności: l ' =0 Rozwijamy l'(λ) w szereg Taylora wokół : l ' =l ' l ' ' Drugie wyrażenie można asymptotycznie zamienić przez wartość oczekiwaną z próby: l ' ' = f j=1 Posługując się znaną zależnością mamy: Wartość b nie zależy od próby, a jedynie od f i ' ' x j ; { E f ' x j ; f x j ; f x j ; l ' ' =E l ' ' = E l ' = I =1/b ' } 18

Obciążenie, zgodność z r. normalnym Zaniedbując wyrazy wyższego rzędu: l ' =1/b l =1/ b c Wyznaczamy stałą c i wracamy do funkcji L: l l = 1 L=k exp[ ] b b Czyli funkcja wiarygodności ma postać rozkładu normalnego o wart. średniej i wariancji b. Jednocześnie widzimy, że jest nieobciążonym estymatorem o minimalnej wariancji: =b = 1 I = 1 E l ' = 1 E l ' ' Zachodzi to tylko dla, czyli asymptotycznie. Funkcja wiarygodności L(λ) jest miarą prawdopodobieństwa, że wartość prawdziwa λ 0 : 0 19

F. wiarygodności dla małych Wyznaczamy średni czas życia jądra promieniotwórczego na podstawie małej liczby pomiarów. Wychodzimy od znanej gęstości prawd. Mając daną próbę t 1, t,..., t, wyznaczamy funkcję wiarygodności L i jej logarytm l: L= 1 exp { 1 i=1 f tdt= 1 exp t dt t i} = 1 exp { t } oraz pochodną względem szukanego parametru τ l '= t 1 = t l= t ln Widzimy, że t jest rozwiązaniem o największej wiarygodności i wariancji = /, stąd =t / 0

Małe rysunek Dla =t mamy: l =l max = 1ln t czyli ostatecznie: l l = t ln t 1 Wartości Δ + i Δ - spełniające równanie l / l =1/ stanowią błędy niesymetryczne wartości τ. Zwiększając dążymy do rozkładu symetrycznego 1

Jednoczesna estymacja kilku param. Próbujemy jednocześnie estymować kilka parametrów λ=(λ 1,λ,...,λ p ). Funkcję wiarygodności: L X 1, X,, X j ;= j=1 rozwijamy w szereg Taylora wokół = 1, korzystając z tego, że pierwsze pochodne w punkcie ekstremalnym znikają, mamy: ln f X j ; l l =1/ T A A= l l l 1 1 1 p l l l 1 p l l l p 1 p p,, p i

Przedziały ufności W granicy dla można zastąpić macierz A odpowiednimi wartościami oczekiwanymi: B=E{A}. Zaniedbując wyrazy wyższych rzędów mamy: L=k exp { 1/ T B } czyli mamy p-wymiarowy rozkład normalny. Wariancje estymatorów dane są przez elementy diagonalne, el. pozadiagonalne dają kowariancje: i =c ii, cov j, k =c jk, j, k =cov j, k / j k, i =c ii Przedział ufności musi oczywiście uwzględniać kowariancje, czyli leżeć wewnątrz elipsoidy kowariancji spełniającej równanie: g =1 = {l l }= T B Dla g(λ)=1 mamy obszar ufności z prawd. 68,3%. Inne obszary otrzymujemy biorąc g(λ)=const 3