Komputerowa analiza danych doświadczalnych Wykład 10 8.04.017 dr inż. Łukasz Graczykowski lgraczyk@if.pw.edu.pl Semestr letni 016/017
Metoda największej wiarygodności - przykład ierównosć informacyjna Przykłady funkcji wiarygodności i prawo kombinacji niepewności Własności asymptotyczne
Metoda największej wiarygodności (Maximum likelihood method)
Funkcja wiarygodności Funkcją wiarygodności nazywamy iloczyn postaci: L= f ( X ( j) ; λ ) l=ln L= ln f ( X ( j) ; λ )= f '(X ( j) ;λ ) f (X ( j) ;λ ) Funkcja wiarygodności jest zmienną losową (jest funkcją próby) ajwiększą ufnością obdarzamy zbiór parametrów, dla którego funkcja wiarygodności osiąga maksymalną wartość Jak wyznaczyć maksimum? warunek konieczny: przyrównać pierwszą pochodną L do zera Różniczkowanie iloczynu jest jednak niewygodne, wprowadzamy więc logarytm funkcji wiarygodności L: Funkcją wiarygodności jest odpowiednikiem gęstości prawdopodobieństwa, tylko określona dla parametrów. Ponieważ jest funkcją próby losowej, jest również zmienną losową Równania wiarygodności: KADD 017, Wykład 10 l λ i =0, i=1,,, p l=ln L= ln f ( X ( j) ; λ ) 4 / 34
Przykład estymacja param. rozkładu norm. KADD 017, Wykład 10 5 / 34 Przykład: badamy rozkład wagi studentek amerykańskich college'ów rozkład wagi studentek w populacji jest opisany rozkładem normalnym o wartości średniej μ i wariancji σ załóżmy, że wybraliśmy =10 reprezentantów, których wagi (w kg) X ( j) układają się następująco: 5, 55,3 59,0 57,6 67,6 7,6 68,9 6,6 67,6 81,6 Zadanie: na podstawie wyniku pomiaru znajdż najbardziej wiarygodną estymację parametrów rozkładu oczywiście funkcja rozkładu prawdopodobieństwa każdego wyniku (wagi studentek) dana jest wzorem: f ( X ( j) ;μ,σ )= 1 σ π exp ( ( X( j) μ ) konstruujemy funkcję wiarygodności: L( ^μ, ^σ)=σ n ( π) exp[ n / 1 ( X ( j) ^μ ) ] ^σ σ )
Przykład estymacja param. rozkładu norm. KADD 017, Wykład 10 6 / 34 konstruujemy funkcję wiarygodności: L( ^μ, ^σ)= ^σ n ( π) exp[ n / 1 ( X ( j) ^μ ) ] ^σ oraz logarytmiczną funkcję wiarygodności: l( ^μ, ^σ)=ln L( ^μ, ^σ)=ln( n/[ ^σ ( π) 1 ( X ( j) ^μ ) ^σ równania wiarygodności: dl( ^μ, ^σ) =0 d ^μ dl( ^μ, ^σ) = d ^μ dl( ^μ, ^σ) d ^σ =0 ]) = 1 ^σ ( X ( j) ^μ )( 1) =0 ( X ( j) ) ^μ=0 ^μ= σ n ( X ( j) dl( ^μ, ^σ) d ^σ = n ^μ ) ^σ + =0 ^σ = ^σ ( X ( j) ^μ ) n ( X ( j) ^μ ) +const dla formalności powinniśmy jeszcze sprawdzić drugie pochodne... X ( j)
Przykład estymacja param. rozkładu norm. KADD 017, Wykład 10 7 / 34 liczymy estymatory: ^μ= n n X ( j) otrzymaliśmy (poprzez metodę największej wiarygodności) estymację parametrów rozkładu normalnego całej populacji na podstawie pomiaru próby Koniec =645/10=64,5 ^σ = n ( X ( j) ^μ ) n =714/10=71.4
ierówność informacyjna
KADD 017, Wykład 10 ierówność informacyjna 9 / 34 Pytanie: jak skonstruować estymator o optymalnych własnościach? estymator jest nieobciążony, jeżeli wartość obciążenia dla każdej próby: B(λ)=E(S) λ=0 oraz (estymator zgodny) wariancja estymatora jest jak najmniejsza (dąży do 0 dla liczebności próby losowej dążacej do nieskończoności): σ (S) - minimalna bardzo często istnieje jednak związek pomiędzy obciążeniem a wiarancją i musimy szukać kompromisu taki związek nazywamy nierównością informacyjną Po dłuższych przekształceniach (Wykład 9, Brandt) otrzymujemy nierówność informacyjną związek między obciążeniem, wariancją i informacją zawartą w próbie: (B' (λ)+1) σ (S) I (λ) I (λ)=e(l ' )= E(l ' ') I (λ)=e(l ' )=E(( f ' (x( j) ; λ) f (x ( j) ;λ) l '= f ' (x ( j) ; λ) f ( x ( j) ; λ) ))
KADD 017, Wykład 10 ierówność informacyjna 10 / 34 ierówność informacyjna: (B' (λ)+1) σ (S) I (λ) ierówność informacyjna to związek pomiędzy obciążeniem, wariancją i informacją zawartą w próbie Jest to definicja ogólna. Prawa strona jest dolnym ograniczeniem dla wariancji danego (dowolnego) estymatora ograniczenie to nazywamy ograniczeniem minimalnej wariancji albo ograniczeniem Cramea-Rao Kiedy obciążenie nie zależy od λ, a w szczególności gdy znika (równa się zero), nierówność redukuje się do: σ (S) 1 I (λ) l '= f ' (x ( j) ; λ) f ( x ( j) ; λ)
KADD 017, Wykład 10 ierówność informacyjna 11 / 34 Możemy teraz zadać pytanie: jaki jest warunek osiągnięcia minimalnej wariancji? Innymi słowy, kiedy we wzorze Cramea-Rao zachodzi równość? Można pokazać (Brandt), że zajdzie tak, gdy: l '=A (λ)(s E(S)) l=b(λ) S+C (λ)+d L=d exp ( B(λ)S+C (λ)) Wtedy w przypadku estymatora nieobciażonego o minimalnej wariancji otrzymujemy: σ (S)= 1 I (λ) = 1 E(l ' ) σ (S)= 1 A (λ) Estymatory spełniające powyższe warunki nazywamy estymatorami o najniższej wariancji Jeżeli zamiast: L=d exp ( B(λ)S+C (λ)) spełniony jest słabszy warunek: L=g(S ; λ)c( X (1), X (),..., x () ) Wtedy S nazywamy estymatorem wystarczającym dla λ E(S)=B(λ)+λ
Przykłady funkcji wiarygodności
Przykłady funkcji wiarygodności Rozkład Poissona Rozkład dwumianowy f k = k k! e Funkcja wiarygodności ( l= {k j) ln λ ln(k ( j)!) λ } oraz jej pochodna dl d λ =l '= { k( j) λ 1 }= 1 λ {k ( j) λ }= λ ( K λ) Średnia arytmetyczna z k jest nieobciążonym estymatorem o minimalnej wariancji równej KADD 017, Wykład 10 λ L(k ;λ)= ( n k) λk (1 λ) n k Stąd: l=ln L=k ln n k ln 1 ln n k l ' = k n k 1 = n k 1 n czyli średnia arytmetyczna k/n jest estymatorem o minimalnej wariancji równej λ(1-λ)/n 13 / 34
Prawo kombinacji niepewności
KADD 017, Wykład 10 Prawo kombinacji niepewności 15 / 34 Powróćmy do problemu z poprzedniego wykładu wielokrotny pomiar tej samej wielkości z różną dokładnością, lub (równoważnie) problem pobierania próby z rozkładów normalnych o jednakowej wartości średniej λ i różnych, lecz znanych wariancjach σ j Jak pamiętamy, logarytmiczna funkcja wiarygodności i jej pochodna dla takiego przypadku: l= 1 ( X ( j) λ ) +const l '= dl σ d λ = X ( j) λ =0 σ j Możemy pochodną przekształcić: ( j X ( j) l '= X ( j) σ λ j σ = 1 σ j j σ j 1 I jego rozwiązanie: S= ~ λ= X ( j) σ / 1 σ j λ) j σ j Estymator S jest nieobciążonym estymatorem wartości średniej λ.
KADD 017, Wykład 10 Prawo kombinacji niepewności 16 / 34 l '= X ( j) σ j λ σ = j Wzór ten określamy jako prawo kombinacji niepewności, lub (bardziej kolokwialnie) uśrednianie niepewności w kwadratach Analogicznie jak w prawie dodawania niepewności 1 σ j ( 1 Ze wzorem: σ j l '=A (λ)(s E(S))=A (λ)(s B(λ) λ) dla S= ~ λ i B(λ)=0 l '= A (λ)( ~ λ λ) Widzimy, że estymator ten ma również minimalną wariancję. Jaka ona jest? Posłużmy się wzorem: σ (S)= 1 Czyli: σ ( ~ λ )= 1 A (λ) 1 σ j σ j λ)= 1 σ j (~ λ λ ) Jeśli teraz porównamy: X ( j)
KADD 017, Wykład 10 Prawo kombinacji niepewności 17 / 34 Możemy zauważyć, że jeżeli wszystkie pomiary mają jednakową dokładność, otrzymamy: ~ λ= X, σ ( ~ λ )= σ Analogicznie jak na Wykładzie 7, gdy liczyliśmy wartość oczekiwaną i wariancję z próby Wniosek: w zależności od potrzeb, możemy stosować podejście zarówno poprzez obliczanie estymatorów, jak i poprzez metodę największej wiarygodności
Estymatory wartość oczekiwana KADD 017, Wykład 10 18 / 34 Wartość średnia ze wszystkich elementów próby jest zmienną losową (jest funkcją zmiennych losowych). Jej wartość oczekiwana (tej średniej): E( X )= 1 n ( E( X 1 )+ E( X )+ + E( X n ))=E( X )= ^x, dla każdego n Wniosek: wartość średnia (arytmetyczna) z próby to estymator nieobciążony wartości oczekiwanej zmiennej X w populacji Możemy obliczyć wariancję wartości średniej: σ ( X )=E { X E( X)} {( =E x 1+ x + + x n n ^x)} PRZYPOMIEIE WYKŁAD 7 = 1 n E {[( X 1 ^x)+(x ^x)+ +( X n ^x)] } Z uwagi na niezależność zmiennych kowariancje między zmiennymi Xi znikają, czyli ostatecznie: σ ( X )= 1 n σ ( X ) lim n σ ( X )=0 Wniosek: wartość średnia (arytmetyczna) z próby jest również estymatorem zgodnym wartości oczekiwanej
Własności asymptotyczne estymatorów i funkcji wiarygodności
Własności asymptotyczne estymatorów i fun. KADD 017, Wykład 10 0 / 34 Omówimy teraz niektóre własności funkcji wiarygodności i estymatorów największej wiarygodności dla dużych prób, czyli Estymator S= ~ λ jest zdefiniowany jako rozwiązanie równania wiarygodności: l ' (λ)= ( f ' (X ( j) ; λ) f ( X ( j) ; λ) )~ λ =0 Rozwijamy l ' (λ) na szereg Taylora wokół punktu Czyli: l ' (λ)=l ' ( ~ λ)+(λ ~ λ)l ' ' ( ~ λ)+... Pierwszy wyraz z prawej strony znika (z uwagi na r. wiar.), drugą pochodną możemy zaś zapisac jako (w granicy ): l ' ' ( ~ λ )= ( f ' ( X ( j) ' ;λ) f (X ( j) ; λ) )~ λ Jeśli teraz posłużymy się wzorem: l ' ' ( ~ λ)=e(( f ' ( X ( j) ' ; λ) f ( X ( j) ; λ) )~ λ ) λ= ~ λ I (λ)=e(l ' )= E(l ' ')
KADD 017, Wykład 10 1 / 34 Własności asymptotyczne estymatorów i fun. W takim przypadku możemy zapisać: l ' ' ( ~ λ )=E(l ' ' ( ~ λ))= E(l ' ( ~ λ ))= I ( ~ λ)= 1/b Innymi słowy: zastąpiliśmy drugą pochodną logarytmicznej funkcji wiarygodności l ' ' ( ~ λ ), która jest funkcją próby, liczbą, która zależy jedynie ~ od gęstości f i estymatora λ Czyli nasze rozwinięcie na szereg Taylora (pomijając wyższe wyrazy): l ' (λ)=( 1/b )(λ ~ λ ) l (λ)=( 1/b )(λ ~ λ ) +c Stałą c wzynaczamy podstawiając: λ= ~ λ c=l( ~ λ) I ostatecznie dostajemy (k=const): l(λ) l( ~ λ )= 1 (λ ~ λ) b ~ λ) L(λ)=k exp( (λ ) b analogicznie do σ (S)= 1 A ( ~ λ) σ (S)= 1 I ( ~ λ) = 1 E(l ' ) stała Funkcja wiarygodności (dla dużych ) ma więc rozkład normalny
Własności asymptotyczne estymatorów i fun. KADD 017, Wykład 10 / 34 Funkcja wiarygodności (dla dużych ) ma więc rozkład normalny L(λ)=k exp( (λ ~ λ ) ) dla λ= ~ λ, u( ~ λ)=b λ= ~ λ±b b otrzymujemy (l(λ) l( ~ λ))= 1 Ponieważ estymowaliśmy parametr λ mamy więc: S= ~ λ, E(S)=λ ~ Czyli λ jest nieobciążonym estymatorem o minimalnej wariancji wynoszącej: σ ( ~ λ )=b = 1 I ( ~ λ) = 1 E(l ' ( ~ λ)) = 1 E(l ' ' ( ~ λ)) Estymator ma wszystkie właściwości (nieobciążony, zgodny, z minimalną wariancją) jedynie w granicy Taki estymator nazywany jest estymatorem asymptotycznie nieobciążonym Analogicznie możemy powiedzieć, że funkcja wiarygodności jest asymptotycznie normalna
Własności asymptotyczne estymatorów i fun. KADD 017, Wykład 10 3 / 34 Powiedzieliśmy sobie poprzednio, że funkcja wiarygodności jest miarą prawdopodobieństwa (rozkładem prawdopodobieństwa), ale dla parametrów badanego rozkładu prawd. danej cechy Zatem estymację parametru możemy przedstawić jako wynik i niepewność typu A: λ= ~ λ, u(λ)=σ( ~ λ) Ponieważ funkcja wiarygodności asymptotycznie dąży do rozkładu normalnego, możemy powiedzieć, że wartość prawdziwa estymowanego parametru zawarta jest w przedziale: ~ ~ λ σ( λ)<λ0 < ~ λ+σ( ~ λ) z prawdopodobieństwem 68,3% ( jeden sigma ) Podane związki możemy stosować jedynie dla prób o dużym, dokładność przybliżeń zależy jednak również od rozpatrywanej funkcji gęstości w każdym przypadku musimy zdecydować, czy powyższa procedura jest uprawniona do zastosowania
Przykład wyznaczanie średniego czasu życia KADD 017, Wykład 10 4 / 34 Przykład: chcemy zbadać średni czas τ życia jądra jakiegoś izotopu promieniotwórczego Prawdopodobieństwo że, istniejące w chwili t=0 jądro promieniotwórcze rozpadnie się w przedziale czasu od t do t+dt wynosi: f (t)dt= 1 τ exp ( t / τ )dt Badamy oczywiście pewną próbkę zawierającą wiele jąder załóżmy, że zaobserwowaliśmy rozpady w chwilach: t 1, t,...,t Konstruujemy zatem odpowiednią funkcję wiarygodności: L( τ)= 1 τ exp ( 1 τ i=1 t i) = 1 τ exp ( τ t ) Obliczamy logarytm i pierwszą pochodną: l(τ)=ln L( τ)= τ t ln τ l ' ( τ)= ( τ t τ 1)= ( t τ ) τ
Przykład wyznaczanie średniego czasu życia KADD 017, Wykład 10 5 / 34 Porównując to ze wzorem: l '=A (λ)(s E(S))=A (λ)(s B(λ) λ) dla S= ~ λ i B(λ)=0 l '= A (λ)( ~ λ λ) Widzimy, że rozwiązaniem o największej wiarygodności jest: ~ τ = t σ ( ~ τ )=τ / dla τ= ~ τ=t σ ( ~ τ )= t / σ ( ~ λ )= 1 Wstawiając τ= ~ τ= t do wzoru na l otrzymamy: l( ~ τ)=l max = (1+ln t ) Czyli: (l( τ) l( ~ τ ))= ( t τ +ln τ t 1 ) l ' ( τ)= ( τ t τ 1)= ( t τ ) τ W tym wyrażeniu trudno jest rozpoznać asymptotyczną postać równania: l(λ) l( ~ λ )= 1 (λ ~ λ) ~ λ) L(λ)=k b exp( (λ ) b 1 σ j = σ
Przykład wyznaczanie średniego czasu życia KADD 017, Wykład 10 6 / 34 Czyli nie możemy od razu zastosować rozumowania, że wartoć prawdziwa estymowanego mieści się w przedziale: ~ ~ λ σ( λ)<λ0 < ~ λ+σ( ~ λ) z prawdopodobieństwem 68,3% ( 1 sigma ) Możemy jednak zdefiniować wartości oraz takie, że: τ + τ τ + = ~ τ +Δ + τ = ~ τ +Δ Które spełniają warunek: (l( τ±) l ( ~ τ ))= 1 Wzór ten definiuje niepewności niesymetryczne (asymetryczne) W granicy oczekiwalibyśmy: Δ, Δ + u( ~ τ )=σ( ~ τ ) Patrz rysunek na następnym slajdzie
Przykład wyznaczanie średniego czasu życia KADD 017, Wykład 10 Rysunek przedstawia funkcję: (l l max )= (l( τ) l ( ~ τ )) Punkty τ +, τ znajdują się na przecięciu z prostą: (l( τ) l( ~ τ ))=1/ Krzyżem jest zaznaczony punkt: ~ τ = t Widzimy, że wraz ze zwiększaniem się funkcja (l l max )= (l( τ) l ( ~ τ )) Coraz bardziej przybiera kształst symetrycznej paraboli a niepewności asymetryczne coraz mniej się różnią od siebie 7 / 34
Jednoczesna estymacja kilku parametrów
Jednoczesna estymacja kilku parametrów KADD 017, Wykład 10 9 / 34 Jak już pamiętamy, w najogólniejszym przypadku mamy pewną ilość p parametrów λ =(λ 1, λ,...,λ p ), które chcemy estymować. Wtedy funkcja wiarygodności i równania wiarygodności: L= f ( X ( j) ; λ ) iestety, w przypadku wielu parametrów wszystko nam się komplikuje dodatkowo z uwagi na możliwe korelacje pomiędzy parametrami Analogicznie jak dla 1 parametru, rozwijamy funkcję wiarygodności: L( X (1), X (),, X ( j) ;λ )= na szereg Taylora wokół punktu: Korzystając ze znikania 1-szych pochodnych dostajemy wtedy: Gdzie macierz A: l=ln L= ln f (X ( j) ; λ ) (l(λ ) l( ~ λ ))=1/(λ ~ λ ) T A(λ ~ λ )+ ln f ( X ( j) ; λ) ~ ~ ~ λ=( λ 1, λ,..., ~ λ p ) A=( l λ 1 l λ λ 1 l λ p λ 1 l λ i =0, i=1,,, p l λ 1 λ l λ l λ p λ l λ 1 λ p ) l λ λ p l λ p
Jednoczesna estymacja kilku parametrów KADD 017, Wykład 10 30 / 34 W granicy można zastąpić macierz A odpowiednimi wartościami oczekiwanymi B=E( A) Jeśli zaniedbamy wyrazy wyższych rzędów w rozwinięciu na szereg Taylora, dostaniemy wówczas funkcję wiarygodności postaci: L=k exp ( 1/(λ ~ λ ) T B(λ ~ λ)) Analogicznie jak dla jednego parametru, mamy tutaj p-wymiarowy rozkład normalny z macierzą kowariancji (dla estymatorów) Wariancje estymatorów największej wiarygodności dane są przez elementy diagonalne macierzy C: ~ λ 1, ~ λ,..., ~ λ p Elementy pozadiagonalne są kowariancjami poszczególnych par estymatorów: cov ( ~ λ j, ~ λ k )=c jk σ ( ~ λ i )=c ii C=B 1 Możemy zdefiniować współczynnik korelacji między estymatorami: ρ( ~ λ j, ~ λ k )= cov(~ λ j, ~ λ k ) σ ( ~ λ j )σ( ~ λ k )
Jednoczesna estymacja kilku parametrów KADD 017, Wykład 10 31 / 34 Analogicznie jak w przypadku z jednym parametrem, niepewnością estymacji (typu A) będzie pierwiastek kwadratowy z wariancji estymatora: u( ~ λ i )=σ( ~ λ i )= c ii W przypadku 1D stwierdziliśmy, że za pomocą estymatora i jego niepewności możemy zdefiniować przedział obejmujący wartość prawdziwą estymowanego parametru z prawdopodobieństwem 68,3%. W przypadku wielowymiarowym przedział ten będzie określony również przez pełną macierz kowariancji (zależności między parametrami) Innymi słowy: obszar taki sprowadza się do elipsy kowariancji, analogicznej jak dla zmiennych losowych czyli mamy elipsy kowariancji dla estymowanych parametrów naszego rozkładu Równanie elipsoidy kowariancji (p-wymiarowa przestrzeń): g(λ)=1= {l(λ) l( ~ λ)}=(λ ~ λ ) T B(λ ~ λ ) Dla g(λ)=1 mamy obszar ufności z prawdopodobieństwem 68,3%
Metoda najw. wiar. a programy do analizy KADD 017, Wykład 10 3 / 34
Metoda najw. wiar. a programy do analizy KADD 017, Wykład 10 33 / 34
Metoda najw. wiar. a programy do analizy KADD 017, Wykład 10 34 / 34
KOIEC