Komputerowa analiza danych doświadczalnych Wykład 9 7.04.09 dr inż. Łukasz Graczykowski lukasz.graczykowski@pw.edu.pl Semestr letni 08/09
Metoda największej wiarygodności ierównosć informacyjna
Metoda największej wiarygodności
Magiczna funkcja fit Do tej pory zajmowaliśmy się estymacją parametrów rozkładów, wprowadziliśmy estymatory i warunki, jakie powinny spełniać. ie zajmowaliśmy się natomiast sposobem ich konstruowania (oprócz estymatora wartości oczekiwanej i wariancji) W praktyce mamy pewien zestaw danych (punkty pomiarowe) i chcemy do niego dopasować jakiś model teoretyczny, który pozwoli nam określić jego parametry http://cms.web.cern.ch/news/very-rare-decay-has-been-seen-cms https://www.ndm.ox.ac.uk/principal-investigators/researcher/joel-tarning 4 / 5
Magiczna funkcja fit http://www.mathwave.com/articles/fit-distributions-excel.html 5 / 5
Magiczna funkcja fit 6 / 5
Funkcja wiarygodności Do tej pory zajmowaliśmy się estymacją parametrów rozkładów, wprowadziliśmy estymatory i warunki, jakie powinny spełniać. ie zajmowaliśmy się natomiast sposobem ich konstruowania (oprócz estymatora wartości oczekiwanej i wariancji) Problem ogólny: mamy zbiór p parametrów: λ =(λ, λ,..., λ p ) określony gęstością prawdopodobieństwa: f =f ( x ; λ ) dla n zmiennych losowych: X=( X, X,..., X n ) Jeden pomiar wielkości X, czyli pobranie próby o liczności, prowadzi do uzyskania wyniku X =( X =x ( j), X = x (j ),..., X n = x (nj)) Takiemu doświadczeniu przypisujemy liczbę: dp =f ( x ; λ ) dx Która jest tzw. prawdopodobieństwem a posteriori. Mówi ona po uzyskaniu wyniku, jakie było prawdopodobieństwo jego uzyskania 7 / 5
Funkcja wiarygodności Prawdopodobieństwem a posteriori. Mówi ona po uzyskaniu wyniku, jakie było prawdopodobieństwo jego uzyskania, czyli wartości X takiej, że: x(i j) < x( j ) x (i j )+dx (i j), (i=,,..., n) Dla próby o niezależnych elementach omawiane prawdopodobieńśtwo uzyskania wyniku X, X (),..., X ( )dane jest iloczynem: dp= f ( x ; λ )d x Gdy populacja jest charakteryzowana przez dwa różne zbiory parametrów, λ, λ, wtedy możemy określić iloraz wiarygodności: j = f (x ; λ )d x Q= f ( x ; λ )d x Możemy go określić: zbiór parametrów λ jest Q razy bardziej prawdopodobny niż zbiór parametrów λ 8 / 5
Funkcja wiarygodności Funkcją wiarygodności nazywamy iloczyn postaci: L= f ( x ; λ ) Funkcja wiarygodności jest zmienną losową (jest funkcją próby) Przykład: iloraz wiarygodności rzut asymetryczną monetą na podstawie rzutu asymetryczną monetąii wyników tych rzutów chcemy ustalić, czy moneta należy do klasy A lub klasy B załóżmy, że próba to 5 rzutów: orzeł i 4 reszki stąd funkcja wiarygodności: L A= 3 3 4 () LB= 3 3 4 () A B orzeł /3 /3 reszka /3 /3 LA Q= =8 LB z duzą dozą prawdopodobieństwa moneta należy do klasy A 9 / 5
Metoda największej wiarygodności ajwiększą ufnością obdarzamy zbiór parametrów, dla którego funkcja wiarygodności osiąga maksymalną wartość Jak wyznaczyć maksimum? warunek konieczny: przyrównać pierwszą pochodną L do zera Różniczkowanie iloczynu jest jednak niewygodne, wprowadzamy więc logarytm funkcji wiarygodności L: l =ln L= ln f ( x ( j ) ; λ) Funkcją wiarygodności jest odpowiednikiem gęstości prawdopodobieństwa, tylko określona dla parametrów. Ponieważ jest funkcją próby losowej, jest również zmienną losową L(λ) L(λ) λmax λ λ3 max λ max λ max λ 0 / 5
Metoda największej wiarygodności W najprostszym przypadku wektor parametrów λ ma tylko jedną składową λ Musimy wtedy rozwiązać równanie wiarygodności: Czyli: gdzie: l '= l '= dl =0 dλ d f' ln f ( x( j ) ;λ)= = φ( x( j ) ;λ) dλ f ( φ ( x ; λ )= d f ( x ; λ) / ( f ( x ; λ) ) dλ ) jest pochodną logarytmiczną f względem λ W przypadku gdy wektor λ ma p składowych, mamy układ p równań: l =0, i=,,, p λi / 5
Metoda największej wiarygodności pods. Funkcją wiarygodności nazywamy iloczyn postaci: L= f ( X ; λ ) Funkcja wiarygodności jest zmienną losową (jest funkcją próby) ajwiększą ufnością obdarzamy zbiór parametrów, dla którego funkcja wiarygodności osiąga maksymalną wartość Jak wyznaczyć maksimum? warunek konieczny: przyrównać pierwszą pochodną L do zera Różniczkowanie iloczynu jest jednak niewygodne, wprowadzamy więc logarytm funkcji wiarygodności L: f ' ( X ; λ ) l=ln L= ln f ( X ; λ )= f (X ;λ) Funkcją wiarygodności jest odpowiednikiem gęstości prawdopodobieństwa, tylko określona dla parametrów. Ponieważ jest funkcją próby losowej, jest również zmienną losową Równania wiarygodności: l =0, i=,,, p λi / 5
Metoda największej wiarygodności Przykład: powtarzanie pomiarów o różnej dokładności pomiar danej wielkości różnymi przyrządami pomiarowymi: pomiary X będą się układały wokół wartości rzeczywistej λ niepewności bedą miały rozkład normalny mamy wielkość, więc z wektora X robi się jedna zmienna X Wniosek: pojedynczy pomiar to pobranie próby o liczebności z rozkładu Gaussa o wartości średniej λ i wariancji σj Prawdopodobieństwo a posteriori możemy zatem wyrazić jako: ( X λ) dp =f ( X ; λ)dx= exp dx π σ j σj ( ) Zatem dla pomiarów funkcja wiarygodności wynosi: L= ( X λ) exp π σ j σ j ( ) 3 / 5
ajbardziej wiarygodny wynik Logarytmiczna funkcja wiarygodności wynosi: ( X λ ) l= +const σj Równanie wiarygodności przybiera postać: dl X λ = =0 d λ σ j A jego rozwiązanie to: X ~ λ= / σ j σ j Wniosek: wynik najbardziej wiarygodny jest średnią ważoną pomiarów tej samej cechy, gdzie waga każdego pomiaru jest odwrotnością jego wariancji
Uśrednianie wielu pomiarów przykład S. Eidelman et al., Phys. Lett. B 59, (004) Pomiar stałej sprzężenia oddziaływań silnych szukanie najbardziej wiarygodnego wyniku uśredniamy wszystkie wyniki z różnych pomiarów ważąc je odwrotnością wariancji
Przykład estymacja rozkładu norm. Przykład: badamy rozkład wagi studentek amerykańskich college'ów rozkład wagi studentek w populacji jest opisany rozkładem normalnym o wartości średniej μ i wariancji σ Xzałóżmy, że wybraliśmy =0 reprezentantów, których wagi (w kg) układają się następująco: 5, 55,3 59,0 57,6 67,6 7,6 68,9 6,6 67,6 8,6 Zadanie: na podstawie wyniku pomiaru znajdż najbardziej wiarygodną estymację parametrów rozkładu oczywiście funkcja rozkładu prawdopodobieństwa każdego wyniku (wagi studentek) dana jest wzorem: ( x μ ) f ( x ;μ, σ )= exp σ π σ ( ) konstruujemy funkcję wiarygodności: n n / (j) L( μ^, σ^ )=σ ( π) exp ( x μ^ ) σ^ [ ] 6 / 5
Przykład estymacja rozkładu norm. oraz logarytmiczną funkcję wiarygodności: [ ( n/ ^ l (μ^, σ)=ln L(μ^, σ^ )=ln σ^ ( π) ]) równania wiarygodności: dl( μ^, σ^ ) =0 d σ^ dl( μ^, σ^ ) =0 d μ^ ^ dl( μ^, σ) = d μ^ ( x μ^ ) ( ) σ ^ ^ =0 ( x ) μ=0 μ= ( x μ^ ) ( x μ^ ) ^ dl( μ^, σ) n ^ = + =0 σ = n d σ^ σ^ σ^ ( ^ ) ( ^ ) x μ +const x μ = σ^ σ^ x( j ) n dla formalności powinniśmy jeszcze sprawdzić drugie pochodne... 7 / 5
Przykład estymacja rozkładu norm. liczymy estymatory: n ^ μ= x( j ) n n =645/0=64,5 σ^ = ( x( j ) μ^ ) j = n =74/0=7.4 otrzymaliśmy (poprzez metodę największej wiarygodności) estymację parametrów rozkładu normalnego całej populacji na podstawie pomiaru próby Koniec 8 / 5
Przykłady funkcji wiarygodności
Przykłady funkcji wiarygodności Rozkład Poissona k f k = e k! L(k ; λ )= n λ k ( λ )n k k Funkcja wiarygodności () l= { k ln λ ln(k!) λ } oraz jej pochodna dl k =l '= = λ dλ { } k λ = ( K λ) λ λ { } Średnia arytmetyczna z k jest nieobciążonym estymatorem λ o minimalnej wariancji równej Rozkład dwumianowy Stąd: l=ln L=k ln n k ln ln n k k n k n k l '= = n czyli średnia arytmetyczna k/n jest estymatorem o minimalnej wariancji równej λ(-λ)/n 0 / 5
ierówność informacyjna
ierówność informacyjna Pytanie: jak skonstruować estymator o optymalnych własnościach? estymator jest nieobciążony, jeżeli wartość obciążenia dla każdej próby: B (λ)=e (S) λ=0 oraz (estymator zgodny) wariancja estymatora jest jak 0 dla liczebności próby losowej dążacej do najmniejsza (dąży σdo (S) - minimalna nieskończoności): bardzo często istnieje jednak związek pomiędzy obciążeniem a wiarancją i musimy szukać kompromisu taki związek nazywamy nierównością informacyjną Po dłuższych przekształceniach (Brandt) otrzymujemy nierówność informacyjną związek między obciążeniem, wariancją i informacją zawartą w próbie: f ' (x ; λ) l ' = I (λ )= E (l ' )= E (l ' ' ) f ( x ; λ) ( B ' ( λ)+) σ ( S) f ' ( x ; λ) I (λ) I (λ )= E (l ' )=E f (x ;λ) (( )) / 5
ierówność informacyjna ierówność informacyjna: (B ' (λ)+) σ (S) I (λ) l ' = f ' (x ; λ) f ( x ; λ) ierówność informacyjna to związek pomiędzy obciążeniem, wariancją i informacją zawartą w próbie Jest to definicja ogólna. Prawa strona jest dolnym ograniczeniem dla wariancji danego (dowolnego) estymatora ograniczenie to nazywamy ograniczeniem minimalnej wariancji albo ograniczeniem Cramea-Rao Kiedy obciążenie nie zależy od λ, a w szczególności gdy znika (równa się zero), nierówność redukuje się do: σ (S) I (λ) 3 / 5
ierówność informacyjna Możemy teraz zadać pytanie: jaki jest warunek osiągnięcia minimalnej wariancji? Innymi słowy, kiedy we wzorze Cramea-Rao zachodzi równość? Można pokazać (Brandt), że zajdzie tak, gdy: E (S)=B (λ)+λ l ' = A (λ)( S E (S)) l=b (λ) S+C (λ)+ D L=d exp ( B(λ ) S+C (λ) ) Wtedy w przypadku estymatora nieobciażonego o minimalnej wariancji otrzymujemy: σ (S)= σ ( S)= = A (λ) I (λ) E (l ' ) Estymatory spełniające powyższe warunki nazywamy estymatorami o najniższej wariancji Jeżeli zamiast: L=d exp ( B(λ )S+C (λ) ) spełniony jest słabszy warunek: L=g(S ; λ )c ( X (), X (),..., X ( )) Wtedy S nazywamy estymatorem wystarczającym dla λ 4 / 5
KOIEC