Komputerowa aaliza daych doświadczalych Wykład 5 4.03.07 dr iż. Łukasz Graczykowski lgraczyk@if.pw.edu.pl Semestr leti 06/07
Metody Mote Carlo Najważiejsze rozkłady prawdopodobieństwa
Metoda akceptacji-odrzuceń vo Neumaa
Metoda (akceptacji) vo Neumaa Jak to działa? geerujemy parę liczb z rozkładu jedorodego: ( y i, ui ) a y i b, 0 ui d rozważamy krzywą: u=g( y ) oraz fukcję stałą: sprawdzamy, czy ui <g( y i ) jeśli waruek jest spełioy, akceptujemy liczbę yi, jeśli ie - odrzucamy zaakceptowae wartości yi podlegają rozkładowi g(y) rozkład g(y) ie musi być uorm. wydajość metody: u=d, d g max odrzucamy akceptujemy b g( y ) dy N accept E= N all ( b a ) d a 4 / 34
Metoda vo Neumaa z fukcją pomociczą Wydajość metody vo Neumaa moża poprawić, jeśli odpowiedio zawęzimy obszar losowaia: wprowadzamy fukcję pomociczą s(y), z której łatwo wygeerować zmiee losowe (p. metodą odwrotej dystrybuaty), i która spełia waruek: g ( y ) c s( y ), a< y <b geerujemy liczbę losową yi z rozkładu s(y) a przedziale a< y i <b oraz liczbę ui z rozkładu jedorodego a przedziale 0<ui < odrzucamy liczbę yi, jeżeli: ui g( y i ) wydajość metody: b c s( y i ) a g( y )dy E= b c a s( y )dy 5 / 34
Metoda vo Neumaa z fu. pom. - przykład Rozważmy fukcję gęstości postaci: g ( y)=cos(π x)/(π x+)+/ 4, 0 y Fukcja ta, w przedziale od 0 do, ma dwa maksima: g (0)=c, g ()=d W zwykłej metodzie vo Neumaa wybieramy prostą: umax =c Tutaj możemy łatwo wybrać fukcję pomociczę s(y) jako prostą przechodzącą przez pubkty (0, c) i (, d) 3." c Aby otrzymać wzór s(y) rozważamy układ rówań: c=a 0+ b d =a + b Z czego wzór a s(y): d " s( y)= d c y+ c Jak otrzymać wartość losową z tego rozkładu? 6 / 34
Metoda vo Neumaa z fu. pom. - przykład Metodą odwrotej dystrybuaty! Liczymy dystrybuatę: S y = d c y cy 4 Oraz jej fukcję odwrotą: c xc(d c)+(d c) y=s ( x)= c(c d ) Losujemy wartość xi z rozkładu jedorodego w graicach: 50% wzrost wydajości! S (0)=0, S ()=d +c I wstawiamy ją do wzoru a odwrotą dystrybuatę by otrzymać yi z rozkł. s(y) Losujemy pomociczą wartość ui z rozkładu jedorodego 0<u i < g ( yi ) Tutaj będzie jeszcze lepiej! ui < Sprawdzamy waruek akceptacji yi: s ( y i ) 7 / 34
Geeracja liczb o rozkładzie ormalym Jak pamiętamy, rozkład ormaly ie ma aalityczej formy dystrybuaty Do geerowaia liczb z rozkładu ormalego o x^ =0, σ= (stadardowego) służy metoda Box a-muller a z f ( z)= exp π ( ) Geerujemy parę liczb (u,u) z rozkładów jedorodych (0,) i dokoujemy zamiay zmieych: v = u v = u Obliczamy: s=v + v Gdy s odrzucamy parę trasformacja x x^ dowolego rozkł. orm. z= σ do stadardowego Otrzymujemy dwie liczby pseudolosowe opisae rozkładem ormalym stadardowym: x =v (/ s)l s x =v (/ s) l s 8 / 34
Całkowaie metodą Mote Carlo Jak już zauważylismy, pole powierzchi pod rozpatrywaą krzywą w stosuku do pola prostokąta, z którego losujemy dwie liczby pseudolosowe, ma się (w przybliżeiu) do siebie tak jak liczba par b zaakceptowaych do odrzucoych: g ( y) dy N accept N all ( b a ) d a Co pozwala a przybliżoe obliczeie wartości całki ozaczoej: b N accept g ( y) dy N ( b a ) d all a W te sposób moża obliczyć dowolą całkę ozaczoą poprzez prostą geerację dwóch liczb z rozkładu jedorodego. W wersji -wymiarowej oczywiście możemy to zrobić dla dowolej liczby zmieych losowych (i obliczać całki wielowymiarowe) Względa dokładość obliczeia całki: Δ I = I N wszystkie 9 / 34
Całkowaie metodą Mote Carlo - przykład Najpopulariejszy przypadek to wykorzystaie metody Mote Carlo do obliczeia wartości liczby π W tym celu rozpatrzmy ćwiartkę okręgu o jedostkowym promieiu. Fukcja opisująca tę ćwiartkę to: g ( y)= ( R y ); 0 y ; 0 y Pole ćwiartki jedostkowego okręgu to: I = g ( y )dy =π / 4 π=4 I 0 Wartość całki obliczamy metodą Mote Carlo: N accept ( b a ) d I N all wszystko przypomia rzucaie lotkami (darts) 0 / 34
Całkowaie metodą Mote Carlo - przykład Najpopulariejszy przypadek to wykorzystaie metody Mote Carlo do obliczeia wartości π W tym celu rozpatrzmy ćwiartkę okręgu o jedostkowym promieiu. Fukcja opisująca tę ćwiartkę to: g ( y)= ( R y ); 0 y ; 0 y Pole ćwiartki jedostkowego okręgu to: I = g ( y )dy =π / 4 π=4 I 0 Wartość całki obliczamy metodą Mote Carlo: N accept ( b a ) d I N all / 34
Całkowaie metodą Mote Carlo - przykład Najpopulariejszy przypadek to wykorzystaie metody Mote Carlo do obliczeia wartości π W tym celu rozpatrzmy ćwiartkę okręgu o jedostkowym promieiu. Fukcja opisująca tę ćwiartkę to: g ( y)= ( R y ); 0 y ; 0 y Pole ćwiartki jedostkowego okręgu to: I = g ( y )dy =π / 4 π=4 I 0 Wartość całki obliczamy metodą Mote Carlo: N accept ( b a ) d I N all / 34
Całkowaie metodą Mote Carlo - przykład Najpopulariejszy przypadek to wykorzystaie metody Mote Carlo do obliczeia wartości π W tym celu rozpatrzmy ćwiartkę okręgu o jedostkowym promieiu. Fukcja opisująca tę ćwiartkę to: g ( y)= ( R y ); 0 y ; 0 y Pole ćwiartki jedostkowego okręgu to: I = g ( y )dy =π / 4 π=4 I 0 Wartość całki obliczamy metodą Mote Carlo: N accept ( b a ) d I N all 3 / 34
Całkowaie metodą Mote Carlo - przykład Najpopulariejszy przypadek to wykorzystaie metody Mote Carlo do obliczeia wartości π W tym celu rozpatrzmy ćwiartkę okręgu o jedostkowym promieiu. Fukcja opisująca tę ćwiartkę to: g ( y)= ( R y ); 0 y ; 0 y Pole ćwiartki jedostkowego okręgu to: I = g ( y )dy =π / 4 π=4 I 0 Wartość całki obliczamy metodą Mote Carlo: N accept ( b a ) d I N all 4 / 34
Najważiejsze rozkłady prawdopodobieństwa
Rozkład dwumiaowy W Polsce zay rówież jako rozkład Beroulliego (ag. biomial distributio) w iych krajach może ozaczać iy rozkład Rozważmy proste doświadczeie rzut moetą: w wyiku rzutu możemy otrzymać dwa wykluczające się wyiki zatem przestrzeń zdarzeń elemetarych: E= A+ A możemy zdefiiować prawdopodobieństwa: P A = p P A = p=q Wyik doświadczeia może być zmieą losową Xi, która przybiera wartość lub 0 w zależości od tego, czy zaszło zdarzeie A lub A Jeśli powtórzymy wielokrotie doświadczeie, to otrzymamy rozkład zmieej losowej X=X+X+.X 6 / 34
Rozkład dwumiaowy Z rachuku prawdopodobieństwa wiemy, że jeżeli przestrzeń zdarzeń elemetarych E= A + A +...+ A i zdarzeia są iezależe, to: P( A A... A )=P ( A ) P ( A )... P ( A ) Z tego wyika, że prawdopodobieństwo, że k pierwszych doświadczeń (z ) da wyik zdarzeia A a pozostałe -k dadzą wyik zdarzeia A, wyosi: P( A k A k )=P ( A k ) P( A k )= p k q k Zgodie z kombiatoryką, pojawieie się k razy zdarzeia A w! doświadczeiach realizuje się a po k sposobów: = różiących się kolejością zdarzeń A i A k!( k )! k () Prawdopodobieństwo wystąpieia k razy zdarzeia A i -k razy zdarzeia A w doświadczeiach, w dowolej kolejości, wyosi: k k P(k )=W k = p q ; q= p k Tak zdefiioway rozkład azywamy rozkładem dwumiaowym () 7 / 34
Rozkład dwumiaowy Policzmy wartość oczekiwaą i wariację rozkładu dwumiaowego Dla pojedyczego doświadczeia Xi (zmieej losowej, która może przyjąć wartość lub 0): E ( X )= xi P ( X =x i ) i= E ( X i )= P ( X i =)+0 P( X i=0) E ( X i )= p+0 q= p σ ( X i )=E ( ( x i p) ) =( p) p+(0 p) q= pq Z własości warotści oczekiwaej: E ( X = X + X... + X )= E ( X i )=p i= Zakładając iezależość zmieych (zerowe kowariacje) otrzymamy z kolei: σ ( X )=pq Dla zdarzeń losowych: X = p p pq p q 0 p = 0 p 4 8p 4p p p p p 4p =p p =pq 8 / 34
Rozkład dwumiaowy - rysuek p=0.3 =0 p=0.6 p=3.0 p=cost 9 / 34
Rozkład dwumiaowy tablica Galtoa Iym przykładem realizacji rozkładu dwumiaowego jest tablica (deska) Galtoa: mamy rzędów kołeczków kuleczka może przesuąć się w lewo (z prawdopod. p=0,5) lub w prawo (q=0.5) kuleczka przesuie się k razy w lewo i -k razy w prawo każde przesuięcie jest iezależe zatem dla jedej kokretej kofiguracji (drogi) spadku kulki prawdopodobieństwo: pk q k jeśli mamy róże kofiguracje przesuięć: P(k )=W k = p k q k ; q= p k () deska Galtoa a Wydziale Fizyki PW http://www.if.pw.edu.pl/~pluta/pl/tgak.jpg 0 / 34
Rozkład dwumiaowy ie przykłady z życia k k P(k )=W k = p q ; q= p k () ) ilość studetów a 3 roku fizyki p prawdopodobieństwo zaliczeia KADD'ów k ilość osób, które przedmiot zaliczyły ) liczba dzieci urodzoych w 05 roku p prawdopodobieństwo, że urodzi się dziewczyka (=0,5) k ilość urodzoych dziewczyek / 34
Rozkład wielomiaowy uogólieie Jeśli przestrzeń zdarzeń elemetarych: E= A + A +...+ Al l Zdarzeia się wzajemie wykluczają: P( A j )= p j, To prawdopodobieństwo zajścia kj razy zdarzeia Aj: l l! k W k k..., k = l p j, k j= p j= j= j,, l k j! j= j= j= Taki rozkład azywamy rozkładem wielomiaowym Jeśli zdefiiujemy zmiee losowe Xij rówe, gdy wyikiem i-tego doświadczeia jest zdarzeie Aj, lub rówe 0 w przeciwym razie, oraz X j= X ij i= Wtedy wartość oczekiwaa i elemety macierzy kowariacji: E ( X j )= ^ x j = p j cij =p i ij p j Dokładiejsze wyprowadzeie: https://pl.wikibooks.org/wiki/statystyka_matematycza/twierdzeie_o_rozk%c5%8 adzie_wielomiaowym / 34
Częstość i prawo wielkich liczb W rzeczywistości ie zamy prawodpodobieństw zdarzeń (p. pj w rozkł. wielomiaowym) wyzaczamy je eksperymetalie Częstość wystąpieia zdarzeia Aj w doświadczeiach będzie określoa wzorem: H j= X j Częstość jest zmieą losową, dla ktorej (przy próbach): xj ^ E ( H j )=h j= E =pj ( ) H j = Xj = X j = p j p j Wartość oczekiwaa częstości jest rówa jego prawdopodobieństwu. Iloczy pj(-pj) jest zawsze miejszy od /4, więc stadardowe odchyleie częstości jest miejsze iż /. Jest to prawo wielkich liczb Przeprowadzeie prób umożliwia pomiar prawdopodobieństwa zdarzeia Aj, kwadrat iepewości jest wtedy odwrotie proporcjoaly do. Jest to tzw. iepewość statystycza 3 / 34
Rozkład hipergeometryczy W urie jest N kul k białych i N-K czarych W próbach wyciągamy (bez zwracaia) k kul białych i -k=l kul czarych. Jakie jest prawdopodobieństwo wyciągięcia k kul białych? Wylosowaie kolejej kulki zmieia proporcje kul białych do czarych i wpływa a wyik kolejego losowaia rozkład dwumiaowy ie ma tu zastosowaia. Mamy jedak: N liczba możliwości wylosowaia z N kulek: N prawdopodobieństwo takiego zdarzeia: / możliwość wylosowaia k spośród K białych i l spośród L czarych kulek wyoszą: K L K L k l k l prawdopodobieństwo szukae wyosi zatem: W = k N Aalogiczie jak w rozkładzie dwumiaowym, defiiujemy zmieą losową: X = X i ( ) ( ) () ( ) i= 4 / 34
Rozkład hipergeometryczy Aalogiczie jak w rozkładzie dwumiaowym, X = X i defiiujemy zmieą losową: i= Xi przyjmuje wartość dla białych i 0 dla czarych wylosowaych kul Moża pokazać, że (Bradt): K K K N N E ( X )= X = N N N Dla N rezultat kolejego losowaia iewiele wpływa a astępe wyiki. Wtedy rozkłąd hipergeometryczy upodabia się do dwumiaowego: pq ( N ) K N K K p=, q=, E ( X ) = =p, σ ( X )= N N N N 5 / 34
Rozkład Poissoa Rozważmy rozkład dwumiaowy: k k P(k )=W k = p q ; q= p k dla ale przy stałym p=λ rozkład dwumiaowy dąży do rozkładu Poissoa (wyprowadzeie Bradt): k lim k k W k = f k = e W k= p q k! k ormalizacja: () k f (k)= λk! e =e k =0 k=0 wartość oczekiwaa: wariacja: λ ( 3 σ (K )=E ( K ) ( E ( K ) ) =λ (λ +) λ =λ 3 Skosość i wsp. asymetrii: μ3 =E ( ( k k^ ) )=λ ) +λ + λ + λ + =e λ e λ =! 3! k j λ λ λ E ( K ) = k e =λ e λ =λ k=0 k! j=0 j! λ γ= μ3 σ = 3 λ / =λ λ 3/ 6 / 34
Rozkład Poissoa - przykłady Rozkład Poissoa stosujemy wtedy, gdy mamy dużą liczbę iezależych zdarzeń, z których tylko ielicze mają iteresującą as własość (duże, małe p w rozkł. dwumiaowym) Rozkład Poissoa występuje tam, gdzie mamy zjawiska dyskrete, gdy prawdopodobieństwo wystąpieia zjawiska jest stałe w czasie lub przestrzei: liczba połączeń przychodzących do cetrali a miutę liczba mutacji w daym odciku DNA po ekspozycji a pewą dawkę promieiowaia liczbę zabitych każdego roku przez kopięcie koia w korpusie kawalerii w Prusach (Wikipedia) 7 / 34
Rozkład Poissoa rozpad promieiotwórczy Mamy jądro promieiotwórcze o czasie życia τ. Obserwujemy je w czasie T«τ. Prawdopodobieństwo rozpadu jądra w tym czasie W«. Dzielimy czas T a przedziałów, prawdopodobieństwo: p=w/. Obserwujemy w czasie T źródło zawierające N jąder. Liczba przedziałów czasowych k, w których zaobserwowao k=0,,, 3 itd. rozpadów. Wtedy częstość h(k) = k/. Doświadczalie zaobserwowao, że dla N i dużych rozkład h(k) dąży do rozkładu Poissoa, co staowi bezpośredi dowód a iezależość i statystyczy charakter rozpadów promieiotwórczych (badaia Rutherforda i Geigera). Aalogiczie częstość obserwowaia k gwiazd w elemecie kąta bryłowego sfery iebieskiej lub k rodzyek w jedostkowym elemecie objętości keksu 8 / 34
Rozkład jedostajy Gęstość prawdopodobieństwa: f(x) f ( x)=c ; x a, b f ( x)=0 ; x ℝ a, b Współczyik (ormalizacja) c: b f ( x) dx=c dx=c (b a)= c= a ; x a, b b a f ( x)=0 ; x ℝ a, b f ( x)= Dystrybuata: F ( x)=0 ; x <a x x a dx '= ; x a ; b b a a b a F ( x)= ; x >b F ( x)= c b a a b x Wariacja: σ ( X )=E ( X ) ( E ( X )) b (b3 a 3 ) E ( X )= x dx= 3(b a) = b a a (b a)(b +ba+a ) b +ba+a = = 3(b a) 3 b +ba+ a b +a σ ( X )= = 3 b +ba+a b + ba+a (b a) = = 3 4 ( ) Wartość oczekiwaa: b (b a)(b+a) b +a E ( X )= x^ = xdx= (b a )= = b a a (b a) (b a) 9 / 34
Rozkład wykładiczy Gęstość prawdopodobieństwa: λ x f ( x)=λ e ; x 0 ; λ>0 f ( x)=0 ; x<0 Dystrybuata: F ( x)=0 ; x <0 x x F ( x)= f ( x) dx=λ e 0 0 F ( x)= e λ x ' λ x dx '= λ e λ x ' λ [ 0 ; x 0 Wartość oczekiwaa: 0 0 E ( x)= x^ = x f ( x )dx=λ e λ x x dx= ] x λ Wariacja: E ( x )= x f ( x)dx= 0 σ ( x)=e ( x ) ( E ( x)) = λ = λ λ λ 30 / 34
Rozkład ormaly stadardowy Gęstość prawdopodobieństwa: x / f ( x) ϕ 0 ( x)= e π rozkład o średiej 0 i wariacji Dystrybuata ie ma postaci aalityczej (korzystamy z tabel) Rozkład jest uormoway: e x / dx= π Jeśli wprowadzimy zmieą: Y =( X a)/ b Otrzymamy rozkład Gaussa: f ( y ) ϕ( y )= e ( y a ) / b π b średia (przesuięcie): ^y =a wariacja (szerokość): σ (Y )=b 3 / 34
Rozkład ormaly stadardowy - własości Pukt przegięcia rozkładu: stadardowego x=± Gaussa x=a±b Załóżmy, że zamy dystrybuatę: F 0 ( x) Φ0 ( x)=p ( X x) Ze względu a asymetrię gęstości: P ( X > x )= Φ0 ( x )=( ϕ 0 ( x )) Aalogiczie, wewątrz przedziału x: P ( X x)= Φ0 ( x ) Dystrybuatę r. orm. moża uogólić a r. Gaussa: Φ ( y)=φ0 ( x a b ) 3 / 34
Rozkład ormaly stadardowy - własości Wtedy szczególie iteresujące jest obliczeie występowaia zmieej los. dla wielokrotości odchyleia stadardowego: P ( Y a σ )= Φ 0 ( ) Otrzymamy wtedy: P ( Y a σ)=68,3 % b = Φ0 () b P ( Y a >σ)=3,7 % P ( Y a σ)=95,4 % P ( Y a > σ )=4,6 % P ( Y a 3 σ )=99,8 % P ( Y a >3 σ )=0, % Z Wykładu pamiętamy, że współczyik rozszerzeia iepewość typu A zwykle jest między a 3 tu widać dlaczego W auce przez odchyleie stadardowe określamy rówież różice w obserwowaym sygale eksperymetalym w stosuku do sytuacji, gdy efektu fizyczego ie ma 33 / 34
Wielokrotości sigma Idealym przykładem jest odkrycie bozou Higgsa W fizyce cząstek przyjęło się, że dopiero mając odchyleie 5σ moża mówić o odkryciu: P ( Y a 5 σ)=99,99994 % Różica a takim poziomie wymagała zebraia dużej ilości daych, stąd potwierdzeie jego istieia zajęło poad 3 lata 34 / 34
KONIEC