Komputerowa aaliza daych doświadczalych Wykład 7 3.04.08 dr iż. Łukasz Graczykowski lukasz.graczykowski@pw.edu.pl Semestr leti 07/08
Wielowymiarowy rozkład Gaussa - przypomieie Cetrale twierdzeie graicze - przypomieie Sploty Pobieraie próby, estymatory
Wielowymiarowy rozkład Gaussa
Wielowymiarowy rozkład Gaussa Gęstość prawdopodobieństwa wielowymiarowego X= ( X, X,..., X ) rozkładu ormalego: T ϕ( x)=k exp ( x a ) B ( x a ) ( det B k= ( π) ( ) ) gdzie a jest -wymiarowym wektorem wartości oczekiwaych E ( X ) =a Natomiast B jest dodatio określoą macierzą symetryczą o wymiarze x o astępującej defiicji: T C=E ( ( X a )( X a) )=B gdzie C jest macierzą kowariacji zmieych losowych X Dla dwóch zmieych losowych: X = ( X, X ) ( σ cov ( X, X ) C= B = cov ( X, X ) σ KADD 08, Wykład 7 ) 4 / 44
Wielowymiarowy rozkład Gaussa Jeżeli a momet uzamy, że zmiee losowe X i X są iezależe: /σ 0 B 0= 0 /σ ( ) Wstawiając B0 do ogólego wzoru otrzymamy łączą gęstość dwóch iezależych zmieych losowych jako iloczy dwóch rozkładów Gaussa w D, zajomy wzór: ( ) ( ) ( x a ) ( x a ) ϕ( x, x )=k exp exp, k = π σ σ σ σ Gdy zmiee losowe ie są iezależe (iezerowe kowariacje), musimy stosować wzór ogóly (poprzedi slajd)! KADD 08, Wykład 7 5 / 44
Elipsa kowariacji Przekroje poziome fukcji gęstości prawdopodobieństwa rozkładu Gaussa mają kształt elipsy zwaej elipsą kowariacji: elipsa kowariacji zależy od wartości oczekiwaych oraz odchyleń stadardowych i kowariacji elipsa kowariacji wyzacza obszar stałego prawdopodobieństwa Dla rozkładu D rówaie elipsy (elipsy kowariacji) o środku w (a,a), której osie główe tworzą kąt α z osiami główymi x, x: ( x a) σ x a x a ( x a ) ρ σ + = ρ σ σ Rysuek po prawej: tg α= ρ σ σ pukty i mają takie samo prawd. prawd. puktu 3 jest większe iż 4 KADD 08, Wykład 7 σ σ 6 / 44
Elipsa kowariacji cov(x,x)=0.0 a = a = 0.0 σ = σ =.0 cov(x,x)=0.5 a = a = 0.0 σ = σ =.0 KADD 08, Wykład 7 cov(x,x)=0.75 a = a = 0.0 σ = σ =.0 cov(x,x)=-0.5 a = a = 0.0 σ = σ =.0 7 / 44
Elipsa kowariacji KADD 08, Wykład 7 Korelacja wydłuża i obraca elipsę Rozmiar elipsy zależy od wariacji Elipsa kowariacji zawiera pełą iformację o macierzy kowariacji (w przypadku D) W 3D elipsoida kowaraiacji W D hiperelipsoida kowariacji 8 / 44
Cetrale twierdzeie graicze
Cetrale twierdzeie graicze Cetrale twierdzeie graicze (ag. cetral limit theorem) jedo z ajważiejszych twierdzeń rachuku prawdopodobieństwa: jeżeli zmiee losowe Xi są zmieymi iezależymi o jedakowych wartościach średich a i odchyleiach stadardowych b, to rozkład ormaly ma zmiea: ξ= X =lim X i i= E ( ξ)=a, σ (ξ)=b / rozkład ormaly będzie mieć też zmiea: X =lim X i i= E ( X )=a, σ ( X )=b Iymi słowy mając iezależych zmieych o jedakowym (dowolym!) rozkładzie, to ich suma dla dużych zbiega do rozkładu ormalego KADD 08, Wykład 7 0 / 44
Sploty
Suma zmieych losowych jako splot https://www.quora.com/the-desity-fuctio-of-the-sum-of-two-radom-variables-is-the-covolutio-of-their-respective-desities-what-is-the-ituitio-behid-this Wyobraźmy sobie taką sytuację: Mieszkasz w wiosce obok rzeki Mieszkańcy wioski wrzucają do rzeki odpady biologicze Kocetracja odpadów w fukcji odległości od miejsca zrzutu (Pollutio Spread Fuctio, PSF) jest zależa od ich rozkładu przez mikroorgaizmy w rzece Ilość wrzucaych odpadów zależy od populacji miejscowości a rzece Jaka jest peła fukcja opisująca poziom zaieczyszczeń w rzece? Jest to splot dwóch rozkładów fukcji populacji oraz fukcji kocetracji odpadów Iymi słowy, zastępujemy każdy pukt w fukcji populacji przez fukcję kocetracji przeskalowaą przez wagę fukcji populacji KADD 08, Wykład 7 / 44
Suma zmieych losowych jako splot https://www.quora.com/the-desity-fuctio-of-the-sum-of-two-radom-variables-is-the-covolutio-of-their-respective-desities-what-is-the-ituitio-behid-this Zamieńmy teraz sytuację a kości do gry Pierwszy rzut kostką to fukcja populacji, 6,7% populacji mieszka km w dół rzeki 6,7% popopulacji km, itd. Drugi rzut kostką ozacza fukcję PSF jak bardzo daa miejscowość zaieszyszcza rzekę, i zowu 6,7% zaieczyszczeń ląduje km dalej od miasta, 6.7% km dalej od miasta, itp. Jak policzyć pełą fukcję zaieczyszczeń? Podmieiamy fukcję populacji poprzez fukcję zaieczyszczeń, dla każdego miasta KADD 08, Wykład 7 3 / 44
Suma zmieych losowych jako splot Rozważmy zmieą losową: U = X +Y Zakładamy iezależość zmieych: f ( x, y )=f x ( x ) f y ( y ) Wtedy dystrybuata zmieej U: może być wyzaczoa jako pole powierzchi: y F (u)=p(u u)=p ( X +Y u)= = f x ( x ) f y ( y ) dx dy A u x u y = f x ( x) dx = f y ( y ) dy A f y ( y ) dy u= x+ y x f x ( x) dx Pole powierzchi A wyzacza taki obszar prawdopodobieństwa, że wartości u zmieej loswej U=X+Y spełiają waruek: U u Zgodie z defiicją dystrybuaty: F (u)=p(u u)=p(( ; u >) KADD 08, Wykład 7 4 / 44
Suma zmieych losowych jako splot Z dystrybuaty wyzaczamy fukcję gęstości zmieej U: df (u) f (u)= = f x ( x) f y (u x) dx= f y ( y ) f x (u y )dy (f x f y )(u) du Fukcja f(u) tak zdefiiowaa jest splotem fukcji fx(x) i fy(y) Powyższy wzór jest prawdziwy rówież wówczas, jeżeli zmiee X i Y są zdefiiowae tylko w pewym ograiczoym obszarze (wtedy ustalamy odpowiedie węższe i skończoe, graice całkowaia) Rozpatrzmy przypadek splotu dwóch rozkładów jedorodych: { 0 x< f x ( x)=, 0, w przeciwym razie KADD 08, Wykład 7 } { 0 y < f y ( y)=, 0, w przeciwym razie } 5 / 44
Suma zmieych losowych jako splot Splot dwóch rozkładów jedorodych: { 0 x< f x ( x)=, 0, w przeciwym razie { } 0 y < f y ( y)=, 0, w przeciwym razie v=u x f (u)= f x ( x ) f y (u x) dx= f y (u x ) dv = dx 0 0 u } u f (u)= f y ( v) dv= f y ( v)dv u u Zmiea u zmieia się od 0 do, zatem rozważmy przypadki: u u (a) 0 u < : f (u)= f y ( v)dv = dv=u 0 0 (b) u < : f (u)= f y (v) dv= dv= u u KADD 08, Wykład 7 u 6 / 44
Suma zmieych losowych jako splot Rozpatrzmy przypadek splotu dwóch rozkładów jedorodych: { 0 x< f x ( x)=, 0, w przeciwym razie { } 0 y < f y ( y)=, 0, w przeciwym razie f (u)= f x ( x) f y (u x) dx= f y (u x ) 0 0 v=u x dv = dx u } u f (u)= f y ( v) dv= f y ( v)dv u u Zmiea u zmieia się od 0 do, zatem rozważmy przypadki: u u (a) 0 u < : f (u)= f y ( v)dv = dv=u 0 0 (b) u < : f (u)= f y (v) dv= dv= u u u https://e.wikipedia.org/wiki/covolutio#/media/file:covolutio_of_box_sigal_with_itself.gif KADD 08, Wykład 7 7 / 44
Suma zmieych losowych jako splot Aalogiczie będzie z sumą trzech zmieych losowych: { / u, 0 u< f (u)= / ( u +6 u 3 ), u< / ( u 3 ), u<3 } Zgodie z CTG im więcej rozkładów w splocie, tym bardziej rozkład sumy przypomia rozkład Gaussa: u=x u=x+x u=x+x+x3 u=x+x+x3+x4 KADD 08, Wykład 7 8 / 44
Sploty z rozkładem ormalym Przykład: Mierzymy zmieą X opisaą gęstością prawdopodobieństwa fx(x). Pomiar obarczoy jest iepewością Y mającą rozkład ormaly. Wyik jest zatem sumą zmieych losowych: U = X +Y Gęstość prawdopodobieństwa zmieej U wyosi wtedy: (u x) f (u)= f x ( x) f y (u x) dx= f x ( x)exp dx π σ σ ( ) Problem: eksperymetalie otrzymujemy fukcję f(u), ale tak aprawdę iteresuje as fx(x). Jak ją wyzaczyć? w ogólym przypadku jest to iemożliwe moża tego dokoać dla pewej ograiczoej klasy fukcji f(u) ajczęściej posługujemy się tutaj metodami Mote Carlo KADD 08, Wykład 7 9 / 44
Sploty z rozkładem ormalym przykład Przykład: Splot rozkładu jedostajego z rozkładem ormalym (o średiej rówej 0) W tym przypadku możliwe jest rozwiązaie aalitycze. Korzystamy ze wzorów: f ( x)= ; x a, b b a g ( y)= e y / σ π σ h (u)= f ( x) g (u x) dx f ( x)=0 ; x ℝ a, b Wtedy, wprowadzając zmieą v=( x u)/ σ otrzymujemy: (b u)/ σ b h (u)= exp ( (u x) / σ ) dx= exp v dv b a π σ a b a π (a u) /σ ( Zaś uwzględiając dystrybuatę rozkładu ormalego: h (u)= ( ( b u a u Φ0 σ Φ0 σ b a ) ( ) f(x) )) h(u) KADD 08, Wykład 7 0 / 44
Sploty z rozkładem ormalym przykład Przykład: Splot dwóch rozkładów ormalych dodawaie iepewości w kwadracie Splot dwóch rozkładów ormalych o wartościach średich rówych 0 i wariacjach σ x, σ y ma postać rozkładu ormalego: f (u)= exp ( u / σ ), σ =σ x +σ y π σ Widzimy, że wariacje się dodają (odchyleia std. dodają się w kwadracie) Jeśli średie rozkładów róże od 0 wartości oczekiwae rówież się dodają KADD 08, Wykład 7 / 44
Zastosowaie splotów Cyfrowe przetwarzaie obrazów Akustyka Muzyka elektroicza W fizyce gdzie się pojawia superpozycja W plaowaiu radioterapii (rozkłady dawki) https://upload.wikimedia.org/wikipedia/e//4/lea.pg Playboy 97 stadardowy obrazek w grafice komput. https://developer.apple.com/library/cotet/documetatio/performace/coceptual/vimage/covolutiooperatios/covolutiooperatios.html KADD 08, Wykład 7 / 44
Zastosowaie splotów https://www.researchgate.et/publicatio/8 48604_I_Vitro-I_Vivo_Correlatio_IVIVC_a d_determiig_drug_cocetratios_i_blood_f rom_dissolutio_testig-a_simple_ad_practic al_approach Bardzo ważym zastosowaiem splotów są badaia farmakokietycze leków kocetracja leku w osoczu krwi w czasie jest splotem fukcji absorpcji leku oraz jego elimiacji https://www.slideshare.et/jaspreetguraya/i-vitro-i-vivo-correlatio-ivivc https://upload.wikimedia.org/wikipedia/commos/7/7d/bupropio_bio equivalecy_compariso.svg KADD 08, Wykład 7 https://image.slidesharecd.com/pharmacokieticmodels-409300043-p hpapp0/95/pharmacokietic-models-8-638.jpg?cb=4037860 3 / 44
Pobieraie próby
Pobieraie próby W przypadku pomiarów eksperymetalych ajczęściej ie zamy rozkładu prawdopodobieństwa opisującego day pomiar (p. parametru rozkładu Poissoa w rozpadach promieiotwórczych, czy parametrów rozkładu Gaussa opisującego jakąś populację) Te parametry chcemy wyzaczyć doświadczalie, ie jesteśmy jedak w staie zebrać ieskończeie wiele pomiarów W kosekwecji jesteśmy zmuszei przybliżać rozkład gęstości za pomocą rozkładu częstości (histogramu o skończoej liczbie wejść) Próbą (ag. sample) azywamy zespół doświadczeń wykoywaych w celu określeia kształtu (parametrów) poszukiwaego rozkładu: próba otrzymywaa jest poprzez wybór elemetów z (często ieskończoego) zbioru wszystkich możliwych doświadczeń (wszystkich możliwych pomiarów), zwaego populacją geeralą próbę o składikach azywamy próbą -wymiarową https://e.wikipedia.org/wiki/samplig_%8statist KADD 08, Wykład 7 ics%9#/media/file:simple_radom_samplig.png 5 / 44
Pobieraie próby Cała sztuka polega a odpowiedim wybraiu próby z populacji, by aproksymacja rozkładu gęstości była jemu jak ajwieriejsza Załóżmy, że rozkład zmieej losowej X opisyway jest fukcją f(x) iteresują as wartości zmieej X uzyskae przez poszczególe elemety próby Pobieramy l prób, każda o wymiarze, i zaobserwowaliśmy astępujące wartości zmieej X: () ( ). próba : X (), X,, X j -ta próba : X (j ), X (j ),, X (j) ( l) l -ta próba : X (l ), X (l),, X Oczywiście, to co pobraliśmy jest też zmieą losową! Elemety próby losowej (wartości zmieej X), są zmieą losową Każdą próbę możemy przedstawić jako wtektor (-wymiarową zmieą losową): X ( j)=( X ( j), X (j),, X (j)) Wektor ma rozkład gęstości prawdopodobieństwa: g ( x)=g ( x, x,, x ) KADD 08, Wykład 7 6 / 44
Pobieraie próby Aby moża było mówić o losowym pobieraiu próby: zmiee Xi muszą być iezależe, czyli: g ( x)=g ( x ) g ( x ) g ( x ) poszczególe rozkłady muszą być jedakowe i idetycze z rozkładem gęstości populacji: g ( x )=g ( x )= =g ( x )=f ( x) Należy podkreslić, że w rzeczywistym procesie pobieraia próby często bardzo trudo jest zapewić pełą losowość ie ma tutaj jedej recepty jak to zrobić (ależy starać się spełić powyższe waruki) Teraz zdefiiujemy pojęcia, które charakteryzują próbę losową KADD 08, Wykład 7 7 / 44
Pobieraie próby Teraz zdefiiujemy pojęcia, które charakteryzują próbę losową: załóżmy, że mamy -elemetową próbę i odkładamy wyiki a osi liczb. Przez x ozaczmy taką liczbę wartości, które są miejsze iż pewa stała x, czyli mamy spełioą defiicję dystrybuaty:x x wielkość W ( x)= x / azywamy dystrybuatą empiryczą jest to fukcja schodkowa zwiększająca się o / dla każdej kolejej wartości z próby; dla dużych dąży do dystrybuaty fukcję elemetów próby azywamy statystyką ajważiejszym przykładem statystyki jest średia z próby (ag. sample mea) zdefiiowaa jako średia z elemetów próby: X = ( X + X + + X ) https://upload.wikimedia.org/wikipedia/commos//7/empirical_cdf.pg KADD 08, Wykład 7 8 / 44
Pobieraie próby - przykład Przykład wzrost Polaków Niewątpliwie, wzrost Polaków (zmiea losowa X) podlega pewemu rozkładowi f(x) z dystrybuatą F(x) Pomiar wzrostu pojedyczego Polaka daje wartość x Losowy wybór tego jedego polaka to zmiea losowa X Jeżeli stworzymy -wymiarową próbę losową, tz. wybierzemy Polaków, to rozkład prawdopodobieństwa wyboru dla każdej z osób (od g(x) do g(x)) jest taki sam jak dla całej populacji i rówy f(x) Dla każdej tak skostruowaej próby możemy teraz policzyć jej W(x). Oczywiście im większe będzie, im więcej ludzi weźmiemy do aszej próby, tym rozkład wyliczoy z próby będzie bliższy rozkładowi rzeczywiście istiejącemu w populacji Zadaiem estymacji jest zalezieie takiej statystyki (a więc fukcji określoej a wektorze X=(X,,X)), aby ajlepiej przybliżała oa rzeczywistą wartość parametru opisującego rzeczywisty rozkład zmieej losowej X KADD 08, Wykład 7 9 / 44
Estymatory Typowy problem aalizy daych: zamy (p. z prawa fizyczego) ogólą postać gęstości prawdopodobieństwa w daej populacji, ależy jedyie wyzaczyć parametry tego rozkładu. Przykład: mierzymy rozpad radioaktywy w czasie: N (t )= N 0 ( exp ( λ t )) parametr λ wyzaczamy a podstawie próby mierząc skończoą ilość razy ilość rozpadów w czasie wyik igdy ie będzie dokłady, bo próba jest skończoa, mamy problem estymacji parametrów poszukiwaa wielkość uzyskiwaa jest fukcją elemetów próby (statystyką) i jest azywaa estymatorem: S=S ( X, X,, X ) estymator jest ieobciążoy, jeżeli iezależie od liczebości próby jego wartość oczekiwaa jest rówa wartości estymowaego parametru: E ( S ( X, X,, X ) ) =λ, dla każdego estymator jest zgody, jeżeli jego wariacja zika: lim σ ( S ( X, X,, X ) )=0 KADD 08, Wykład 7 30 / 44
Estymatory wartość oczekiwaa Wartość średia ze wszystkich elemetów próby jest zmieą losową (jest fukcją zmieych losowych). Jej wartość oczekiwaa (tej średiej): E ( X )= E ( X )+ E ( X )+ + E ( X ) ) =E ( X )= x^, dla każdego ( Wiosek: wartość średia (arytmetycza) z próby to estymator ieobciążoy wartości oczekiwaej zmieej X w populacji Możemy obliczyć wariację wartości średiej: σ ( X )=E { X E ( X ) } = E = )} ^ ^ ^ E [( X x )+( X x )+ +( X x )] { } Z uwagi a iezależość zmieych kowariacje między zmieymi Xi zikają, czyli ostateczie: σ ( X )= σ ( X ) {( x + x + + x x^ lim σ ( X )=0 Wiosek: wartość średia (arytmetycza) z próby jest rówież estymatorem zgodym wartości oczekiwaej KADD 08, Wykład 7 3 / 44
Estymatory - wariacja Jak pamiętamy z defiicji wariacji, ie jest oa zmieą losową Możemy wariację przybliżyć przez średią arytmetyczą odchyleń kwadratowych od wartości średiej: S ' ( X )= ( X X ) +( X X ) + +( X X ) ) ( Wartość oczekiwaa tej wielkości: E ( S ' ( X ) )= E = E { { i= } { ( X i X ) = E i= ( X i ^x + x^ X ) i= } ( X i ^x ) + ( ^x X ) + i= ( X i ^x )( x^ X ) i= { } = { E ( ( X i ^x ) ) E (( X ^x ) ) }= σ ( X ) σ ( X ) i= = σ (X) ( )} Widać więc, że S' jest estymatorem obciążoym dla wariacji populacji mającym wartość oczekiwaą miejszą iż σ(x) KADD 08, Wykład 7 3 / 44
Estymatory - wariacja Możemy jedak iezaczie zmodyfikować defiicję wariacji z próby i wprowadzić estymator: S ( X )= ( X X ) +( X X ) + +( X X ) ) ( Otrzymyjemy estymator ieobciążoy wariacji populacji Jeśli podstawimy te wzór do wzoru: σ ( X )= σ ( X ) To otrzymamy estymator wariacji wartości średiej: S ( X )= S ( X )= ( X i X ) ( ) i= Zaś odpowiadające odchyleie stadardowe (iepewość średiej z próby): Δ X = S ( X )=S ( X )= Jaka jest zaś iepewość wariacji z próby (bez wyprowadzeia)? Odchyleie stadardowe próby: Δ S =S S( X) KADD 08, Wykład 7 S= S = ( X i X^ ) i = 33 / 44
Estymatory - wariacja Podsumowując zatem estymatory ieobciążoe: wartości oczekiwaej populacji średia z próby (wyik doświadczeia): X = ( X + X + + X ) wariacji populacji wariacja z próby (aproksymowaa): S ( X )= ( X X ) +( X X ) + +( X X ) ) ( wariacji wartości średiej z próby (patrz iepewość typu A): S ( X )= S ( X )= ( X i X ) ( ) i= wariacji (aproksymowaej) wariacji z próby 4 Var ( S ) =S ( ) odchyleia stadardowego wartości średiej z próby: S= S ( X )= ( X X ) +( X X ) + +( X X ) dalej możemy wyzaczać p. wariację odchyleia std. próby i tak dalej (w ieskończoość)... KADD 08, Wykład 7 34 / 44
Graficze przedstawieie próby
Graficze przedstawieie próby Rozważmy próbę: x, x,, x, która zależy od jedej zmieej losowej X Możemy tę próbę przedstawić jako wykres D pukty a osi x jedowymiarowy wykres puktowy wada: co w przypadku, gdy mamy dwa takie same pomiary? Z reguły stosujemy zatem wykres D, zway histogramem: dzielimy przedział zmieości x (lub jego część) a r przedziałów o jedakowej szerokości Δx: ξ, ξ,..., ξr środki przedziałów zajdują się w puktach: x, x,..., x r a osi y odkładamy liczbę elemetów próby przypadającą a day przedział:,,..., r tak otrzymay wykres azywamy wykresem częstości lub histogramem KADD 08, Wykład 7 36 / 44
Graficze przedstawieie próby iep. = k wykres schodkowy KADD 08, Wykład 7 37 / 44
Histogram szerokość przedziału KADD 08, Wykład 7 Im więcej przedziałów, tym iformacja o próbie jest dokładiejsza Większa ilość przedziałów powoduje jedak większe wahaia statystycze od puktu do puku Pole pod krzywą schodkową jest proporcjoale do wielkości próby (jeśli je przeskalujemy przez /, otrzymamy częstość) 38 / 44
Graficze przedstawieie próby - przykład Badamy iezay rozkład prawdopodobieństwa Symulujemy taką sytuację poprzez geerację 000 prób z rozkładu Gaussa o wartości średiej 0 i wariacji. Każda próba ma liczość (liczbę składików) r. Badamy zachowaie estymatorów charakterystyk rozkładu i estymatorów ich iepewości w fukcji liczości próby r X = ( X + X + + X ) estymator wartości oczekiwaej populacji σ ( X )=Δ X = (S ( X ))=S ( X )= iepewość wart. średiej - estymator odch. st.wartości średiej z próby (estymatora wart. oczekiwaej) średia z próby S ( X )= S ( X )= ( X X ) estymator odch. std. populacji S ( X )= i S( X ) S( X ) σ ( S ( X ))=Δ S ( X )= ( ) iepewość estymatora odch. std. populacji estymator odch. std. estymatora odch. std. populacji ( X X ) +( X X ) + +( X X ) } σ ( S ( X ))=Δ S ( X )=S ( X ) { estymator wariacji populacji KADD 08, Wykład 7 iepewość estymatora wariacji populacji estymator odch. std. estymatora wariacji populacji 39 / 44
Estymatory - histogramy r = 0 KADD 08, Wykład 7 40 / 44
Estymatory - histogramy r = 0 r = 50 KADD 08, Wykład 7 4 / 44
Estymatory - histogramy r = 0 r = 50 KADD 08, Wykład 7 r = 00 4 / 44
Estymatory - histogramy r = 0 r = 50 KADD 08, Wykład 7 r = 00 r = 00 43 / 44
Estymatory - histogramy r = 0 r = 50 r = 00 r = 00 lim σ ( S ( X, X,, X ) )=0 KADD 08, Wykład 7 44 / 44
KONIEC