/7/06 Biotatytyka, 06/07 dla Fizyki Medyczej, tudia magiterkie etymacja etymacja średiej puktowa przedział ufości średiej rozkładu ormalego etymacja puktowa i przedziałowa wariacji rozkładu ormalego etymacja parametrów rozkładu dwumiaowego i Poioa Etymacja to wiokowaie tatytycze kocetrujące ię wokół ozacowaia wartości pecyficzych parametrów populacji. Etymacja puktowa: jak w oparciu o poiadae dae ozacować wartość określoego parametru iezaej populacji. Etymacja przedziałowa: jak w oparciu o poiadae dae ozacować przedział wartości określoego parametru iezaej populacji.
/7/06 Wagi oworodków kolejo urodzoych w jedym ze zpitali w Botoie (waga w ucjach: 00 oz= 835 g) Zazaczoe ą trzy próby o rozmiarze =0. Każda próba daje 0 wyików dla may oworodków. Róże próby mogą prowadzić do różych wartości dla średiego ciężaru oworodków. 0 A x A x i 0 i Zatem próbkowaie populacji (wybór próby) jet zmieą loową. Przy założeiu iż loowaie próby było iezależe, prawdopodobieńtwo wyloowaia dowolego oworodka jet idetycze.
/7/06 Rozkład wartości zmieej X (podkreśleie jet ozaczeiem dla tradycyjie używaej kreki ad zmieą) Jakie właości poiada zmiea loowa X opiująca średią z wyloowaych prób? Jak właości zmieej X wykorzytać do ozacowaia średiego ciężaru oworodków w badaej populacji? A może w ozacowaiu wykorzytać ie zae parametry opiujące właości kończoego zetawu daych, takie jak, a przykład, mediaa czy wartość średia ajmiejzej i ajwiękzej wagi w próbie? Wyiki uzykae z obliczeia wartości różych prób dla różych tatytyk (a) wartości średiej z próby X (a) (b) mediay z próby, (c) średiej z wartości max i mi z próby 3
/7/06 Niech etymator ˆ to przepi (tatytyka) a obliczeie wartości dla wielkości charakteryzującej badaą populację w oparciu o dae z próby. Etymator ˆ jet azywaym ieobciążoym etymatorem jeśli iezależie od rozkładu populacji zachodzi E( ˆ) Wartość średia z próby X, mediaa z próby, średia z ajmiejzej i ajwiękzej wartości z próby, ą ieobciążoymi etymatorami wartości średiej w populacji, czyli E(X )=, E(mediaa) =, E(/(mi{ }+ max{} )=. Jeśli rozkład w populacji jet ormaly, to wartość średia z próby X jet etymatorem o miimalej wariacji. Ilutracja dla pojęcia SEM, iaczej SE Wyiki rozkładu zmieej loowej X gdy próba kłada ię z : (a) = (b) =0 (c) =30 elemetów. SEM SE etymujemy 4
/7/06 Przypomiajka: Niech zmiee loowe X,..X ą wzajemie iezależe i mają rozkłady ormale o wartościach oczekiwaych : E( X i ) i i wariacjach E( X i ). i Wówcza dowola kombiacja liiowa L tych zmieych jet zmieą o rozkładzie ormalym N( i c i, c ) i i i i Wioek: Dla zmieej loowej X, jeśli loowe próby pochodzą z populacji o wartością średią oraz wariacją, to X ma rozkład ormaly N(, ) Twierdzeie CTG: Niech X, X,.., X to loowe próby pobrae z populacji o iezaym (dowolym) rozkładzie opiywaym wartością średią oraz wariacją. Wówcza dla dużych wartości mamy X ma w przybliżeiu rozkład N(, /) Ilutracja cetralego twierdzeia graiczego Wyiki rozkładu zmieej loowej X gdy próba kłada ię z : (a) = (b) =5 (c) =0 elemetów. Zauważmy, że (a) opiuje rozkład wag w populacji. Jet ieymetryczy (lewokośy) a więc jet iy iż ormaly. Przy zwiękzaiu rozkład wartości średich taje ię dzwoowaty 5
/7/06 Ile jet? Czy 6.9 czy 3.80? Jeżeli X przektzałcimy a zmieą loową tadardową Z, czyli X Z / to Z jet zmieą o tadardowym rozkładzie ormalym N(0,). Zatem 95% wyików Z uzykaych z prób loowych o rozmiarze będzie miało wartości pomiędzy -.96 i +.96. Te wartości odpowiadają.5 oraz 97.5 percetylom tadardowego rozkładu ormalego. Ozacza to, że 95% prób loowych X leży w przedziale ( -.96 /, +.96 / ) 6
/7/06 Jeśli X, X, X to iezależe zmiee loowe o rozkładzie N(, ) to tatytyka: pdf( t, x, d) d= d= d=5 d=0 d=if X t / ma rozkład t-studeta. Ozaczeie : t - cdf( t, x, d) Dytrybycja t d dla każdego d jet ymetrycza Dytrybycja t d ma wolo opadające ogoy d= d= d=5 d=0 d=if http://pl.wikipedia.org/wiki/rozk%c5%8ad_studeta Moża pokazać, że dla dowolego > 0.05 dytrybucja t-studeta t d, - przyjmuje wartości więkze iż rozkład ormaly. t d, z 0.05 7
/7/06 00%(- ) tatytyk t wpada pomiędzy doly / i góry - / percetyl dytrybucji t -, czyli P( t ), / t t, / 00%(- ) przedział ufości ( cofidece iterval) dla średiej rozkładu ormalego o iezaej wariacji day jet wzorem: X t X t, /,, / 8
/7/06 CI to zmiea loowa. 00%(- )CI to rodzia loowych przedziałów o właości, że 00%(- ) pośród ich zawiera rzeczywitą wartość parametru. = wartość obliczoa z całej populacji Szerokość iterwału ufości * t, / rośie, to Δ maleje rośie, to Δ roie rośie, to Δ maleje t, / Ozacowaie wielkości próby dla oiągięcia CI o określoej zerokości Δ i ufości z / 9
/7/06 Niech day będzie przedział ufości 95%CI odetka dorołych Amerykaów, którzy ie ą aktywi fizyczie (0.3,0.7) Mamy 95% ufość, że prawdziwy odetek dorołych Amerykaów, którzy ie ą aktywi fizyczie jet pomiędzy 3% i 7% Mamy 95% ufość, że odetek dorołych Amerykaów, którzy ie ą aktywi fizyczie jet zawarty w przedziale (3%, 7%) W oparciu o poiadae dae zacujemy, ze odetek dorołych Amerykaów, którzy ie ą aktywi fizyczie to 5%. Z ufością 95% ta wartość może być tak mała jak 3% albo tak duża jak 7%. W oparciu o poiadae dae zacujemy, ze odetek dorołych Amerykaów, którzy ie ą aktywi fizyczie to 5% ( 95% CI: 3% - 7%). Mamy 95% zaę, że odetek dorołych Amerykaów, którzy ie ą aktywi fizyczie jet zawarty pomiędzy 3% i 7%. Co to jet rozkład próbkowaia? Dlaczego średia z próby jet używaa do etymowaia średiej z populacji? Jaka jet różica pomiędzy odchyleiem tadardowym a błędem tadardowym? Co ozacza 95%CI średiej? Skąd koieczość wprowadzeia rozkładu t-studeta Rozkład zmieej loowej PROBKOWANIA, czyli możliwych kotrukcji, wyborów iezależych prób o tym amym rozmiarze z daej populacji. Zmiea loowa przyjmuje wartości iezależie obliczae dla każdej próby oddzielie. ()Jeśli zmieą loową próbkowaia reprezetuje średia wartość z próby, to wartość oczekiwaa tej zmieej jet średią dla populacji iezależie od rozkładu wartości w populacji. () Poadto, przy rozkładzie ormalym w populacji, ta zmiea loowa ma ajmiejzą wariację pośród wzytkich możliwych iych zmieych loowych próbkowaia o właości (). Odchyleie tadardowe charakteryzuje rozrzut wartości w populacji czy próbie, atomiat błąd tadardowy mierzy rozrzut wartości zmieej loowej próbkowaia reprezetowaej średią z próby. W zbiorze przedziałów 95%CI kotruowaych dla różych prób, 95% z ich będzie zawierało wartość. 95%CI opiuje zmieą próbkowaia, a ie. W zczególości ie wolo uważać, że z prawdopodobieńtwem 0.95 przedział zawiera. Jeżeli ie zamy wariacji w populacji to etymacja jej przez odchyleie tadardowe z próby ma rozkład t-studeta. Jaka jet różica pomiędzy rozkładem ormalym a rozkładem t-studeta? Rozkład t-tudeta to rodzia rozkładów idekowaa topiem wobody. Oba ą ymetrycze względem O, ale rozkłady t-studeta mają tłute ogoy. Jak rozumiez cetrale twierdzeie graicze i jego zaczeie dla tatytyki CTG gwaratuje, że zmiea próbkowaia realizowaa przez średią jet dobrze aprokymowaa przez rozkład ormaly N(, /) 0
/7/06 Etymacja puktowa dla średiej populacji w oparciu o wyik z próby: X Średia z próby to etymator ieobciążoy i z mi. wariacją Etymacja przedziałowa przez (-)%CI dla średiej populacji o rozkładzie ormalym w oparciu o wyik z próby jeżeli: zamy wariacje populacji ( X z /, X z / ) ie zamy wariacji populacji Uwaga praktycza: jeśli >30 to zamiat tatytyki t touje ię tatytykę z ( X t, /, X t, / Mamy ufość, że 95% przedziałów tak kotruowaych zawiera średią populacji ) Średie odchyleie z próby? ˆ i ( x i x) Wariacja z próby? i ( x i x) Przy powtarzających ię próbach o rozmiarze mamy : średie odchyleie z tych prób ie jet ieobciążoym etymatorem wariacja z próby jet ieobciążoym etymatorem
/7/06 przykład: pomiar SBP pomiar ciśieia kurczowego arterioodą przyrząd wykorzytujący efekt Dopplera do utaleia ciśieia krwi. Nagraie iterpretowało dwóch operatorów. d ( 6 3... ) /0 0. 9 0 i ( d i d) 8.78 Przy założeiu, że rozkład różic d jet ormaly ozacowaie puktowe dla wariacji to 8.78 Zmiea G X i gdzie X i z N(0,) ma rozkład i x x) / ( / x / e ( / ) = = =3 =4 =6 =9 MATLAB: =:9; x=5; y=chipdf(x,);.0000.0000 3.0000 4.0000 5.0000 6.0000 7.0000 0.046 0.040 0.073 0.06 0.0 0.83 0.0 8.0000 9.0000 0.069 0.087 http://e.wikipedia.org/wiki/chi-quared_ditributio
/7/06 cdf ('chi',, u, ) u u : P( ) u, u ozaczeie Przykład: Zajdź góry i doly.5-percetyl chi-kwadrat rozkładu dla =0. icdf to fukcja odwrota do cdf icdf('chi', 0.05,0) 0,0.05 =3.470 icdf('chi', 0.975,0) 0,0.975 =0.483 P(3.4 0 0.48) 0.95 =3.470 =0.483 3
/7/06 P, /, / Przykład: Pomiar SBP arterioodą : 95%CI dla wariacji to ( 3.87, 7.6), Do daje ( ), / ( ),, / 95%CI dla odchyleia tadardowego jet: (.97, 5.). Ozacowaie puktowe dla odchyleia daje =.8597 Jeśli próba jet duża, >30, to przedział ufości taje ię ymetryczy względem ozacowaia puktowego. Zachodzi bowiem P z z Ocea powtarzalości pomiarów Rekrutujemy 5 ochotików, i w odtępie tygodia pobieramy krew do aalizy. Badamy: d gdzie i i, i,, xi, x x x i, to pomiar pierwzy i drugi daego ochotika. Wyzło d=0 przy =0.5. A w literaturze jet, że =0.0. Czy aze pomiary ą powtarzale? Poieważ: Zatem: Z 95 % ufością mamy, iż wyiki azego laboratorium ą powtarzale w odieieiu do literaturowych To: 4
/7/06 Typowa zmiea loowa biara: X i 0 Zmiea loowa reprezetująca ilość ukceów wśród takich zmieych z prawd z prawd p jet czeriak - p ie ma czeriaka X X i i,.., Przykład : czeriak złośliwy wśród kobiet w wieku 45-54 lat w USA. Daa jet próbka 5000 kobiet w w/w wieku. Czeriaka twierdzoo u 8. Jak oceić wytępowaie (odetek kobiet z czeriakiem) tej choroby w całej populacji? E( X ) p Var( X ) pq Tw: Jeśli X jet zmiea loowa o rozkładzie dwumiaowym B(,p), to ieobciążoym etymatorem p jet Błąd tadardowy tej etymacji to p ˆ X / ( p ˆ) pq ˆ ˆ / Ozacowaie wytępowaia czeriaka : pˆ 8/ 5000 0.0056 ( pˆ) 0.0056*0.9944 / 5000 0.00 Etymacja ajwiękzej wiarygodości ( MLE) to ajczęściej toowaa metoda zacowaia parametrów modelu. Metoda ta wybiera zbiór wartości dla parametrów rozkładu tak, by tak zwaa fukcja wiarygodości oiągała wartości makymale. Ituicyjie metoda ajwiękzej wiarygodości utala tak parametr modelu, by makymalizować zgodość uzykaych z próby daych z modelem. 5
http://www.youtube.com/watch?v=i_dhpetvll8 /7/06 Waruek a ektremum L L: fukcja wiarygod ości Defiicja Niech fukcja prawdopodobieńtwa zmieej dykretej X jet opiaa jako fukcja k parametrów: p ( p, p,... pk ) Niech x ( x,,... ) to próba iezależych oberwacji zmieej X. x x Wiarygodością tej próby przy zadaym p, ozaczaą jako L(x p), jet prawdopodobieńtwo uzykaia wyików tej próby przy założeiu określoych wartości parametrów, czyli: p) P( x p)... P( x p) P( x i ) i L( x p) P( x p Wiarygodość próby ocey zachorowalości a czeriaka: 500 L( x p) P( xi p) p i 8 ( p) 5008 6
/7/06 Defiicja Niech fukcja gętości prawdopodobieńtwa zmieej ciągłej X jet opiaa fukcją o k parametrach: p ( k p, p,... p ) Niech x ( x,,... ) to próba iezależych oberwacji zmieej X. x x Wiarygodość tej próby przy zadaym p, ozaczaa L(x p), to prawdopodobieńtwo uzykaia wartości próby przy założeiu określoych wartości parametrów p ( p, p,... pk ) czyli: p) f ( x p)... f ( x p) f ( x i ) i L( x p) f ( x p Jaka jet wiarygodość daej próby -elemetowej reprezetującej zmieą X o rozkładzie ormalym N(,)? L( x (, )) f ( x i (, )) exp{ ( xi ) / ( ) i i Defiicja Etymatorem ajwiękzej wiarygodości (MLE) dla p azywamy takie wartości tych parametrów p ( p, MLE, p, MLE,... pk, które makymalizują wiarygodość. ( p, p,... pk MLE ) ) Użyteczość: Dla zerokiej klay rozkładów, gdy rozmiar próby jet dotateczie duży, to MLE jet ieobciążoym etymatorem puktowym i ma ajmiejzą wariację. 7
/7/06 Przykład: Rak pieri wśród kobiet 50-54 letich, których matki miały raka pieri. Mamy próbę loową 0000 kobiet o w/w wieku, 400 z ich miało lub ma raka pieri. Najlepze ozacowaie puktowe dla p wytępowaia raka w populacji to p^ = 400/0000=0.040 Jak ozacować przedziałowo parametr p wytępowaie raka pieri wśród kobiet 50-54 letich? 95%CI dla raka pieri wśród kobiet 50-54-letich: (0.036,0.044) pˆ 0.040 0.05 z /.96 0000 (0.040.96 0.04*0.96 /0000,0.040.96 0.04*0.96 /0000 ) Jeśli wiadomo, że odetek wytępowaia raka pieri wśród wzytkich kobiet w tym wieku jet %, to możemy ufać, że w grupie kobiet, których matki miały raka pieri, wytępowaie raka pieri jet wyżze iż średia dla tej grupy wiekowej. Podumowaie ( Metoda Walda) Dla B(,p) takiego, że pq 5 mamy p z ˆ / pˆ( pˆ) Przypadek pq < 5 Gdzie x= oberwacja 8
/7/06 Szczury były karmioe wyokocukrowa dietą. U dwóch pośród dwudzietu pojawił ię rak krwi. Podać etymacje przedziałową dla tego wyiku. pˆ / 0 0. 0.05 Trzeba zaleźć p i p takie, że 0 MATLAB: p: p : P( X p p ) 0.05 P( X p p ) 0.05 pq.8 5 - cdf('bio',,0,0.0:0.00:0.05) p=0.0 0.0 0.0 0.0 0.03 0.04 0.05 0.069 0.00 0.037 0.075 0.035 0.0357 cdf('bio',,0,0.3:0.005:0.33) 0.3 0.305 0.3 0.35 0.3 0.35 0.0355 0.03 0.089 0.06 0.035 0.0 95%CI jet (0.0, 0.3) p=0.3 Defiicja Wprowadzamy jedotkę oobo-rok jako jedotkę czau oberwacji ooby. Przykład: W Wobur u dzieci zotała zdiagozowaa białaczka w okreie od.o.970 do 3..979. Zakładamy, że populacja dzieci w Wobur to 000, oraz że zachorowalość a białaczkę w populacji ogólej to 5 przypadków a 00 000 oobo-lat. Jak wygląda etymacja zachorowalości dzieci a białaczkę w Wobur? Zatem, 000 dzieci było oberwowaych przez 0 lat, a więc mamy kumulowaych 0 000 oobo-lat. Twierdzeie Niech ilość zdarzeń X w okreie T oobo-lat ma rozkład Poioa z µ = λt. Nieobciążoy etymator λ jet day jako λ=x/t, gdzie X ozacza ilość zaoberwowaych zdarzeń w czaie T oobo-lat. 9
/7/06 Przykład: białaczki u dzieci w Wobur. Wyzaczyć 95%CI dla wpółczyika zachorowalości dzieci a białaczkę a 00000 oobo-lat (λ). 0