Wnioskowanie statystyczne tatystyka w 5
Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizacje zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających ten sam rozkład jak rozkład zmiennej losowej w populacji. tatystyką z próby nazywamy zmienną losową (np. Z ), będącą funkcją zmiennych X, X,... X. tatystykami z próby są, na przykład, średnia arytmetyczna, wariancja oraz inne parametry. Rozkład statystyki z próby zależy od rozkładu zmiennych losowych X, X,... X i wielkości próby.
Rozkłady statystyk z próby Próba Parametr Populacja x średnia arytmetyczna wartość oczekiwana EX ; m ² wariancja D X ; ² odchylenie standardowe DX ; w częstość empiryczna - prawdopodobieństwo p
Rozkłady statystyk z próby Jeżeli znany jest rozkład statystyki z próby to na tej podstawie można szacować wartości nieznanych parametrów populacji. Znajomość rozkładów statystyk z próby jest zatem niezbędna we wnioskowaniu statystycznym. Rozkłady statystyk z próby, w których parametrem jest liczba stopni swobody (zależna od liczebności próby) nazywane są dokładnymi i są wykorzystywane w przypadku małych prób. Jeżeli znalezienie dokładnego rozkładu statystyki nie jest możliwe, wykorzystywane są rozkłady graniczne statystyk, ale wtedy wymagana jest duża próba.
Średnia - wartość oczekiwana X~(m,) znana x ~ ( m, ) a po standaryzacji wyrażenie x m ~ (0,)
Średnia - wartość oczekiwana X~(m,) - nie znana x m ~ t( ) ma rozkład t-tudenta z lss (v) = ( )
Rozkład t-tudenta f ( t) v v v t v 0,5 0, 0,5 x ( x) t e dt dla x 0 0 0, 0,05 0-4 -3 - - 0 3 Et 0 D t 3
Rozkład t-tudenta ½α=0,05 ½α=0,05 F(t=,447)=0,975
Średnia - wartość oczekiwana Jeżeli zmienna ma dowolny rozkład to na mocy centralnego twierdzenia granicznego, dla dużych prób: x ~ ( EX, DX )
różnica średnich różnica wartości oczekiwanych Jeśli X ~(m, ) oraz X ~(m, ) i znane są odchylenia standardowe obu rozkładów to różnica średnich prób ma rozkład normalny: a po standaryzacji ; ~ m m x x (0;) ~ ) ( ) ( m m x x
Jeśli X ~(m, ) oraz X ~(m, ) - odchylenia standardowe są nieznane, to wyrażenie zawierające różnicę średnich dwóch prób ma rozkład t-tudenta z liczbą st. swobody = + ) ( ~ ) ( ) ( t m m x x x x ) ( ) ( x x różnica średnich różnica wartości oczekiwanych
różnica średnich różnica wartości oczekiwanych Jeśli zmienne X oraz X są zmiennymi losowymi o dowolnym rozkładzie to na mocy centralnego twierdzenia granicznego dla dużych prób rozkład różnicy dwóch średnich arytmetycznych jest rozkładem normalnym: x x ~ EX EX ;
Przykład Wysokość w kłębie koni rasy śląskiej ma rozkład normalny X ~(70 ; 5), a koni wielkopolskich X ~(68 ; 4). Obliczyć prawdopodobieństwo, że średnia arytmetyczna 9 elementowej próby wylosowanej z populacji koni śląskich jest większa o co najmniej cm od średniej 6 elementowej próby wylosowanej z populacji koni wielkopolskich. Poszukujemy: P x x ) P( x x ) ( E ( x x) 70 68 5 6 D( x ) 34 x,944 9 6 9 P( x x ) F( x x ( F( U 0,54)) F( U ) F( U ),944 0,54) 0,6964 F( U 0,54)
Wariancja w próbie wariancja w populacji Jeżeli zmienna losowa X ma rozkład normalny (X~(m, )), to dla dowolnej -elementowej próby poniższa statystyka ma rozkład Chikwadrat Pearson a ( ) ~ ( )
Rozkład chi-kwadrat 0,9 0,8 0,7 0,6 =4 0,5 0,4 0,3 0, 0, 0 0 5 0 5 0 5 E² = D²²=
Przykład Mierząc długość skór lisów zakłada się, że błąd pomiaru ma rozkład normalny (µ=0 ; =0,5 cm). Obliczyć, jaka jest szansa, że wariancja w próbie złożonej z danych o długości dziesięciu skór nie przekroczy 0,5 cm. ( ) statystyka zawierająca wariancję z próby i populacji ma rozkład chi-kwadrat o 9 stopniach swobody P( 0,5) ( P ) 9 0,5 0,5 P( 5,40) F( 5,40) 0,
odchylenie standardowe w próbie i w populacji Jeśli zmienna losowa X ma rozkład normalny (X~(m,)) oraz próba jest duża, (licząca co najmniej 0 elementów), to odchylenie standardowe tej próby będzie miało rozkład normalny: ~ ( ; ) Dla nieznanego odchylenia standardowego populacji stosuje się przybliżenie: ~ ( ; )
Iloraz wariancji dwóch prób i iloraz wariancji dwóch populacji Jeśli zmienna losowa X ~(m, ) oraz zmienna losowa X ~(m, ) to iloraz wariancji dwóch prób o liczebnościach i pobranych z dwóch populacji ma rozkład F nedecora, ) ; ( ~ F
Rozkład F - nedecora 0,8 0,7 0,6 0,5 =4 v =4 0,4 0,3 0, 0, 0 0 3 4 5 6 7 8 EF D F ( ) ( ) ( 4)
Przykład Wysokość w kłębie w populacji koni rasy śląskiej jest zmienną losową o rozkładzie normalnym X ~(70;5), a w populacji koni wielkopolskich X ~(68;4,47). Obliczyć prawdopodobieństwo, że wariancja 9- elementowej próby wylosowanej z populacji koni śląskich jest co najmniej pięciokrotnie większa niż wariancja 6-elementowej próby koni wielkopolskich 0,0 3,996) ( 5 9,98 5 5 5 F P F P P P
Częstość empiryczna prawdopodobieństwo Jeżeli próba jest duża (co najmniej 00-0 elementów) i obserwujemy w niej cechę o rozkładzie dwupunktowym, to częstość empiryczna sukcesu na mocy omówionych twierdzeń granicznych, będzie miała rozkład normalny: a po standaryzacji: w p w( w) m w ~ w ~ p; (0;) w( w)
różnica częstości empirycznych różnica prawdopodobieństw Jeżeli próby pochodzące z dwóch populacji są duże (co najmniej 00-0 elementów w każdej) i w każdej populacji obserwujemy tę samą cechę o rozkładzie dwupunktowym, to różnica częstości empirycznych sukcesów (w -w ), na mocy omówionych twierdzeń granicznych, będzie miała rozkład normalny: gdzie ) ( ; ~ m m w w w p p w w
Przykład Wiadomo, że prawdopodobieństwo pojawienia się albinosa w populacji jest równe 0,06. Jaka jest szansa, aby wśród 00 młodych urodzonych na fermie pojawiło się co najmniej 5 albinosów. P( w P( U 0,075) 0,893) w p 0,075 p 0,075 0,06 P P U p ( p) p ( p) 0,06 0,94 00 F( U ) F( U 0,893) 0,84 0,859
Wnioskowanie Estymacja parametrów populacji Weryfikacja hipotez
Estymacja parametrów populacji Estymator T parametru populacji to statystyka z próby (czyli funkcja elementów próby), która służy do oszacowania nieznanej wartości parametru. Estymacja punktowa: ˆ T T Estymacja przedziałowa P ˆ T T ) ( Metody uzyskiwania estymatorów: momentów największej wiarygodności
Własności estymatora nieobciążoność Estymator nazywamy nieobciążonym, wtedy, gdy wartość oczekiwana estymatora jest równa estymowanemu parametrowi, czyli E(T ) = zgodność Estymator jest zgodny, gdy jest stochastycznie zbieżny do szacowanego parametru, czyli: lim P T efektywność Estymator jest tym efektywniejszy im ma mniejszą wariancję dostateczność Estymator jest dostateczny jeśli jest konstruowany na podstawie wszystkim informacji z próby
Konstrukcja przedziału ufności f(t) - t -t t P( t t t )
Konstrukcja przedziału ufności ) ( t t t P ) ( t x t P ) ( t x t P ) ( t x t x P
Ocena precyzji oszacowania Miarą precyzji estymacji jest współczynnik względnej precyzji, czyli iloraz połowy długości przedziału do wartości estymatora:. x t x
Przykład konstruować 95% przedział ufności dla wartości oczekiwanej masy ciała cieląt w wieku 4 tygodni na podstawie losowo wybranej 9-cio elementowej próby, = 7 kg oraz = kg. Ocenić precyzję tego oszacowania. P( 7,306 7,306 ) 0,05 9 9 P( 7 9,4 7 9,4) 0,95 P( 6,776 8,4) 0,95 x,306 0,8,8% 7 9
Przedział ufności dla wariancji - f( P P
Przykład Oszacować przedziałowo wariancję wydajności mlecznej krów na podstawie próby liczącej 0 krów, których średnia wydajność wynosiła 540 kg z odchyleniem standardowym 430 kg. Przyjąć poziom ufności równy 0,95. O ile zmieniłaby się długość przedziału gdyby w próbie było 0 krów? Z tablic rozkładu chi-kwadrat odczytujemy dwie wartości dla 9 stopni swobody: ² 0,05;9 =9,08 oraz ² 0,975;9 =,7004 i podstawiamy do wzoru: P 84900 0 0 9,08 84900,7004 0,95 P 87479, 664,0 0, 95
Przedział ufności dla prawdopodobieństwa ) ) ( ) ( ( w w u w p w w u w P w w u w ) ( Precyzja oszacowania
Precyzja przedziałowego oszacowania wartości oczekiwanej zależnie od liczebności próby i odchylenia standardowego = =,5 =
Precyzja przedziałowego oszacowania wartości oczekiwanej zależnie od liczebności i poziomu ufności
Długość przedziału ufności dla prawdopodobieństwa zależnie od częstości empirycznej w próbie
Bison bison