TATYTYKA wykład 5-6 Twierdzenia graniczne Rozkłady statystyk z próby Wanda Olech
Twierdzenia graniczne Jeżeli rozpatrujemy ciąg zmiennych losowych {X ; X ;...; X n }, to zdarza się, że ich rozkłady przy n mogą być zbieżne do jednego rozkładu, który będzie nazywany rozkładem granicznym (asymptotycznym) dla tego ciągu zmiennych losowych.
złote twierdzenie Bernoulli ego inaczej tzw. prawo wielkich liczb, wraz ze wzrostem liczby przeprowadzanych doświadczeń, z których każde może zakończyć się sukcesem lub porażką, zaobserwowana częstość sukcesu skupia się wokół pewnej stałej, równej prawdopodobieństwu sukcesu p To twierdzenie stanowi podstawę statystycznej definicji prawdopodobieństwa
twierdzenie Moivre a Laplace a ciąg dystrybuant standaryzowanych zmiennych losowych o rozkładzie dwumianowym jest zbieżny do dystrybuanty rozkładu normalnego standaryzowanego (0;). Z tego twierdzenia wynika, że ciąg niestandaryzowanych dystrybuant zm. losowych o rozkładzie dwumianowym jest zbieżny do rozkładu normalnego ( np; np( p)) gdzie n oraz p są parametrami rozkładu dwumianowego
n=4 0,4 0,35 0,3 0,5 0, 0,5 0, 0,05 0 0 3 4 5 6 7 8 9 0
n=8
n=
centralne twierdzenie graniczne Lindenberg a-levy ego, mówi, że zmienne, których wartości kształtują się pod wpływem złożenia wielkiej liczby czynników losowych mają rozkład normalny
Centralne twierdzenie graniczne jeżeli X k jest ciągiem niezależnych zmiennych losowych o tym samym rozkładzie i skończonej wariancji to ciąg zmiennych losowych zdąża przy n n Z n X i i do rozkładu normalnego ( nex ; ndx) umę można zastąpić średnią, wtedy ciąg zmiennych losowych V n X i n i zdąża do rozkładu normalnego n DX ( EX ; ) n
Przykład Kontrola celna pasażerów przybywających na lotnisko we Frankfurcie wykazała, że dziennie 40 przewozi towary niedozwolone, a odchylenie standardowe wynosi 0. Jakie jest prawdopodobieństwo, iż w ciągu 6 losowo wybranych dni średnia liczba pasażerów przewożących towary niedozwolone przekroczy 46? Zmienna V (średnia liczba pasażerów w ciągu 6 dni) ma rozkład 0 zatem ( 40; ) (40;,5) 6 P(V>46)= - F(V=46) = F(U=(46-40)/,5) = - F(.8) = = 0,9974 = 0,006
Rozkłady statystyk z próby
Rozkłady statystyk z próby Próba losowa pobrana z populacji stanowi realizację zmiennej losowej jak ciąg zmiennych losowych (X, X,... X ) niezależnych i mających ten sam rozkład jak rozkład zmiennej losowej w populacji. tatystyką z próby nazywamy zmienną losową (np. Z ), będącą funkcją zmiennych X, X,... X. tatystykami z próby są, na przykład, średnia arytmetyczna, wariancja oraz inne parametry. Rozkład statystyki z próby zależy od rozkładu zmiennych losowych X, X,... X i wielkości próby.
Rozkłady statystyk z próby Próba Parametr Populacja x średnia arytmetyczna wartość oczekiwana EX ; m ² wariancja D X ; ² odchylenie standardowe DX ; w częstość empiryczna - prawdopodobieństwo p
Rozkłady statystyk z próby Jeżeli znany jest rozkład statystyki z próby to na tej podstawie można szacować wartości nieznanych parametrów populacji. Znajomość rozkładów statystyk z próby jest zatem niezbędna we wnioskowaniu statystycznym. Rozkłady statystyk z próby, w których parametrem jest liczba stopni swobody (zależna od liczebności próby) nazywane są dokładnymi i są wykorzystywane w przypadku małych prób. Jeżeli znalezienie dokładnego rozkładu statystyki nie jest możliwe, wykorzystywane są rozkłady graniczne statystyk, ale wtedy wymagana jest duża próba.
Średnia - wartość oczekiwana X~(m,) znana x ~ ( m, ) a po standaryzacji wyrażenie x m ~ (0,)
Średnia - wartość oczekiwana X~(m,) - nie znana x m ~ t( ) ma rozkład t-tudenta z lss (v) = ( )
Rozkład t-tudenta f ( t) v v v t v 0,5 0, 0,5 x ( x) t e dt dla x 0 0 0, 0,05 0-4 -3 - - 0 3 Et 0 D t 3
Rozkład t-tudenta ½α=0,05 ½α=0,05 F(t=,447)=0,975
Średnia - wartość oczekiwana Jeżeli zmienna ma dowolny rozkład to na mocy centralnego twierdzenia granicznego, dla dużych prób: x ~ ( EX, DX )
różnica średnich różnica wartości oczekiwanych Jeśli X ~(m, ) oraz X ~(m, ) i znane są odchylenia standardowe obu rozkładów to różnica średnich prób ma rozkład normalny: a po standaryzacji ; ~ m m x x (0;) ~ ) ( ) ( m m x x
Jeśli X ~(m, ) oraz X ~(m, ) - odchylenia standardowe są nieznane, to wyrażenie zawierające różnicę średnich dwóch prób ma rozkład t-tudenta z liczbą st. swobody = + ) ( ~ ) ( ) ( t m m x x x x ) ( ) ( x x różnica średnich różnica wartości oczekiwanych
różnica średnich różnica wartości oczekiwanych Jeśli zmienne X oraz X są zmiennymi losowymi o dowolnym rozkładzie to na mocy centralnego twierdzenia granicznego dla dużych prób rozkład różnicy dwóch średnich arytmetycznych jest rozkładem normalnym: x x ~ EX EX ;
Przykład Wysokość w kłębie koni rasy śląskiej ma rozkład normalny X ~(70 ; 5), a koni wielkopolskich X ~(68 ; 4). Obliczyć prawdopodobieństwo, że średnia arytmetyczna 9 elementowej próby wylosowanej z populacji koni śląskich jest większa o co najmniej cm od średniej 6 elementowej próby wylosowanej z populacji koni wielkopolskich. Poszukujemy: P x x ) P( x x ) ( E ( x x) 70 68 5 6 D( x ) 34 x,944 9 6 9 P( x x ) F( x x ( F( U 0,54)) F( U ) F( U ),944 0,54) 0,6964 F( U 0,54)
Wariancja w próbie wariancja w populacji Jeżeli zmienna losowa X ma rozkład normalny (X~(m, )), to dla dowolnej -elementowej próby poniższa statystyka ma rozkład Chikwadrat Pearson a ( ) ~ ( )
Rozkład chi-kwadrat 0,9 0,8 0,7 0,6 =4 0,5 0,4 0,3 0, 0, 0 0 5 0 5 0 5 E² = D²²=
Przykład Mierząc długość skór lisów zakłada się, że błąd pomiaru ma rozkład normalny (m=0 ; =0,5 cm). Obliczyć, jaka jest szansa, że wariancja w próbie złożonej z danych o długości dziesięciu skór nie przekroczy 0,5 cm. ( ) statystyka zawierająca wariancję z próby i populacji ma rozkład chi-kwadrat o 9 stopniach swobody P( 0,5) ( P ) 9 0,5 0,5 P( 5,40) F( 5,40) 0,
odchylenie standardowe w próbie i w populacji Jeśli zmienna losowa X ma rozkład normalny (X~(m,)) oraz próba jest duża, (licząca co najmniej 0 elementów), to odchylenie standardowe tej próby będzie miało rozkład normalny: ~ ( ; ) Dla nieznanego odchylenia standardowego populacji stosuje się przybliżenie: ~ ( ; )
Iloraz wariancji dwóch prób i iloraz wariancji dwóch populacji Jeśli zmienna losowa X ~(m, ) oraz zmienna losowa X ~(m, ) to iloraz wariancji dwóch prób o liczebnościach i pobranych z dwóch populacji ma rozkład F nedecora, ) ; ( ~ F
Rozkład F - nedecora 0,8 0,7 0,6 0,5 =4 v =4 0,4 0,3 0, 0, 0 0 3 4 5 6 7 8 EF D F ( ) ( ) ( 4)
Przykład Wysokość w kłębie w populacji koni rasy śląskiej jest zmienną losową o rozkładzie normalnym X ~(70;5), a w populacji koni wielkopolskich X ~(68;4,47). Obliczyć prawdopodobieństwo, że wariancja 9- elementowej próby wylosowanej z populacji koni śląskich jest co najmniej pięciokrotnie większa niż wariancja 6-elementowej próby koni wielkopolskich 0,0 3,996) ( 5 9,98 5 5 5 F P F P P P
Częstość empiryczna prawdopodobieństwo Jeżeli próba jest duża (co najmniej 00-0 elementów) i obserwujemy w niej cechę o rozkładzie dwupunktowym, to częstość empiryczna sukcesu na mocy omówionych twierdzeń granicznych, będzie miała rozkład normalny: a po standaryzacji: w p w( w) m w ~ w ~ p; (0;) w( w)
różnica częstości empirycznych różnica prawdopodobieństw Jeżeli próby pochodzące z dwóch populacji są duże (co najmniej 00-0 elementów w każdej) i w każdej populacji obserwujemy tę samą cechę o rozkładzie dwupunktowym, to różnica częstości empirycznych sukcesów (w -w ), na mocy omówionych twierdzeń granicznych, będzie miała rozkład normalny: gdzie ) ( ; ~ m m w w w p p w w
Przykład Wiadomo, że prawdopodobieństwo pojawienia się albinosa w populacji jest równe 0,06. Jaka jest szansa, aby wśród 00 młodych urodzonych na fermie pojawiło się co najmniej 5 albinosów. P( w P( U 0,075) 0,893) w p 0,075 p 0,075 0,06 P P U p ( p) p ( p) 0,06 0,94 00 F( U ) F( U 0,893) 0,84 0,859
Bison bison