Dokładne i graniczne rozkłady statystyk z próby
Przypomnijmy Populacja Próba Wielkość N n Średnia Wariancja Odchylenie standardowe 4.2
Rozkład statystyki Mówimy, że rozkład statystyki (1) jest dokładny, jeżeli znamy rozkład danej statystyki dla każdego naturalnego n. Jeżeli rozkład statystyki Z, jest dany przy n-->, to mówimy, ze statystyka ta ma rozkład graniczny (asymptotyczny).
Idea rozkładu statystycznego Sto razy rzuciliśmy kostką i otrzymaliśmy wyniki: 5 2 2 6 3 2... 5 5 2 4 6. (rozkład zapis wartości cechy i odpowiadającej jej częstości) Wartość (liczba oczek) 1 2 3 4 5 6 Liczność (liczba wystąpień) 16 19 9 17 25 14 Częstość 0.16 0.19 0.09 0.17 0.25 0.14 Częstość: 1 oczko: (liczba wystąpień/n)= Gdy x 1,..., x n są zaobserwowanymi wartościami cechy ilościowej, przez y 1 < y 2 <... < y k oznaczymy różne, uporządkowane wartości spośród nich. Ponadto, niech n i będzie liczbą powtórzeń wartości y i w próbie, i=1,..., k. Wówczas rozkładem cechy w próbie x 1,..., x n nazywamy ciąg (y 1, n 1 ),..., (y k, n k ). Często w definicji rozkładu zamiast wartości n i podaje się częstość występowania wartości y i, to jest n i /n.
Rozkład normalny gęstość praw-a dystrybuanta Φ(x)= Własności Jeśli X ~ N(μ, σ) i a i b są liczbami rzeczywistymi, to: ax + b ~ N(aμ + b, aσ). Jeśli X 1 ~ N(μ 1, σ 1 ) i X 2 ~ N(μ 2, σ 2 ), i X 1 i X 2 są niezależne, to X 1 + X 2 ~ N(μ 1 + μ 2, (σ 1 2 + σ 22 ) ½ ). Jeśli X 1,..., X n są niezależnymi zmiennymi losowymi o standardowym rozkładzie normalnym, to X 1 2 +... + X n 2 ma rozkład chi-kwadrat z n stopniami swobody. 5
Rozkład normalny Rozkład normalny jest opisany przez dwa parametry średnią i odchylenie standardowe. Zwiększanie odchylenia spłaszcza krzywą.
Standaryzacja Za pomocą poniższej funkcji możemy standaryzować każdą zmienną o rozkładzie normalnym 0 8.7
Rozkład chi-kwadrat Niech X 1, X 2,..., X k. będzie ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie normalnym N(0, 1). Rozważmy statystykę: Rozkład statystyki χ 2 nazywamy rozkładem chikwadrat, a liczbę niezależnych składników (k) wchodzących w skład χ 2 określamy terminem liczba stopni swobody
Funkcja gęstości rozkładu chi-kwadrat Funkcja gęstości zmiennej losowej χ 2 przyjmuje postać: gdzie Г k 2 oznacza funkcję gamma:
Gęstość zmiennej χ 2 dla kilku wartości k
Rozkład chi-kwadrat Wartość oczekiwana zmiennej o rozkładzie χ 2 Wariancja zmiennej o rozkładzie χ 2
Twierdzenie 1. Jeżeli liczba stopni swobody zmiennej losowej o rozkładzie chi-kwadrat dąży do nieskończoności, to ciąg dystrybuant tych zmiennych losowych jest podobny dla dużych k do dystrybuanty rozkładu normalnego: Innymi słowy: 2 χ 2k k N (0,1)
Twierdzenie 2. Jeżeli zmienna losowa U 2 ma rozkład χ 2 o k stopniach swobody, to przy k ciąg dystrybuant zmiennej jest szybko zbieżny (podobny dla dużych k) do dystrybuanty rozkładu normalnego
Twierdzenie 3. Jeżeli zmienna losowa U 1 2 ma rozkład χ 2 o k 1 stopniach swobody i zmienna U 2 2 ma rozkład χ 2 o k 2 stopniach swobody, to zmienna: U 2 =U 1 2 +U 2 2 ma rozkład χ 2 o (k 1 + k 2 )stopniach swobody.
Łapiemy oddech Przez długi czas pojawiały się problemy przy szacowaniu i weryfikacji parametrów w przypadku małych prób (n<30), a jedyną zalecaną metodą było zwiększenie liczebności próby... Propozycje rozwiązania tego problemu przedstawił W. Gosset w 1908 roku, pisząc pod pseudonimem Student. Pracując dla Guinnessa chciał on przewidywać jakość całej linii produkcyjnej piwa na podstawie próby dla wybranych kilku beczek. Podał funkcję zależną od wyników pomiarów Xi i niezależną od odchylenia standardowego z populacji.
W 1916 r. R.A. Fisher znalazł funkcję gęstości oraz dystrybuantę dla omawianego rozkładu i nazwał go rozkładem Studenta. Dystrybuanta Gęstość prawdobodobieństwa
Statystyka t-studenta Niech Z będzie zmienną losową o rozkładzie normalnym N(0,1), U 2 zmienną losową o rozkładzie χ 2 (k), przy czym zmienne Z i U 2 są niezależne. Wówczas zmienną losową: nazywamy statystyką t-studenta
Rozkład t-studenta Zmienna losowa t ma rozkład Studenta, jeżeli jej funkcja gęstości określona jest wzorem: dla
Statystyka t-studenta Wartość oczekiwana zmiennej t Wariancja zmiennej t
Twierdzenie 4. Jeżeli k, to ciąg dystrybuant zmiennej losowej o rozkładzie Studenta jest zbieżny do dystrybuanty rozkładu normalnego N(0, 1).
Statystyka F -Snedecora Niech U 1 2 i U 2 2 będą niezależnymi zmiennymi losowymi o rozkładzie χ 2 odpowiednio o k 1 i k 2 stopniach swobody. Zmienną losową nazywamy statystyką F -Snedecora.
Rozkład F-Snedecora Funkcja gęstości zmiennej losowej F przyjmuje następującą postać: która wyznacza rozkład F-Snedecora
Statystyka F -Snedecora Wartość oczekiwana zmiennej t Wariancja zmiennej t
WYBRANE TWIERDZENIA DOTYCZĄCE ROZKŁADÓW DOKŁADNYCH I ASYMPTOTYCZNYCH PODSTAWOWYCH STATYSTYK Z PRÓBY
Twierdzenie 5. Jeżeli X 1, X 2,..., X n jest ciągiem niezależnych zmiennych losowych, z których każda ma ten sam rozkład N(μ, σ), to zmienna losowa ma również rozkład normalny:
Twierdzenie 6. Jeżeli X 1, X 2,..., X n1 jest ciągiem niezależnych zmiennych losowych, z których każda ma rozkład N(μ 1, σ 1 ), oraz Jeżeli Y 1, Y 2,..., Y n2 jest ciągiem niezależnych zmiennych losowych, z których każda ma rozkład N(μ 2, σ 2 ), przy czym zmienne (X 1, X 2,..., X n1 ) i (Y 1, Y 2,..., Y n2 ) są od siebie niezależne, to zmienna losowa: gdzie ma również rozkład normalny:
Twierdzenie 7. Jeżeli X 1, X 2,..., X n jest ciągiem niezależnych zmiennych losowych, z których każda ma ten sam rozkład N(μ, σ), to 1) i są niezależne 2) statystyka, gdzie ma rozkład χ 2 o n stopniach swobody, 3) statystyka ma rozkład χ 2 o n-1 stopniach swobody
Jeżeli: Twierdzenie 8. 1) oznaczają odpowiednio średnią arytmetyczną i wariancję z próby złożonej z n 1 niezależnych obserwacji wylosowanych z populacji normalnej 2) oznaczają odpowiednio średnią arytmetyczną i wariancję z próby liczącej n 2, niezależnych obserwacji wylosowanych z populacji normalnej obie próby są od siebie stochastycznie niezależne, to zmienna: ma rozkład Studenta o (n 1 +n 2-2) stopniach swobody
Zdefiniujmy nową zmienną losową następująco:
Twierdzenie 9. Jeżeli: 1) są wariancjami z dwóch niezależnych prób pobranych z populacji normalnych o tych samych odchyleniach standardowych σ; 2) n 1 i n 2 oznaczają odpowiednio liczbę elementów pierwszej i drugiej próby, to zmienna losowa 3) ma rozkład F -Snedecora o (n 1-1, n 2-1) stopniach swobody
Twierdzenie 10. CENTRALNE TWERDZENIE GRANICZNE Jeżeli próba losowa (prosta) składa się z n niezależnych obserwacji na zmiennej losowej X o dowolnym rozkładzie mającym skończoną wartość oczekiwaną μ i odchylenie standardowe σ, to średnia arytmetyczna z próby ma przy n--> rozkład asymptotycznie normalny
Twierdzenie 11. Jeżeli X 1, X 2,..., X n nie jest ciągiem zmiennych losowych o rozkładzie normalnym, lecz co najwyżej zbliżonym do normalnego, to
Jeżeli: Twierdzenie 12. 1) m oznacza liczbę elementów z cechą wyróżnioną A, zaobserwowanych w n- elementowej próbie losowej prostej; 2) prawdopodobieństwo wylosowania z populacji elementu z cechą wyróżnioną A jest równe p, (gdzie 0<p<1),
cd. To przy n--> wskaźnik struktury m/n elementów z cechą A w próbie ma w przybliżeniu rozkład normalny
Przykłady W populacji Bajdocji odbędzie się druga tura wyborów prezydenckich. Kandydat Roland Gusk ma poparcie p*100% obywateli Jego kontrkandydat Jaromi Gąska cieszy się uznaniem (1-p)*100% obywateli Wartość p przed wyborami jest nieznana! Roland wynajął statystyka aby oszacował wartość p
Pytanie 1 Jaką dużą próbę n wybrać aby (wskaźnik struktury m/n) odsetek popierających Rolanda respondentów (w próbie prostej) dobrze odzwierciedlał prawdziwą wartość p? Przyjmijmy, że σ (m/n) 0,01 (średnio mylimy się o co najwyżej 1 pkt. %) W takim razie p(1 p) Czyli n 10000*p(1-p) σ = 0,01 n
Ale 0 < p(1 p) < 1 4 Jeśli nie wiesz dlaczego, zapraszam ponownie na zajęcia z matematyki Zatem wystarczy wziąć 10000 n = 4 2500
Pytanie 2 Rolanda stać tylko na badanie na grupie 1000 respondentów Jakie jest prawdopodobieństwo, że statystyka (m/n) da wynik z błędem większym niż 0,03? m/n ma rozkł. dany w twierdz. Średnia Śr ma rozkład N(0,1) m p ( ) 0,03 P m p 0,03 = P n n p(1 p) p(1 p) n n m p PŚr = n 1,897 = 2* Φ(1,897) 0,058 p(1 p) n Z tablic N(0,1)
Przykład Przyjmuje sie, e w zbiorowosci generalnej wage dyn mona opisac rozkładem normalnym o parametrach 8kg i 2kg. Skup zakupi partie dyn dostarczona przez pewnego rolnika, jesli dla losowo wybranych 16 dyn z tej partii, srednia ich waga bedzie sie rónic nie wiecej ni o 0,15 kg od sredniej wagi dla rozkładu. Jakie jest prawdopodobienstwo odrzucenia dostarczonej partii dyn przez rolnika? N(8,2), n=16 Statystyki z proby: (1) (7,85-8)/2 * pierwiastek (16) (2) (8,15-8)/2 * pierwiastek (16) Prawdopowobienstwo: 0,235822
Przykład W pewnej fabryce sprawdzano skuteczność klejenia plastiku klejem Ala i Ola poprzez określenie czasu potrzebnego do rozerwania sklejonych produktów poprzez ich rozciągania i liczne doświadczenia pozwoliły ustalić, że rozkład wytrzymałości (w godz.) sklejonych produktów klejem Ala i Ola jest zbliżony odpowiednio do rozkładu normalnego N(2,9; 0,48) godz. oraz N(3,0; 0,5) godz. Jakie jest prawdopodobieństwo, że w grupie 144 elementów sklejonych klejem Ala średni czas potrzebny do ich rozerwania będzie o co najmniej kwadrans wyższy jak w grupie 121 produktów sklejonych klejem Ola. (1) N(2,9 ; 0,48), n=144 (2) N(3,0 ; 0,50), n=121 Y=X1 X2, P(Y>=0,25) Statystyka z próby: (0,25 (2,9 3,0)) / pierwiastek ( (0,48^2 / 144) + (0,5^2 / 121) )