Dokładne i graniczne rozkłady statystyk z próby

Podobne dokumenty
Rozkłady statystyk z próby

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

STATYSTYKA wykład 5-6

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Rozkłady statystyk z próby. Statystyka

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Wnioskowanie statystyczne. Statystyka w 5

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Centralne twierdzenie graniczne

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Metody probabilistyczne

Zadania ze statystyki, cz.6

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Estymacja punktowa i przedziałowa

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Weryfikacja hipotez statystycznych

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Pobieranie prób i rozkład z próby

Statystyka w analizie i planowaniu eksperymentu

Statystyka w analizie i planowaniu eksperymentu

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD STATYSTYK Z PRÓBY

Testowanie hipotez statystycznych.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

1.1 Wstęp Literatura... 1

Wykład 3 Hipotezy statystyczne

Statystyka matematyczna dla leśników

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Testowanie hipotez statystycznych

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Testowanie hipotez statystycznych

STATYSTYKA

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 9. TESTOWANIE HIPOTEZ STATYSTYCZNYCH cd.

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Testowanie hipotez statystycznych.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

WYKŁAD 5 TEORIA ESTYMACJI II

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Estymacja parametrów rozkładu cechy

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Testowanie hipotez statystycznych cd.

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

Statystyka w analizie i planowaniu eksperymentu

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa

Rozkłady zmiennych losowych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

1 Estymacja przedziałowa

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Testowanie hipotez statystycznych.

1 Podstawy rachunku prawdopodobieństwa

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Statystyka matematyczna. Wykład VI. Zesty zgodności

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść I

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Estymacja przedziałowa. Przedział ufności

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

Metody Statystyczne. Metody Statystyczne.

Testowanie hipotez statystycznych.

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Testowanie hipotez dla proporcji. Wrocław, 13 kwietnia 2015

Statystyka matematyczna

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

Estymacja parametrów w modelu normalnym

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Ważne rozkłady i twierdzenia c.d.

Oszacowanie i rozkład t

Jednowymiarowa zmienna losowa

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Transkrypt:

Dokładne i graniczne rozkłady statystyk z próby

Przypomnijmy Populacja Próba Wielkość N n Średnia Wariancja Odchylenie standardowe 4.2

Rozkład statystyki Mówimy, że rozkład statystyki (1) jest dokładny, jeżeli znamy rozkład danej statystyki dla każdego naturalnego n. Jeżeli rozkład statystyki Z, jest dany przy n-->, to mówimy, ze statystyka ta ma rozkład graniczny (asymptotyczny).

Idea rozkładu statystycznego Sto razy rzuciliśmy kostką i otrzymaliśmy wyniki: 5 2 2 6 3 2... 5 5 2 4 6. (rozkład zapis wartości cechy i odpowiadającej jej częstości) Wartość (liczba oczek) 1 2 3 4 5 6 Liczność (liczba wystąpień) 16 19 9 17 25 14 Częstość 0.16 0.19 0.09 0.17 0.25 0.14 Częstość: 1 oczko: (liczba wystąpień/n)= Gdy x 1,..., x n są zaobserwowanymi wartościami cechy ilościowej, przez y 1 < y 2 <... < y k oznaczymy różne, uporządkowane wartości spośród nich. Ponadto, niech n i będzie liczbą powtórzeń wartości y i w próbie, i=1,..., k. Wówczas rozkładem cechy w próbie x 1,..., x n nazywamy ciąg (y 1, n 1 ),..., (y k, n k ). Często w definicji rozkładu zamiast wartości n i podaje się częstość występowania wartości y i, to jest n i /n.

Rozkład normalny gęstość praw-a dystrybuanta Φ(x)= Własności Jeśli X ~ N(μ, σ) i a i b są liczbami rzeczywistymi, to: ax + b ~ N(aμ + b, aσ). Jeśli X 1 ~ N(μ 1, σ 1 ) i X 2 ~ N(μ 2, σ 2 ), i X 1 i X 2 są niezależne, to X 1 + X 2 ~ N(μ 1 + μ 2, (σ 1 2 + σ 22 ) ½ ). Jeśli X 1,..., X n są niezależnymi zmiennymi losowymi o standardowym rozkładzie normalnym, to X 1 2 +... + X n 2 ma rozkład chi-kwadrat z n stopniami swobody. 5

Rozkład normalny Rozkład normalny jest opisany przez dwa parametry średnią i odchylenie standardowe. Zwiększanie odchylenia spłaszcza krzywą.

Standaryzacja Za pomocą poniższej funkcji możemy standaryzować każdą zmienną o rozkładzie normalnym 0 8.7

Rozkład chi-kwadrat Niech X 1, X 2,..., X k. będzie ciągiem niezależnych zmiennych losowych o jednakowym rozkładzie normalnym N(0, 1). Rozważmy statystykę: Rozkład statystyki χ 2 nazywamy rozkładem chikwadrat, a liczbę niezależnych składników (k) wchodzących w skład χ 2 określamy terminem liczba stopni swobody

Funkcja gęstości rozkładu chi-kwadrat Funkcja gęstości zmiennej losowej χ 2 przyjmuje postać: gdzie Г k 2 oznacza funkcję gamma:

Gęstość zmiennej χ 2 dla kilku wartości k

Rozkład chi-kwadrat Wartość oczekiwana zmiennej o rozkładzie χ 2 Wariancja zmiennej o rozkładzie χ 2

Twierdzenie 1. Jeżeli liczba stopni swobody zmiennej losowej o rozkładzie chi-kwadrat dąży do nieskończoności, to ciąg dystrybuant tych zmiennych losowych jest podobny dla dużych k do dystrybuanty rozkładu normalnego: Innymi słowy: 2 χ 2k k N (0,1)

Twierdzenie 2. Jeżeli zmienna losowa U 2 ma rozkład χ 2 o k stopniach swobody, to przy k ciąg dystrybuant zmiennej jest szybko zbieżny (podobny dla dużych k) do dystrybuanty rozkładu normalnego

Twierdzenie 3. Jeżeli zmienna losowa U 1 2 ma rozkład χ 2 o k 1 stopniach swobody i zmienna U 2 2 ma rozkład χ 2 o k 2 stopniach swobody, to zmienna: U 2 =U 1 2 +U 2 2 ma rozkład χ 2 o (k 1 + k 2 )stopniach swobody.

Łapiemy oddech Przez długi czas pojawiały się problemy przy szacowaniu i weryfikacji parametrów w przypadku małych prób (n<30), a jedyną zalecaną metodą było zwiększenie liczebności próby... Propozycje rozwiązania tego problemu przedstawił W. Gosset w 1908 roku, pisząc pod pseudonimem Student. Pracując dla Guinnessa chciał on przewidywać jakość całej linii produkcyjnej piwa na podstawie próby dla wybranych kilku beczek. Podał funkcję zależną od wyników pomiarów Xi i niezależną od odchylenia standardowego z populacji.

W 1916 r. R.A. Fisher znalazł funkcję gęstości oraz dystrybuantę dla omawianego rozkładu i nazwał go rozkładem Studenta. Dystrybuanta Gęstość prawdobodobieństwa

Statystyka t-studenta Niech Z będzie zmienną losową o rozkładzie normalnym N(0,1), U 2 zmienną losową o rozkładzie χ 2 (k), przy czym zmienne Z i U 2 są niezależne. Wówczas zmienną losową: nazywamy statystyką t-studenta

Rozkład t-studenta Zmienna losowa t ma rozkład Studenta, jeżeli jej funkcja gęstości określona jest wzorem: dla

Statystyka t-studenta Wartość oczekiwana zmiennej t Wariancja zmiennej t

Twierdzenie 4. Jeżeli k, to ciąg dystrybuant zmiennej losowej o rozkładzie Studenta jest zbieżny do dystrybuanty rozkładu normalnego N(0, 1).

Statystyka F -Snedecora Niech U 1 2 i U 2 2 będą niezależnymi zmiennymi losowymi o rozkładzie χ 2 odpowiednio o k 1 i k 2 stopniach swobody. Zmienną losową nazywamy statystyką F -Snedecora.

Rozkład F-Snedecora Funkcja gęstości zmiennej losowej F przyjmuje następującą postać: która wyznacza rozkład F-Snedecora

Statystyka F -Snedecora Wartość oczekiwana zmiennej t Wariancja zmiennej t

WYBRANE TWIERDZENIA DOTYCZĄCE ROZKŁADÓW DOKŁADNYCH I ASYMPTOTYCZNYCH PODSTAWOWYCH STATYSTYK Z PRÓBY

Twierdzenie 5. Jeżeli X 1, X 2,..., X n jest ciągiem niezależnych zmiennych losowych, z których każda ma ten sam rozkład N(μ, σ), to zmienna losowa ma również rozkład normalny:

Twierdzenie 6. Jeżeli X 1, X 2,..., X n1 jest ciągiem niezależnych zmiennych losowych, z których każda ma rozkład N(μ 1, σ 1 ), oraz Jeżeli Y 1, Y 2,..., Y n2 jest ciągiem niezależnych zmiennych losowych, z których każda ma rozkład N(μ 2, σ 2 ), przy czym zmienne (X 1, X 2,..., X n1 ) i (Y 1, Y 2,..., Y n2 ) są od siebie niezależne, to zmienna losowa: gdzie ma również rozkład normalny:

Twierdzenie 7. Jeżeli X 1, X 2,..., X n jest ciągiem niezależnych zmiennych losowych, z których każda ma ten sam rozkład N(μ, σ), to 1) i są niezależne 2) statystyka, gdzie ma rozkład χ 2 o n stopniach swobody, 3) statystyka ma rozkład χ 2 o n-1 stopniach swobody

Jeżeli: Twierdzenie 8. 1) oznaczają odpowiednio średnią arytmetyczną i wariancję z próby złożonej z n 1 niezależnych obserwacji wylosowanych z populacji normalnej 2) oznaczają odpowiednio średnią arytmetyczną i wariancję z próby liczącej n 2, niezależnych obserwacji wylosowanych z populacji normalnej obie próby są od siebie stochastycznie niezależne, to zmienna: ma rozkład Studenta o (n 1 +n 2-2) stopniach swobody

Zdefiniujmy nową zmienną losową następująco:

Twierdzenie 9. Jeżeli: 1) są wariancjami z dwóch niezależnych prób pobranych z populacji normalnych o tych samych odchyleniach standardowych σ; 2) n 1 i n 2 oznaczają odpowiednio liczbę elementów pierwszej i drugiej próby, to zmienna losowa 3) ma rozkład F -Snedecora o (n 1-1, n 2-1) stopniach swobody

Twierdzenie 10. CENTRALNE TWERDZENIE GRANICZNE Jeżeli próba losowa (prosta) składa się z n niezależnych obserwacji na zmiennej losowej X o dowolnym rozkładzie mającym skończoną wartość oczekiwaną μ i odchylenie standardowe σ, to średnia arytmetyczna z próby ma przy n--> rozkład asymptotycznie normalny

Twierdzenie 11. Jeżeli X 1, X 2,..., X n nie jest ciągiem zmiennych losowych o rozkładzie normalnym, lecz co najwyżej zbliżonym do normalnego, to

Jeżeli: Twierdzenie 12. 1) m oznacza liczbę elementów z cechą wyróżnioną A, zaobserwowanych w n- elementowej próbie losowej prostej; 2) prawdopodobieństwo wylosowania z populacji elementu z cechą wyróżnioną A jest równe p, (gdzie 0<p<1),

cd. To przy n--> wskaźnik struktury m/n elementów z cechą A w próbie ma w przybliżeniu rozkład normalny

Przykłady W populacji Bajdocji odbędzie się druga tura wyborów prezydenckich. Kandydat Roland Gusk ma poparcie p*100% obywateli Jego kontrkandydat Jaromi Gąska cieszy się uznaniem (1-p)*100% obywateli Wartość p przed wyborami jest nieznana! Roland wynajął statystyka aby oszacował wartość p

Pytanie 1 Jaką dużą próbę n wybrać aby (wskaźnik struktury m/n) odsetek popierających Rolanda respondentów (w próbie prostej) dobrze odzwierciedlał prawdziwą wartość p? Przyjmijmy, że σ (m/n) 0,01 (średnio mylimy się o co najwyżej 1 pkt. %) W takim razie p(1 p) Czyli n 10000*p(1-p) σ = 0,01 n

Ale 0 < p(1 p) < 1 4 Jeśli nie wiesz dlaczego, zapraszam ponownie na zajęcia z matematyki Zatem wystarczy wziąć 10000 n = 4 2500

Pytanie 2 Rolanda stać tylko na badanie na grupie 1000 respondentów Jakie jest prawdopodobieństwo, że statystyka (m/n) da wynik z błędem większym niż 0,03? m/n ma rozkł. dany w twierdz. Średnia Śr ma rozkład N(0,1) m p ( ) 0,03 P m p 0,03 = P n n p(1 p) p(1 p) n n m p PŚr = n 1,897 = 2* Φ(1,897) 0,058 p(1 p) n Z tablic N(0,1)

Przykład Przyjmuje sie, e w zbiorowosci generalnej wage dyn mona opisac rozkładem normalnym o parametrach 8kg i 2kg. Skup zakupi partie dyn dostarczona przez pewnego rolnika, jesli dla losowo wybranych 16 dyn z tej partii, srednia ich waga bedzie sie rónic nie wiecej ni o 0,15 kg od sredniej wagi dla rozkładu. Jakie jest prawdopodobienstwo odrzucenia dostarczonej partii dyn przez rolnika? N(8,2), n=16 Statystyki z proby: (1) (7,85-8)/2 * pierwiastek (16) (2) (8,15-8)/2 * pierwiastek (16) Prawdopowobienstwo: 0,235822

Przykład W pewnej fabryce sprawdzano skuteczność klejenia plastiku klejem Ala i Ola poprzez określenie czasu potrzebnego do rozerwania sklejonych produktów poprzez ich rozciągania i liczne doświadczenia pozwoliły ustalić, że rozkład wytrzymałości (w godz.) sklejonych produktów klejem Ala i Ola jest zbliżony odpowiednio do rozkładu normalnego N(2,9; 0,48) godz. oraz N(3,0; 0,5) godz. Jakie jest prawdopodobieństwo, że w grupie 144 elementów sklejonych klejem Ala średni czas potrzebny do ich rozerwania będzie o co najmniej kwadrans wyższy jak w grupie 121 produktów sklejonych klejem Ola. (1) N(2,9 ; 0,48), n=144 (2) N(3,0 ; 0,50), n=121 Y=X1 X2, P(Y>=0,25) Statystyka z próby: (0,25 (2,9 3,0)) / pierwiastek ( (0,48^2 / 144) + (0,5^2 / 121) )