Rozkłady statystyk z próby
Rozkłady statystyk z próby Przypuśćmy, że wykonujemy serię doświadczeń polegających na 4 krotnym rzucie symetryczną kostką do gry, obserwując liczbę wyrzuconych oczek
Nr kolejny x 1 x 2 x 3 x 4 doświadczenia 1 5 5 4 1 2 1 2 4 2... 3 1 5 6 wszystkie wyniki pierwszego rzutu kostką można traktować, jako realizację zmiennej losowej, którą oznaczmy przez X 1, drugiego X 2 itd.
Definicja. Próbą losową prostą jest ciąg n zmiennych losowych (X 1, X 2,,..., X n ) niezależnych, mających jednakowe rozkłady.
Definicja Statystyką z próby nazywamy zmienną losową Z, będącą funkcją zmiennych X 1, X 2,,..., X n stanowiących próbę losową. Statystykami są : średnia z próby, wariancja z próby, odchylenie standardowe z próby..
Liczba stopni swobody jest równa liczbie niezależnych obserwacji określających statystykę.
Rozkład średniej arytmetycznej z próby dla populacji normalnej Założenia: Cecha X ma w populacji generalnej rozkład N(m, ). Z populacji tej pobieramy n- elementową próbę losową prostą (X 1, X 2,,..., X n ).
Teza: przy powyższych założeniach średnia arytmetyczna z próby n 1 X X i n ma rozkład normalny i1 N( m, n ) Błąd standardowy średniej n
Przykład. Waga brzoskwiń ma rozkład N(150,3). Pakowane są one po dziewięć sztuk, przy czym dobór ten jest losowy. 1. Określić rozkład średniej arytmetycznej brzoskwiń w pojedynczych opakowaniach. 2. Jakie jest prawdopodobieństwo tego, że średnia waga brzoskwiń w opakowaniu jest większa od 152 g?
Rozwiązanie. Średnia arytmetyczna wag brzoskwiń ma rozkład normalny, ze średnią 150 g i odchyleniem standardowym D (X) 3 = 1 g. n 9
2. P( X 152) P X 150 1 152 150 1 P( U 2) 1 P( U 2) 1 (2) 1 0,97725 0,02275
Rozkład różnicy średnich arytmetycznych z prób Zakładamy, że z dwóch populacji normalnych N(m 1, 1 ) i N(m 2, 2 ) pobieramy niezależne próby liczące odpowiednio n 1 i n 2 elementów. Statystyka : ma rozkład normalny X1 X 2 N(m 1 m 2, n 2 1 1 n 2 2 2 )
Rozkład t-studenta. Jeżeli zmienne losowe X 1,X 2,...,X n mają jednakowy rozkład prawdopodobieństwa, który jest rozkładem normalnym o średniej m i wariancji σ 2, to zmienna t określona wzorem gdzie X t X - wartość średnia z próby, s odchylenie standardowe obliczone z próby ma rozkład t-studenta o v = n-1 stopniach swobody. s m n
Rozkład t-studenta Zastosowanie: w procedurach testowania hipotez statystycznych przy ocenie błędów pomiaru, szacowania przedziału, w którym leży, z określonym prawdopodobieństwem, rzeczywista wartość mierzona.
unkcja gęstości rozkładu t-studenta.
Dystrybuanta rozkładu t-studenta.
Tablice t-studenta zawierają kwantyle rozkładu Studenta. Tablice są skonstruowane w taki sposób, że dla ustalonej wartości (0 < <1) i liczby stopni swobody podana jest wartość t, spełniająca relację P( t t, ) =.
Tablice t Studenta. n =0,1 = 0,05 = 0,02 =0,01 4 2,132 2,776 3,747 4,604 5 2.015 2.571 3,365 4.032 6 1.943 2.447 3.143 3.707 10 1,812 2,228 2,764 3,169 11 1,796 2,201 2,718 3,106 12 1,782 1,179 2,681 3,055 13 1,771 2,160 2,650 3,012 18 1.734 2.552 2.878 3.922 19 1.729 2.093 2.539 2.861 25 1.708 2.060 2.485 2.787 26 1.706 2.056 2.479 2.779 40 1.684 2.021 2.423 2.704
Funkcja gęstości prawdopodobieństwa y =student(x;10) Dy stry buanta p=1-istudent(x;10) 0.5 1.0 0.4 0.8 0.3 0.6 0.2 0.4 0.1 0.2 0.0-3 -2-1 0 1 2 3 0.0-3 -2-1 0 1 2 3
Twierdzenie graniczne Przy (dla > 30) rozkład t-studenta jest zbieżny do standardowego rozkładu normalnego N(0, 1).
Rozkład chi-kwadrat ( 2 ) Rozkład chi kwadrat χ² to rozkład zmiennej losowej która jest sumą k kwadratów niezależnych zmiennych losowych o standardowym rozkładzie normalnym. Y k i1 (X i ) 2,
Rozkład chi-kwadrat ( 2 ) Statystyka (n 1) s 2 2 stosowana przy wnioskowaniu o wariancji z próby dla populacji normalnej
Funkcja gęstości rozkładu 2
Rozkład chi-kwadrat ( 2 ) Rozkład 2 jest stablicowany w ten sposób, że dla ustalonej wartości i liczby stopni swobody tablice podają wartość 2, spełniającą relację P( 2 2, ) =.
Rozkład 2 n 0,05 0,02 0,01 0,98 0,99 2 5.991 7.824 9.210 0.040 0.020 3 7.815 9.837 11.345 0.185 0.115 4 9.488 11.668 13.277 0.429 0.297 5 11.070 13.388 15.086 0.752 0.554 6 12.592 15.033 16.812 1.134 0.872 7 14.067 16.622 18.475 1.564 1.239
Rozkład F Fishera-Snedecora. Rozkład ilorazu wariancji dla dwóch populacji normalnych. Zakładamy, że z dwóch populacji normalnych N(m 1, ) i N(m 2, ) pobieramy niezależne próby liczące odpowiednio n 1 i n 2 elementów, z których wyznaczamy średnie i wariancje: s 2, s 1 2 2
Rozkład F Fishera -Snedecora. Budujemy statystykę F s s 2 1 2 2 Rozkład dla tej statystyki nazywany jest rozkładem F-Snedecora o liczbie stopni swobody : licznika 1 = n 1 1 i mianownika 2 = n 2-2.
Funkcja gęstości rozkładu F- Fishera
Twierdzenia graniczne i prawa wielkich liczb
Definicja stochastycznej zbieżności Ciąg zmiennych losowych {X n } jest - przy n zbieżny stochastycznie (wg prawdopodobieństwa ) do zmiennej losowej X, jeśli dla każdego > 0 spełniona jest następująca równość: lim n P( X n X ) 1
Prawo wielkich liczb Czebyszewa Jeśli dla ciągu zmiennych losowych {X k }, z których każda ma skończoną wartość oczekiwaną E(X k ) oraz wariancję D 2 (X k ) jest spełniony warunek to lim k D 2 (X k ) 0 lim k P( X k E(X k ) ) 1 co oznacza, że ciąg {X k } jest stochastycznie (wg prawdopodobieństwa) zbieżny do wartości oczekiwanej.
Mocne prawo wielkich liczb (Chinczyna) to twierdzenie matematyczne, które mówi że n ciąg zmiennych losowych X i Sn n zbiega z prawdopodobieństwem równym 1 do wartości oczekiwanej m zmiennej losowej X i. (Średnia z próby jest zbieżna do wartości oczekiwanej). i1
Twierdzenia graniczne Dotyczą zbieżności ciągu zmiennych losowych {X n } do rozkładu jednopunktowego tzn. istnienia granicy stochastycznej tego ciągu.
Przybliżenie Poissona Zmienna losowa X o rozkładzie dwumianowym przy n zmierza do rozkładu Poissona. Dystrybuanta rozkładu N(0,1) jest asymptotyczną (graniczną) dystrybuantą ciągu dystrybuant zestandaryzowanych zmiennych dwumianowych.
Centralne twierdzenie graniczne Założenia: Lindeberga-Levy ego. Dany jest ciąg X 1,, X n niezależnych zmiennych losowych o jednakowym rozkładzie. czyli spełnione są warunki: E(X 1 ) =m, E(X 2 ) = =E(X n ) = m D 2 (X 1 ) = 2 D 2 (X 2 ) = = D 2 (X n ) = 2
Centralne twierdzenie graniczne Teza: Lindeberga-Levy ego. Oznaczmy przez Z = X 1 + +X n Jeśli n rozkład zmiennej losowej Z n można przybliżać rozkładem normalnym z wartością oczekiwaną nm i odchyleniem czyli dla dużych n jest zbliżony do rozkładu n N(nm, ) n E(Z n ) = nm oraz D 2 (Z n ) = n 2 (Wynika to z własności wartości oczekiwanej i wariancji)
Rozkład sumy, różnicy, średniej arytmetycznej zmiennych losowych Wiadomo, że waga dorosłego człowieka ma rozkład N(70,3). Samolot zabiera 80 pasażerów. Jakie jest prawdopodobieństwo, że łączna waga pasażerów przekroczy 5550 kg.
Rozwiązanie Centralne twierdzenie graniczne Lindeberga-Levy ego. Łączna waga pasażerów Y = X 1 + X 2 +...+ X n ma rozkład N nm, n N(80*70,3 80 czyli N(5600, 3 80) 5550 5600 50 PY 5550) P( U PU P( U 1,86) 3 80 26,8 1 P( U 1,86) 1 ( 1,86) 11 (1,86) (1,86) 0,969
Przykład. Rozkład chi-kwadrat. Zmienna losowa X ma rozkład 2 chi-kwadrat z pięcioma stopniami swobody. Oblicz P(X 11,070) P(X 11,070) = =1- P(X > 11,070) =1-0,05 = 0,95
Rozkład 2 jest stablicowany w ten sposób, że dla ustalonej wartości i liczby stopni swobody n tablice podają wartość 2,n spełniającą relację P(2 2,n ) =.
P(X 11,070)
P(X > 11,070)
Zadania. 1. Zmienna losowa X ma rozkład chi-kwadrat o 6 stopniach swobody. Oblicz P(X > 1,610) 2. Zmienna losowa X ma rozkład chi-kwadrat z pięcioma stopniami swobody. Oblicz prawdopodobieństwo P(X > 1,145) oraz P(X 7,289)
Przykład. 1. Wiedząc, że zmienna losowa X ma rozkład chikwadrat o 6 stopniach swobody, znajdź taką wartość x 0, że a) P(X >x 0 ) = 0,9 b) P(X < x 0 ) = 0,05
a) P(X >x 0 ) = 0,9 Odp.a) x 0 = 2,204
b) P(X<x 0 ) = 1- P(X x 0 ) =0,1 stąd P(X x 0 ) = 0,95 z tablic x 0 = 1,635
Przykład. Rozkład t-studenta Zmienna losowa ma rozkład t-studenta o 15 stopniach swobody. Obliczyć a) P( X >0,128) b) P(X > 0,258) c) P( X 0,39)
P( X >0,128) Tablice: P( t t, ) =. P( X >0,128) odczytujemy z tablic następująco: dla 15 stopni swobody znajdujemy wartość 0,128 i odczytujemy prawdopodobieństwo (czyli alfa) =0,9
P( X >0,128) (P( t t, ) = )
b) P(X > 0,258)
P(X > 0,258) P(X > 0,258) =1/2* P(X > 0,258) =0,8/2 =0,4
P( X 0,39) P( X 0,39) = 1-P( X 0,39)=1-0,7=0,3;
P( X 0,39)
Przykład. Waga brzoskwiń ma rozkład N(150,3). Pakowane są one po dziewięć sztuk, przy czym dobór ten jest losowy. 1. Określić rozkład średniej arytmetycznej brzoskwiń w pojedynczych opakowaniach. 2. Jakie jest prawdopodobieństwo tego, że średnia waga brzoskwiń w opakowaniu jest większa od 152 g?
Rozwiązanie. Średnia arytmetyczna wag brzoskwiń ma rozkład normalny, ze średnią 150 g i odchyleniem standardowym D (X) 3 = 1 g. n 9
2. P( X 152) P X 150 1 152 150 1 P( U 2) 1 P( U 2) 1 (2) 1 0,97725 0,02275
Przykład. Wzrost 15-letnich chłopców ma rozkład normalny N(170,5), natomiast wzrost piętnastoletnich dziewcząt ma rozkład N(166,4). Pobiera się niezależnie próby liczące 8 chłopców i 10 dziewcząt. Jakie jest prawdopodobieństwo, że obliczana na podstawie prób średnia arytmetyczna wzrostu dziewczyn będzie większa od średniej arytmetycznej wzrostu chłopców?
Rozwiązanie Różnica średnich z obu prób - ma rozkład normalny ze średnią wynoszącą m 1 m 2 170-166 = 4 oraz odchyleniem standardowym n 2 1 1 n 2 2 2 25 8 16 10 2,17 czyli rozkład normalny N(4, 2,17).
2. P(X X ) P(X X ) 0) 2 1 1 2 (X P 1 P(U X 2 2, 17 ) 184, ) 4 0 4 2, 17 ( 184, ) 0, 03288
Rozkład sumy, różnicy, średniej arytmetycznej zmiennych losowych Wiadomo, że waga dorosłego człowieka ma rozkład N(70,3). Samolot zabiera 80 pasażerów. Jakie jest prawdopodobieństwo, że łączna waga pasażerów przekroczy 5550 kg.
Rozwiązanie Centralne twierdzenie graniczne Lindeberga-Levy ego. Łączna waga pasażerów Y = X 1 + X 2 +...+ X n ma rozkład N nm,n 2 N(80*70,3 80 czyli N(5600, 3 80) 5550 5600 50 PY 5550) P( U PU P( U 1,86) 3 80 26,8 1 P( U 1,86) 1 ( 1,86) 11 (1,86) (1,86) 0,969
Przykład Błędy pomiarów dokonywanych pewnym przyrządem mają rozkład normalny z wariancją 2 = 0,25 (cm) 2. Jakie jest prawdopodobieństwo, że wariancja błędów 10 niezależnych pomiarów nie przekroczy 0,16 (cm) 2.
Obliczyć: P(s 2 0,16) Prawdopodobieństwo zdarzenia s 2 0,16 obliczymy, gdy wykorzystamy fakt, że statystyka 2 (n 1) s 2 9s 2 0,25 ma rozkład 2 o 9 stopniach swobody. P(s 2 0,16) = P 9s 2 0,25 9*0,16 0,25 P( 2 (9) 5,76) 0,236