STATYSTYKA MATEMATYCZNA rachunek prawdopodobieństwa
treść Zdarzenia losowe pojęcie prawdopodobieństwa prawo wielkich liczb zmienne losowe rozkłady teoretyczne zmiennych losowych
Zanim zajmiemy się wnioskowaniem statystycznym musimy uświadomić sobie, Ŝe nigdy w 100% nie będziemy pewni czy jest ono prawdziwe czy fałszywe. MoŜemy tylko takiego czy innego wyniku wnioskowania oczekiwać z określonym prawdopodobieństwem. To znaczy, Ŝe rezultat wnioskowania jest zdarzeniem losowym. Musimy zatem zapoznać się z pojęciem zdarzenia losowego i jego prawdopodobieństwa. Zdarzenia losowe (przypadkowe) to takie zdarzenia, które w danym kompleksie warunków mogą zajść lub nie zajść i mają określone prawdopodobieństwo zajścia lub niezajścia. W kaŝdym eksperymencie (doświadczeniu, badaniu) statystycznym moŝna wyróŝnić zbiór wszystkich moŝliwych, oddzielnych i nie dających rozłoŝyć się na prostsze wyników obserwacji. Zbiór taki nazywamy zbiorem zdarzeń elementarnych. Np. rzut kostką: ZZE to 1,,3,4,5,6 ale uzyskanie jednego z tych moŝliwych zdarzeń jest zdarzeniem losowym.
Prawdopodobieństwo zdarzenia losowego jest teoretycznym odpowiednikiem (względnej) częstości empirycznej (empirycznego prawdopodobieństwa). Definicja klasyczna (na podstawie Laplace`a 181) Prawdopodobieństwem P zdarzenia losowego A nazywamy iloraz liczby zdarzeń elementarnych sprzyjających zdarzeniu A oraz liczby wszystkich zdarzeń elementarnych, jednakowo moŝliwych i wzajemnie się wykluczających. P ( A) a a + b P ( A) 1 P( B) 1 P( A) 0
Definicja matematyczna (na podstawie von Misesa) Prawdopodobieństwo zdarzenia losowego A jest granicą do jakiej dąŝy częstość empiryczna, przy załoŝeniu, Ŝe liczebność jednostek obserwacji dąŝy do nieskończoności. lim n p i P( A) Definicja współczesna (na podstawie Kołmogorowa) (Prawdopodobieństwo jest tu rozumiane jako miara na podzbiorach zbioru zdarzeń elementarnych. Definicja zapisywana jest w formie aksjomatów wynikających z teorii klasycznej Laplace`a) * KaŜdemu zdarzeniu losowemu A odpowiada określona liczba P(A) zwana prawdopodobieństwem zdarzenia losowego A zawierająca się w granicach przedziału liczbowego od 0 do 1 ( A) 1 0 P
** Prawdopodobieństwo zdarzenia pewnego (obejmującego wszystkie elementy zbioru Ω) równa się jedności P( Ω) 1 *** JeŜeli A 1, A,..., A n,... jest ciągiem zdarzeń losowych parami wykluczających się, to prawdopodobieństwo sumy tych zdarzeń jest równe sumie prawdopodobieństw tych zdarzeń P ( A A + + A +...) P( A ) + P( A ) +... + P( A )... 1 +... n 1 n +
Prawo wielkich liczb leŝy u podstaw badania prawidłowości statystycznych. Po raz pierwszy opublikowane jako tzw. Złote twierdzenie Bernoulliego w 1713 roku. W okresach późniejszych bardziej uogólniane przez Poissona, Czebyszewa i innych. Wzrostowi liczby jednostek obserwacji (ściślej - liczby niezaleŝnych doświadczeń) odpowiada wzrastające prawdopodobieństwo zmniejszania się bezwzględnej róŝnicy między częstością empiryczną z próby a nieznanym co do poziomu prawdopodobieństwem danego zdarzenia losowego. lim n P { p P( A) ε} 1 i n i N p i
Na podstawie tego prawa formułowane są ogólniejsze twierdzenia dotyczące procesów masowych. Np.: DuŜa liczebność (masowość) próby powoduje, Ŝe odchylenia na (+) i na (-) między częstością empiryczną i prawdopodobieństwem mają tendencje do zmniejszania się. Tendencja ta nie występuje w przypadku małych prób. Prawo wielkich liczb moŝe być rozszerzane i na inne, poza prawdopodobieństwem, parametry zbiorowości generalnej. Np.: Wartość liczbowa średniej arytmetycznej z próby (x) jest tym lepszym oszacowaniem średniej populacji generalnej (µ) im liczebność losowej próby jest większa. { x } µ ε 1 lim P n (uogólnienie Czebyszewa)
Zmienne losowe: Zmienna losowa (X) jest teoretycznym odpowiednikiem (modelem) cechy statystycznej. Warianty cechy statystycznej pojawiają się z określoną częstością empiryczną (szereg rozdzielczy) a realizacjom zmiennej losowej odpowiadają prawdopodobieństwa wyznaczone przez odpowiednią funkcję. Definicja wg. podręcznika prof. Bruchwalda: Zmienną losową (X) nazywamy funkcję o wartościach rzeczywistych określoną na zbiorze zdarzeń elementarnych taką, Ŝe dla dowolnych stałych a < b jest określone prawdopodobieństwo, iŝ a < X < b. Podobnie jak w przypadku cech statystycznych zmienne losowe dzielimy na skokowe (dyskretne) (X s ) oraz ciągłe (X c ).
Skokowe to takie, których zbiór moŝliwych realizacji jest skończony (x 1, x, x 3,..., x k ) lub przeliczalny (x 1, x, x 3,...). ( X x ) p s i i P Czyli zmienna losowa skokowa przyjmuje wartości liczbowe (x i ) z prawdopodobieństwem (p i ) (gdzie i 1,, 3,..., k lub i 1,, 3,... ) Ciągłe to takie, dla których istnieje taka nieujemna funkcja f(x) zwana funkcją gęstości prawdopodobieństwa, Ŝe dla dowolnych przedziałów (x 1i < x i ) zachodzi: x P ( x X < x ) f ( x) dx p 1i c i i < x i 1i natomiast: P( X x ) 0 c i
Do metod prezentacji wnioskowania statystycznego niezbędne jest pojęcie rozkładu zmiennej losowej: W przypadku zmiennych losowych skokowych, odpowiednia dla danej zmiennej funkcja określa rozkład prawdopodobieństwa wszystkich moŝliwych realizacji tej zmiennej P(X s x i ) p i. Dla zmiennych losowych ciągłych funkcja określa gęstość prawdopodobieństwa, gdyŝ P(X c x i ) 0. Liczba wszystkich moŝliwych zdarzeń dla X c jest nieskończona. f ( x) lim x 0 P ( x < X < x + x) c x
WaŜnym pojęciem w statystyce jest dystrybuanta zmiennej losowej odpowiednik dystrybuanty empirycznej: - dla Xs (skokowej): F ( x) P( X x) P( X x ) - dla Xc (ciągłej): F s x x ( x) P( X < x) f ( x) dx c Dystrybuanta zmiennej losowej F(x) jest to prawdopodobieństwo tego, Ŝe ta zmienna losowa przyjmie wartości < x. i x s i
Wskaźniki charakteryzujące zmienne losowe: Wartość oczekiwana (nadzieja matematyczna) odpowiednik średniej arytmetycznej dla populacji: - dla (X s ): EX x s i p i ni 1 pi i µ N x n i N - dla (X c ): EX c + x f ( x) dx
Wariancja zmiennej losowej: - skokowej D X ( ) s xi EX s pi - ciągłej D X + c ) f ( x dx ( x EX ) c Teoretyczne rozkłady zmiennej losowej skokowej - rozkład dwumianowy: gdzie: q 1 - p k 0, 1,,..., n P ( ) k ( n k ) X k p q s n k
EX np D X npq DX npq Dwumian Newtona: przykłady: ( q + p) n n k k n ( n k) p 0,5 n 10 Binomial Distribution 0,5 0, Event prob.,trials 0,5,10 probability 0,15 0,1 0,05 0 0 1 3 4 5 6 7 8 9 10 x
p 0, n 10 Binomial Distribution probability 0,4 0,3 0, 0,1 Event prob.,trials 0,,10 0 0 1 3 4 5 6 7 8 9 10 x p 0,7 n 10 Binomial Distribution probability 0,3 0,5 0, 0,15 0,1 0,05 0 0 1 3 4 5 6 7 8 9 10 x Event prob.,trials 0,7,10
p 0, n 50 0,15 probability 0,1 0,09 0,06 0,03 Binomial Distribution Event prob.,trials 0,,50 0 0 10 0 30 40 50 x inne rozkłady zmiennej losowej skokowej: - Poissona P k λ k ( ) λ X k e dla: k 0, 1,,... λ > 0 EX D X λ
geometryczny: ( X n) pq n 1 P dla: n 1,, 3,... EX 1 p 1 D X p p q 1-p Teoretyczne rozkłady zmiennej losowej ciągłej: - rozkład normalny: f ( x µ ) 1 σ ( x) e σ Π dla: < x < + σ > 0 EX µ DX σ
f(x) N(0;) z x µ σ σ σ f ( z) 1 Π e 1 z 14 16 18 0 4 6 x µ f(z) N(0;1) F( z) 1 Π z e 1 z dz -3 - -1 0 1 3 z
F(z) 1 F( z) 1 Π z e 1 z dz 0.5-3 - -1 0 1 3 z Inne rozkłady zmiennej losowej ciągłej: - jednostajny - gamma - beta - wykładniczy
Przykłady: rozkład dwumianowy x i n i k i n i k i P(Xk) n 4 3 0 0 0.1177 9.4 6 8 1 8 0.305 75.6 8 73 146 0.34 81.0 10 45 3 135 0.185 46.3 1 4 4 96 0.0595 14.9 14 5 10 0.010.6 16 1 6 6 0.0007 0. suma 50 475 1.0000 50 µ σ 7.80.35 k p nik N k n i 1.90 6 475 50 1.90 0.3167 0.3 EX p np EX n
rozkład normalny x i n i x gi x ig - µ z i (x gi -µ)/σ F(x gi ) F(x gi ) F(x gi-1 ) n i x< 3 0 0.007 5. 3-4.8 -.04 0.007 4 3 0.0963 4.1 5 -.8-1.19 0.1170 6 8 0.499 6.5 7-0.8-0.34 0.3669 8 73 0.381 8.0 9 1. 0.51 0.6950 10 45 0.181 54.5 11 3. 1.36 0.9131 1 4 0.0733 18.3 13 5..1 0.9864 14 0.015 3.1 15 7. 3.06 0.9989 16 1 0.0011 0.3 17 9. 3.91 1.0000 x>17 0 0.0000 0.0 suma 50 1.0000 50 µ 7.80 σ.35
Porównanie częstości empirycznych z teoretycznymi 90 80 70 60 50 40 30 0 10 0 n 0 4 6 8 10 1 14 16 18 0 x ne ndw nnor
90 80 70 60 50 40 30 0 10 0 0 4 6 8 10 1 14 16 18 0 ne ndw 90 80 70 60 50 40 30 0 10 0 0 4 6 8 10 1 14 16 18 0 ne nnor