Wykład 13. Zmienne losowe typu ciągłego dr Mariusz Grządziel styczeń 014 Pole trapezu krzywoliniowego Przypomnienie: figurę ograniczoną przez: wykres funkcji y = f(x, gdzie f jest funkcją ciągłą; proste x = a, x = b, a < b, oś OX (tj. prostą y = 0 będziemy nazywać trapezem krzywoliniowym (odpowiadającym funkcji f oraz odcinkowi [a, b]. Pole tej figury można przedstawić w postaci całki: b a f(xdx. Pole nieograniczonego trapezu krzywoliniowego-całka niewłaściwa Problem: jesteśmy zainteresowani polem figury ograniczonej: wykresem funkcji f(x = e x oraz prostymi y = 0, x = 0. Pole tego obszaru można określić jako całkę: Korzystając z faktu: znajdujemy, że granica ta jest równa 1. 0 lim f(xdx. T 0 e x dx = e T + e 0 = 1 e T Całka niewłaściwa z funkcji nieujemnej Całkę niewłaściwą z funkcji nieujemnej f na półprostej [a, można określić jako granicę: lim T a f(tdt jeśli ona istnieje. Analogicznie można całkę niewłaściwą z funkcji nieujemnej f na półprostej (, b]. Całkę niewłaściwą z funkcji nieujemnej f na prostej (, można określić jako granicę lim T T ona istnieje. f(tdt, jeśli Zmienne losowe typu ciagłego Definicja 1. Mówimy, że zmienna losowa X jest typu ciagłego, jeśli istnieje nieujemna funkcja g taka, że dla każdych liczb a i b spełniajacych warunek a < b zachodzi równość P (a < X < b = b a g(xdx. Rozkład jednostajny na odcinku [0, 1] Przykładem zmiennej losowej typu ciągłego jest rozkład jednostajny na odcinku [0, 1] (oznaczenie: U(0, 1. Jego funkcja gestości u dana jest wzorem { 1, jeśli 0 x 1, u(x = 0 jeśli x < 0 lub x > 1. Rozkład ten może opisywać np. czas oczekiwania na autobus A, odjeżdżający do miejscowości B co godzinę, przez pasażera C; zakładamy, że C nie zna rozkładu jazdy dla tej linii i że przychodzi na przystanek w losowym momencie. 1
Rozkład jednostajny na odcinku [0, 1] przykład obliczeń Czas oczekiwania na autobus- zmienna losowa Y U(0, 1. Prawdopodobieństwo P ( 1 3 < Y < 1 jest równe: ( 1 P 3 < Y < 1 = 1/ 1/3 1dx = [ ] 1/ x = 1 1/3 1 3 = 1 6. Prawdopodobieństwa odpowiadajace nierównościom ostrym i słabym Dla zmiennej losowej X o rozkładzie typu ciągłego mamy: P (a < X < b = P (a X < b = P (a < X b = P (a X b. Równość ta wynika z własności całki oznaczonej. Rozkład normalny Szczególnie ważnym w zastosowaniach jest rozkład normalny. Definicja. Mówimy, że zmienna losowa X ma rozkład normalny z parametrami µ i, gdzie µ R i > 0, jeżeli gęstość jej rozkładu jest określona wzorem: φ µ, (x = 1 π e (x µ. Skrótowy zapis: X N(µ,. Dla µ = 0 i = 1 będziemy pisać zamiast φ 0,1 (x krótko φ(x. 0.0 0.1 0. 0.3 0.4 4 0 4 Rysunek 1: Wykresy gęstości rozkładów normalnych: N(0, 1 (linia ciągła, N(0, (linia kropkowana, N(, 1 (linia kreskowana. Rozkład normalny zastosowania Wiele cech (zmiennych losowych w życiu gospodarczym, w świecie przyrody ma rozkład zbliżony do normalnego. Wynika to z tzw. centralnego twierdzenia granicznego, z którego wynika, że średnia 1 n (X 1 + X +... + X n, gdzie X 1, X,..., X n są niezależnymi zmiennymi losowymi o tym samym rozkładzie, ma rozkład zbliżony do normalnego N(µ, dla pewnych µ i. Dokładniejsze sformułowanie tego twierdzenia wymaga określenia wartości oczekiwanej i wariancji zmiennej losowej typu ciągłego. Obliczanie prawdopodobieństw w rozkładzie normalnym-n(0, 1 Dla a < b prawdopodobieństwo P (a < X < b, gdzie X N(0, 1 jest równe: gdzie Φ jest określona przez: P (a < X < b = Φ(t = b a t φ(xdx = Φ(b Φ(a, φ(xdx. Funkcja Φ jest dystrybuantą rozkładu normalnego N(0, 1. Funkcji Φ nie da się wyrazić za pomocą skończnej liczby działań na podstawowych funkcjach elementarnych stąd potrzeba sporządzania tablic statystycznych zawierających wartości funkcji Φ (można je znaleźć w prawie każdym podręczniku statystyki.
3 1 0 1 3 0.0 0.1 0. 0.3 0.4 0.0 0. 0.4 0.6 0.8 1.0 3 1 0 1 3 Rysunek : Wykresy gęstości φ rozkładu normalnego (z lewej strony N(0, 1 i dystrybuanty rozkładu normalnego Φ (z prawej strony Własności funkcji Φ Można pokazać, że Φ(0 = 0,5 oraz Φ(t = 1 Φ( t dla dowolnego t; stąd można się ograniczyć do tablicowania funkcji Φ dla t 0. Obliczanie prawdopodobieństw w przypadku rozkładu normalnego N(µ, Można pokazać, że jeśli X N(µ,, to X µ N(0, 1. Stąd dla a < b prawdopodobieństwo P (a < X < b, X N(µ, jest równe: ( a µ P (a < X < b = P < X µ < b µ = Φ ( b µ Φ ( a µ. Obliczanie prawdopodobieństw w przypadku rozkładu normalnego przykład Niech X oznacza wzrost dorosłych mężczyzn w panstwie A; zakładamy, że X N(177, 10. Chcemy obliczyć: (a P (174 < X < 18, (b P (X > 18. Obliczenia dla (a: ( 18 177 ( 174 177 P (174 < X < 18 = Φ Φ 10 10 = Φ(0,5 Φ( 0,3 = Φ(0,5 (1 Φ(0,3 = = Φ(0,5 + Φ(0,3 1 0,6915 + 0,6179 1 = 0,3094. Obliczenia dla (b można przeprowadzić w analogiczny sposób, korzytając z równości: ( 18 175 P (X > 18 = 1 P (X < 18 = 1 Φ = 1 Φ(0,5. 10 Inne rozkłady ciagłe Dowolna funkcja g spełniająca warunki: dziedziną funkcji g jest zbiór liczb rzeczywistych R; g(x 0 dla x R; g(x = 1. jest funkcją gęstością pewnej zmiennej losowej; Poza rozkładem normalnym i rozkładem jednostajnym U(0, 1 do opisu cech w życiu gospodarczym i naukach przyrodniczych stosuje się wiele innych rozkładów prawdopodobieństwa. Gęstość emiryczna przykład Dane normtemp zebrane w celu weryfikacji hipotezy mówiącej, że średnia wartość temperatury zdrowego człowieka jest równa 98,6 stopni w skali Fahrenheita (37,0 stopni w skali Celsjusza. Dane nt. temperatury i tętna (temperaturastopnie Fahrenheita Można je pobrać z odpowiedniego repozytorium a następnie zapisać do zbioru o nazwie np. t (tzw. data frame. Zbiór t składa się z trzech zmiennych: temperature, gender i hr. Aby uczynić naszą prezentację bardziej czytelną, zmieniamy nazwy zmiennych na odpowiednio: temp, plec i tetno. Odpowiednie polecenia systemu R są zapisane w pliku t.r. Wydruk tego pliku zamieszczamy poniżej (na następnym slajdzie: 3
Pobieranie zbioru danych z repozytorium systemu R library(utils install.packages(c("xlsreadwrite","usingr", repo="http://cran.r-project.org" library(xlsreadwrite library(usingr t<-normtemp names(t<-c("temp","plec","tetno" write.xls(t, c:/t.xls # zbior t zapisany # do pliku t.xls System (pakiet R można pobrać pod adresem http://r.meteo.uni.wroc.pl/bin/windows/base/ Pobieranie zbioru danych z repozytorium systemu R > names(t [1] "temp" "plec" "tetno" > t[1:10,] temp plec tetno 1 96.3 1 70 96.7 1 71 3 96.9 1 74 4 97.0 1 80 5 97.1 1 73 6 97.1 1 75 7 97.1 1 8 8 97. 1 64 9 97.3 1 69 10 97.4 1 70 > sort(t$temp [1] 96.3 96.4 96.7 96.7 96.8 96.9 97.0 97.1 [9] 97.1 97.1 97. 97. 97. 97.3 97.4 97.4... [19] 100.0 100.8 Szereg rozdzielczy Dla zbioru danych liczbowych {y 1, y..., y N } niech: MIN1 oznacza liczbę mniejszą od najmniejszej z liczb {y 1, y..., y N } MAX1 oznacza liczbę większą lub równą od największej z liczb {y 1, y..., y N } MIN1 i MAX1 mogą być odpowiednimi zaokrągleniami wartości, odpowiednio, minimalnej i maksymalnej naszego zbioru danych MIN1 < MAX1. Podzielmy odcinek (MIN1, MAX1] na k przedziałów (zwanych klasami o równej długości: (x 0, x 1 ], (x 1, x ],..., (x k 1, x k ], gdzie x 0 = MIN1, x k = MAX1. Funkcję przyporządkowującą poszczególnym przedziałom liczbę elementów naszego zbioru danych do nich należących będziemy nazywać szeregiem rozdzielczym. Liczbę klas k w szeregu rozdzielczym wyznaczamy korzystając z wzorów: k log n + 1 lub k 3 n 4. Szereg rozdzielczy: dane NT Przyjmujemy: MIN1 = 96, MAX1 = 101, k = 10 3 130 4. Zakładając, że dane dotyczące temperatury zdrowych ludzi znajdują się w zmiennej t$temp konstruujemy szereg rozdzielczy w środowisku R: > table(cut(t$temp, breaks = c(96,96.5,97,97.5,98, + 98.5,99,99.5,100,100.5,101 (96,96.5] (96.5,97] (97,97.5] (97.5,98] 5 14 30 4
(98,98.5] (98.5,99] (99,99.5] (99.5,100] 30 35 11 (100,100.5] (100.5,101] 0 1 Histogram: dane NT Wykres słupkowy odpowiadający szeregowi rozdzielczemu-histogram liczebności Histogram of t$temp Frequency 0 5 10 15 0 5 30 35 96 97 98 99 100 101 t$temp Rysunek 3: Histogram dla danych NT odpowiadający szeregowi rozdzielczemu z poprzedniego slajdu Histogram probabilistyczny i gęstość empiryczna - dane NT Histogram probabilistyczny: histogram tak wyskalowany, aby "pole pod nim było równe 1": wyskości słupków: 130 0,5, 5 130 0,5,...; histogram probabilistyczny przez niektórych definiowany jako funkcja przedziałami ciągła (stała, której wykres "pokrywa się" ze zdefiniowanym wyżej wykresem słupkowym; inna nazwa tak określonej funkcji: gęstość empiryczna. Histogram of t$temp Density 0.0 0.1 0. 0.3 0.4 0.5 96 97 98 99 100 101 t$temp Rysunek 4: Gęstość empiryczna dla danych NT Gęstość empiryczna + krzywa normalna Gęstość empiryczna funkcja przedziałami ciagła Frakcja obserwacji należących do (96; 97]; 97 96 h(x =. 130 0,5 5 130 0,5 1 130 0,5, dla x (96; 96,5], dla x (96,5, 97], dla x (100,5; 101] h(xdx = 1 ( 130 0,5 + 5 130 0,5 = 7 130 0,054 5
0.0 0.1 0. 0.3 0.4 0.5 96 97 98 99 100 101 temperatura Rysunek 5: Gęstość empiryczna dla danych NT z dołączonym wykresem gęstości normalnej z parametrami µ = 98,5 i = 0,733. Konstrukcja histogramu probabilistycznego (gęstości empirycznej przypadek ogólny W ogólnym przypadku wysokość k-tego słupka histogramu probabilistycznego (wartość funkcji dla argumentów należących do k-tej klasy jest równa n k nd, gdzie n k jest liczebnością k-tej klasy, d jest długością klasy, n jest liczbą obserwacji. Funkcja h histogram probabilistyczny (gęstość empiryczna zdefiniowana wzorem: h(x = { nk nd, Dziedziną funkcji h jest zbiór liczb rzeczywistych R. x należy do k-tej klasy, 0, x nie należy do żadnej z klas. Lektura uzupełniajaca T. Bednarski, Elementy matematyki w naukach ekonomicznych. Oficyna ekonomiczna. Kraków 004, str. 34 44. Koronacki, J., Mielniczuk, J. Statystyka dla studentów kierunków technicznych i przyrodniczych. WNT. Warszawa 001, s. 111 118. 6