Zadanie Statystyczna Analiza Danych - Zadania 6 Aleksander Adamowski (s869) W pewnym biurze czas losowo wybranej rozmowy telefonicznej jest zmienn ą losow ą T o rozkładzie wykładniczym o średniej 5 minut. Oblicz prawdopodobieństwo, że czas trwania rozmowy osoby telefonującej będzie (a) dłuższy ni ż minut =5 = 5 P T = F = e,2 =e 2,35 > exp(-2) [].353353 > pexp(, rate=.2, lower.tail=false) [].353353 (b) dłuższy ni ż 5 minut i krótszy ni ż 5 minut. P 5 T 5 =F 5 F 5 = e,2 5 e,2 5 =e e 3,38 > exp(-)-exp(-3) [].38924 > pexp(5, rate=.2)-pexp(5, rate=.2) [].38924 Odp. Prawdopodobieństwo, że czas trwania rozmowy osoby telefonującej -2 będzie dłuższy ni ż minut wynosi e. Prawdopodobieństwo, że czas trwania rozmowy osoby telefonującej będzie -2 dłuższy ni ż minut wynosi e. Zadanie 2. Dla danych z zadania oblicz prawdopodobieństwo, że losowo wybrana osoba będzie prowadziła rozmow ę telefoniczn ą dłuższ ą niż minut pod warunkiem, że rozmawia ju ż co najmniej 5 minut. Niech A oznacza zdarzenie polegające na rozmowie dłuższej ni ż 5 minut; B oznacza zdarzenie polegające na rozmowie dłuższej ni ż minut. P B A = P B A = P A P {T 5 } {T } P T = P T 5 P T 5 = e 2 e = e e = 2 e
> exp(-) [].3678794 > pexp(, rate=.2, lower.tail=false) / pexp(5, rate=.2, lower.tail=false) [].3678794 Zadanie 3 Czas rozwiązania zadania z programowania przez losowo wybranego uczestnika konkursu jest zmienn ą losow ą X o gęstości (a) Oblicz stał ą C. 45 f x dx= f x dx= 45 Cx dx=c x dx=c x2 2 45 =C 452 2 =C 225 2 C= 2 225 (b) Oblicz prawdopodobieństwo, że uczestnik konkursu będzie rozwiązywał zadanie krócej ni ż 3 minut. 3 2 x 32 P X 3 = dx= 225 225,44 (c) Oblicz prawdopodobieństwo, że uczestnik konkursu będzie rozwiązywał zadanie krócej ni ż 3 minut i dłużej ni ż 2 minut. 2 2 x 22 P X 2 = dx= 225 225,2, zatem P 2 X 3 = 32 225 22 225,247 (d) Oblicz prawdopodobieństwo, że uczestnik konkursu będzie rozwiązywał zadanie krócej ni ż 3 minut pod warunkiem, że rozwiązuje zadanie ju ż co najmniej 5 minut.
3 2 3 2 P {X 3 } {X 5 } P X 3 P X 3 X 5 = = P X 5 P X 5 = 225 225 = 52 225 5 2 225 225 P X 3 X 5 = 32 45 2 5 = 22 5 2 2 3 2 5 2 5 = 22 5 2 2 3 2 5 2 5 = 22 2 3 2 = 4 9 =,5 (e) Oblicz wartości dystrybuanty: F(3), F(4). F 3 =P X 3 = 32 225,44 F 4 =P X 4 = 42 225,79 Zadanie 4 W zadaniu 3, oblicz średni czas rozwiązania zadania przez uczestnika konkursu? X = 45 x f x dx= Zadanie 5 45 x 2 x 225 dx= 2 x 2 225 dx=2 453 3 45 45 =2 =2 5 =3 2 3 W zadaniu 3, jaki procent uczestników konkursu rozwiąże zadanie w czasie krótszym ni ż 2 minut? 2 2 x 22 P X 2 = dx= 225 225,2 Odp. około 2% uczestników konkursu rozwiąże zadanie w czasie krótszym niż 2 minut. Zadanie 6 Czas dojazdu do pracy ( w minutach ) Pana Kowalskiego w losowo wybranym dniu jest zmienn ą losow ą T o rozkładzie jednostajnym na przedziale [3, 6]. Oblicz prawdopodobieństwo, że w pewnym dniu Pan Kowalski będzie w drodze do pracy (a) co najmniej 4 minut, f x dx= 6 3 = 3 4 P X 4 = 3 Sprawdzenie w języku R: dla x [3, 6] 3 dx= 4 3 3 3 = 3 =2 3
> punif(4, min=3, max=6, lower.tail=false) [].6666667 (b) co najwyżej 5 minut i co najmniej 4 minut, 5 P 4 X 5 = 4 3 dx= 5 3 4 3 = 3 > punif(5, min=3, max=6) - punif(4, min=3, max=6) [].3333333 (c) co najwyżej 5 minut pod warunkiem, że podróżuje ju ż co najmniej 3 minut. P X 5 X 3 = dzielenia przez! P {X 5 } {X 3 } P X 3 5 P X 5 = P X 3 = 3 3 3 3 dx 3 dx = 5 3 3 dx :Błąd Zadanie 7 6 a W zadaniu 6, oblicz (a) w jakim zakresie czasu znajduje si ę 5% najdłużej trwających dojazdów do pracy Pana Kowalskiego, 3 dx=,5 6 3 a 3 =,5 6 a = 5 3 3 a=6 5 =45 > qunif(.5, min=3, max=6) [] 45 Odp. 5% najdłużej trwających dojazdów do pracy Pana Kowalskiego znajduje si ę w zakresie 45-6 minut. (b) w jakim zakresie czasu znajduje si ę 25% najdłużej trwających dojazdów do pracy Pana Kowalskiego,
6 a 3 dx=,25 6 3 a 3 = 4 6 a = 7,5 3 3 a=6 7,5 =52,5 > qunif(.75, min=3, max=6) [] 52.5 > qunif(.25, min=3, max=6, lower.tail=false) [] 52.5 Odp. 25% najdłużej trwających dojazdów do pracy Pana Kowalskiego znajduje si ę w zakresie między 52 minuty 3 sekund a 6 minut. (d) średni czas dojazdu do pracy Pana Kowalskiego. X = 3 6 =45 2 Odp. średni czas dojazdu do pracy Pana Kowalskiego wynosi 45 minut. Zadanie 8 Z bada ń wagi uczestników masowych maratonów wynika, że jest ona zmienn ą losow ą o rozkładzie normalnym o wartości średniej 6 kg i wariancji 9 kg2. Oblicz prawdopodobieństwo, że losowo wybrany uczestnik maratonu waży (a) mniej ni ż 55 kg, Zamiast standaryzowania gęstości i sprawdzania wyniku w tablicach obliczę przy użyciu języka R, co da większ ą dokładność. Najpierw obliczam odchylenie standardowe (którego jako argument wymagają zamiast wariancji funkcje języka R): 9=3 > sqrt(9) [] 3 > pnorm(55, mean=6, sd=3) [].477935 (b) co najmniej 55 kg i co najwyżej 65 kg. > pnorm(65, mean=6, sd=3) - pnorm(55, mean=6, sd=3) [].94493 Jaki procent uczestników maratonu ma wag ę przekraczając ą 66 kg?
> pnorm(66, mean=6, sd=3, lower.tail=false) [].22753 Jak ą wag ę przekracza 7 % najwięcej ważących uczestników maratonu? > qnorm(.7, mean=6, sd=3) [] 6.5732 Zadanie 9 Długość trasy przejechanej taksówk ą w losowo wybranym dniu przez Pana Janka jest zmienn ą losow ą o rozkładzie normalnym ze średnią 5 km i standardowym odchyleniu 2 km. (a) Oblicz prawdopodobieństwo, że w ciągu dnia Pan Janek przejedzie więcej ni ż 25 km. > pnorm(25, mean=5, sd=2, lower.tail=false) [].894352 (b) Jaki jest procent dni, w których Pan Janek przejeżdża mniej niż km. > pnorm(, mean=5, sd=2) [].629665 Odp. Pan Janek przejeżdża mniej ni ż km w około,62% dni. Zadanie Zużycie paliwa na km pewnego modelu samochodu jest zmienną losow ą o rozkładzie normalnym N(6,,4). Oblicz prawdopodobieństwo, że na trasie km samochód zużyje więcej ni ż 5,5 litra i mniej ni ż 6 litrów paliwa. > pnorm(6, mean=6, sd=.4) - pnorm(5.5, mean=6, sd=.4) [].394352 Zadanie Zmienna losowa X ma dystrybuant ę określon ą wzorem F(x) = gdy (a) Jaka jest wartość stałej A? Odp. A =.
b) Oblicz P(X = 2), P(X=). Odp. Jeśli potraktować zmienn ą losow ą jako stricte ciągł ą, to z definicji zmiennej losowej ciągłej oba prawdopodobieństwa wynosz ą. Jednak zmienna nie jest ciągła w punkcie X = 2 (co wynika ze specyfikacji dystrybuanty), zatem P(X=2) =,5 =,5 (notka: pierwsze,5 to granica funkcji,5(x-) w punkcie 2). Zadanie 2 Zmienna losowa X ma dystrybuant ę określon ą wzorem F(x) = gdy (a) Jak ą wartość może przyjąć stała A? Odp. A może przyjąć wartości pomiędzy,5 a. (b) Oblicz P(X=2), P(X=3). Analogicznie, jak w poprzednim zadaniu, jeśli zmienn ą potraktujemy jako ciągłą to oba prawdopodobieństwa wynosz ą. Jeśli potraktować zmienn ą jako dyskretn ą, to P(X=2) = A, P(X=3) = A lub (co trudno wywnioskować, bo dystrybuanta nie została określona dla tego punktu). Zadanie 3 Zmienna losowa X ma rozkład normalny o średniej 5 i odchyleniu standardowym 2. Jaki rozkład prawdopodobieństwa ma zmienna losowa Y = 4X + 2. Odp. rozkład normalny o średniej 5+2=7 i odchyleniu standardowym 2*4=8. Zadanie 4 Zmienna losowa X ma rozkład N(3,). Jaki rozkład prawdopodobieństwa ma zmienna losowa Y = X Odp. rozkład N(,). Zadanie 5 Z ostatnich bada ń CBOS - u wynika, że 67% Polaków popiera wejście Polski do Unii Europejskiej. Oblicz prawdopodobieństwo, że wśród trzech losowo wybranych Polaków (a) 2 osoby popieraj ą wejście Polski do UE.
Niech zmienna losowa X oznacza liczb ę odpowiedzi tak w pytaniu o poparcie. Mamy do czynienia z rozkładem dwumianowym zmiennej dyskretnej. P X=2 =b 2 ;3,.67 = 3 2,672,67 3 2 = 3! 2!!,672,33,67 2,449 > dbinom(2, size=3, prob=.67) [].4444 Odp. prawdopodobieństwo, że wśród trzech losowo wybranych Polaków 2 osoby popieraj ą wejście Polski do UE wynosi około 44,4%. (b) nie ma osoby popierającej wejście Polski do UE. P X= =b ;3,.67 = 3,67,67 3 =,33 3,35 > dbinom(, size=3, prob=.67) [].35937 Odp. prawdopodobieństwo, że wśród trzech losowo wybranych Polaków żadna osoba nie popiera wejścia Polski do UE wynosi około 3,59%. (c) 3 osoby popieraj ą wejście Polski do UE. P X=3 =b 3 ;3,.67 = 3 3,673,33 =,67 3,3 > dbinom(3, size=3, prob=.67) [].3763 Odp. prawdopodobieństwo, że wśród trzech losowo wybranych Polaków wszystkie popieraj ą wejście Polski do UE wynosi około 3%. Zadanie 6 W zadaniu 22 załóżmy, że wybrano losowo 4 Polaków. Niech zmienna losowa X oznacza liczb ę osób spośród nich, które popieraj ą wejście Polski do UE. (a) Jaka jest wartość średnia E(X) i wariancja Var(X)?. Odp. Wartość średnia wynosi X =4,67 =268. Wariancja wynosi 2 X =4,67,67 =88,44. (b) Jaki rozkład prawdopodobieństwa ma zmienna losowa X?. Odp. rozkład dwumianowy z 4 doświadczeniami i prawdopodobieństwem sukcesu,67. (c) Ze wzgl du na du liczebno ć próby, mo na przyj ć, e ę żą ś ż ą ż standaryzowana zmienna losowa
ma w przybliżeniu rozkład normalny. Jakie są parametry tego rozkładu?. Odp. (,); Jak dla każdego standardowego rozkładu normalnego... Jeśli natomiast pominąć standaryzowanie zmiennej losowej, to przybliża ją rozkład N(268, 88.44). Oto program w R porównujący rozkład dwumianowy i normalny dający pojęcie o dokładności przybliżenia: png(filename ="zadania6_6_%2d.png", width = 8, height = 6, pointsize = 2, bg = "white") par(mfcol=c(2,)) prawdoptak=.67 liczbaosob=4 zad6binom<-function(x) { return(dbinom(x, size=liczbaosob, prob=prawdoptak)) } zad6norm<-function(x) { return(dnorm(x, mean=liczbaosob*prawdoptak, sd=sqrt(liczbaosob*prawdoptak*(- prawdoptak)))) } wykresod<-22 wykresdo<-32 plot(zad6binom, wykresod, wykresdo, main="rozklad dwumianowy dla zadania 6") plot(zad6norm, wykresod, wykresdo, main="rozklad normalny (przyblizajacy rzeczywiste dane) dla zadania 6") dev.off() I jego wynik:
(d) Oblicz przybliżone prawdopodobieństwo, że wśród wylosowanych osób nie więcej ni ż 3 osób popiera wejście Polski do UE. W oparciu o rozkład normalny, w języku R: > pnorm(3, mean=4*.67, sd=sqrt(4*.67*(-.67))) [].9996664 W oparciu o rozkład dwumianowy, w języku R: > pbinom(3, size=4, prob=.67) [].999796