Generowanie ciągów pseudolosowych o zadanych rozkładach wstęp do projektu

Podobne dokumenty
Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Rozkłady i ich dystrybuanty 16 marca F X (t) = P (X < t) 0, gdy t 0, F X (t) = 1, gdy t > c, 0, gdy t x 1, 1, gdy t > x 2,

Biostatystyka, # 3 /Weterynaria I/

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Prawdopodobieństwo i statystyka

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

Spacery losowe generowanie realizacji procesu losowego

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

II WYKŁAD STATYSTYKA. 12/03/2014 B8 sala 0.10B Godz. 15:15

III. ZMIENNE LOSOWE JEDNOWYMIAROWE

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Sieci Mobilne i Bezprzewodowe laboratorium 2 Modelowanie zdarzeń dyskretnych

Wykład z analizy danych: powtórzenie zagadnień z rachunku prawdopodobieństwa

6.4 Podstawowe metody statystyczne

Komputerowa analiza danych doświadczalnych

Ważne rozkłady i twierdzenia

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Rozdział 1. Zmienne losowe, ich rozkłady i charakterystyki. 1.1 Definicja zmiennej losowej

Statystyka opisowa- cd.

Środowisko R wprowadzenie c.d. Wykład R2; Struktury danych w R c.d.

Jednowymiarowa zmienna losowa

1 Podstawy rachunku prawdopodobieństwa

Estymacja parametrów w modelu normalnym

Statystyka i eksploracja danych

Rozkłady prawdopodobieństwa zmiennych losowych

Prawa wielkich liczb, centralne twierdzenia graniczne

Zmienne losowe ciągłe i ich rozkłady

Rachunek prawdopodobieństwa Rozdział 4. Zmienne losowe

Zadanie Tworzenie próbki z rozkładu logarytmiczno normalnego LN(5, 2) Plot Probability Distributions

Statystyka matematyczna dla leśników

RACHUNEK PRAWDOPODOBIEŃSTWA WYKŁAD 3.

Temat: Zmienna losowa. Rozkład skokowy. Rozkład ciągły. Kody kolorów: Ŝółty nowe pojęcie pomarańczowy uwaga. Anna Rajfura, Matematyka

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

Metody probabilistyczne

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Matematyka z el. statystyki, # 3 /Geodezja i kartografia II/

Statystyka matematyczna i ekonometria

Przestrzeń probabilistyczna

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Wykład 3 Jednowymiarowe zmienne losowe

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 2 i 3 Zmienna losowa

Wykład 2 Zmienne losowe i ich rozkłady

WYKŁAD 2. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Wybrane rozkłady zmiennych losowych. Statystyka

Zmienna losowa. Rozkład skokowy

Elementy Rachunek prawdopodobieństwa

METODY BADAŃ NA ZWIERZĘTACH ze STATYSTYKĄ wykład 3-4. Parametry i wybrane rozkłady zmiennych losowych

Zmienne losowe ciągłe i ich rozkłady

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Prawdopodobieństwo i statystyka

Przykłady do zadania 3.1 :

Prawdopodobieństwo i statystyka

Rozkłady statystyk z próby

1.1 Wstęp Literatura... 1

Statystyka matematyczna

Wybrane rozkłady zmiennych losowych. Statystyka

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Prawdopodobieństwo i statystyka

Spis treści 3 SPIS TREŚCI

PODSTAWOWE ROZKŁADY ZMIENNYCH LOSOWYCH

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść I

Przykłady do zadania 8.1 : 0 dla x 1, c x 4/3 dla x > 1. (b) Czy można dobrać stałą c tak, aby funkcja f(x) = była gęstością pewnego

Komputerowa Analiza Danych Doświadczalnych

Monte Carlo, bootstrap, jacknife

Zmienne losowe. dr Mariusz Grzadziel. rok akademicki 2016/2017 semestr letni. Katedra Matematyki, Uniwersytet Przyrodniczy we Wrocławiu

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Komputerowa analiza danych doświadczalnych

Definicja 7.4 (Dystrybuanta zmiennej losowej). Dystrybuantą F zmiennej losowej X nazywamy funkcję: Własności dystrybuanty zmiennej losowej:

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Statystyka. Magdalena Jakubek. kwiecień 2017

Przykłady 6.1 : charakterystyki liczbowe rozkładów dyskretnych

KURS PRAWDOPODOBIEŃSTWO

4,5. Dyskretne zmienne losowe (17.03; 31.03)

Rozkłady prawdopodobieństwa

Zmienne losowe. Powtórzenie. Dariusz Uciński. Wykład 1. Instytut Sterowania i Systemów Informatycznych Universytet Zielonogórski

Zmienne losowe. Statystyka w 3

Metoda Monte Carlo i jej zastosowania

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Modelowanie komputerowe

Testowanie hipotez statystycznych.

Dyskretne zmienne losowe

Zadania ze statystyki, cz.6

Wykład 7 Testowanie zgodności z rozkładem normalnym

Zestaw 2: Zmienne losowe. 0, x < 1, 2, 2 x, 1 1 x, 1 x, F 9 (x) =

Dokładne i graniczne rozkłady statystyk z próby

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Transkrypt:

Generowanie ciągów pseudolosowych o zadanych rozkładach wstęp do projektu Michał Krzemiński Streszczenie Projekt dotyczy metod generowania oraz badania własności statystycznych ciągów liczb pseudolosowych. Słowa kluczowe: generatory liczb losowych, liczby pseudolosowe, Marsenne-Twister, rozkład prawdopodobieństwa, statystyki opisowe, metoda odwrotnej dystrybuanty 1. Generatory liczby pseudolosowych Szczególnie potrzebne, w zagadnieniach związanych z modelowaniem stochastycznym złożonych zjawisk rzeczywistych (np. metody Monte Carlo), są narzędzia pozwalające symulować losowość. Stąd w wielu programach czy pakietach statystycznych dostępne są funkcje generujące liczby pseudolosowe takie liczby, które mają podobne własności jak liczby losowe (liczbą losową nazwalibyśmy pewną realizację zmiennej losowej, X : (Ω, F) (R, B R ), X(ω)). Wszystkie generatory programowe (będziemy mówić po prostu generatory) to deterministyczne funkcje. Do określenia kolejnych liczb wykorzystują tzw. ziarno (ang. seed), które jednoznacznie określa wartości kolejnych liczb pseudolosowych wyznaczonych jako kolejne iteracje ustalonego algorytmu. W R mamy do dyspozycji kilka zaimplementowanych już generatorów. Polecenie R> RNGkind() [1] "Mersenne-Twister" "Inversion" pozwala na sprawdzenie i zmianę aktualnie używanego generatora. Domyślnie stosowany jest algorytm Mersenne Twister (o okresie 19937 1). W wyniku otrzymujemy wartości z przedziału (0, 1) o własnościach liczb z rozkładu jednostajnego U(0, 1). Nie ma potrzeby stosowania różnych algorytmów do różnych rozkładów, bo te można otrzymać stosując np. metodę odwrotnej dystrybuanty (por. rozdział 3). Wyjątkiem jest tu rozkład normalny, dla którego możemy określić, z jakiej metody chcemy korzystać (domyślnie stosowana jest metoda odwrotnej dystrybuanty "Inversion"). e-mail: mickrzem@pg.edu.pl 1

1.1. runif() Polecenie runif() służy wywołaniu generatora rozkładu jednostajnego (random unif orm distribution) R> runif(5) [1] 0.90036 0.64817 0.8588310 0.3138031 0.6643540 Dla ustalonego generatora i ziarna otrzymamy za każdym razem identyczne wartości liczb pseudolosowych (stosujemy przecież tę samą funkcję deterministyczną z tą samą wartością początkową). Dla generatora Mersenne-Twister ziarno jest wektorem 65 liczb całkowitych. W prosty sposób możemy reprodukować kolejne losowania liczb pseudolosowych wskazując na to samo ziarno: R> set.seed(564) R> runif(5) [1] 0.6774393 0.374534 0.19141 0.43063 0.370166 R> set.seed(564) R> runif(5) [1] 0.6774393 0.374534 0.19141 0.43063 0.370166 Warto w tym miejscu wskazać na cały zbiór funkcji R do obsługi większości popularnych rozkładów prawdopodobieństwa. R> runif(1) [1] 0.01660708 R> punif(0.5) [1] 0.5 R> dunif(0.5) [1] 1 R> qunif(0.5) [1] 0.5 Kolejne polecenia składają się z dwóch części przedrostka r-, p-, d-, q- oraz nazwy rodziny rozkładów (w tym przypadku unif orm). r- (random) wskazuje na generator liczb pseudolosowych z zadanego rozkładu, generuje próbę prostą o liczebności n; p- (probability) wyznacza wartość dystrybuanty w punkcie ; d- (density) wyznacza wartość gęstości (dla rozkładów ciągłych) lub masy prawdopodobieństwa (dla rozkładów dyskretnych) w punkcie ; q- (quantile) wyznacza wartość kwantyli danego rozkładu w punkcie.. Próbka W projekcie będziemy porównywać własności statystyczne ciągów liczb pseudolosowych z rozkładami (teoretycznymi) prawdopodobieństw. Dla zadanych rozkładów generujemy wektor liczb pseudolosowych wielkości N. Wektor ten modeluje N-elementową próbkę losową prostą, tzn. modeluje realizację N niezależnych zmiennych losowych o zadanym rozkładzie.

.1. Statystyki opisowe Niech 1,,..., N będzie N-elementową próbką. Rozstępem w próbce nazywamy różnicę R = ma min, gdzie ma, min oznaczają maksimum i minimum wartości w próbce. Dla większych N wartości próbki grupujemy w klasy, najczęściej równej długości, by ułatwić jej analizę. Liczbę wartości próbki zawartych w i-tej klasie nazywamy liczebnością i-tej klasy i oznaczamy n i. W wyniku takiego grupowania otrzymujemy szereg rozdzielczy ( i, n i ) i=1,,...,k, gdzie dla każdej klasy i = 1,,..., k wyznaczamy środek klasy i i liczebność klasy n i. Sposób w jaki liczebności są rozłożone w poszczególnych klasach nazywamy rozkładem liczebności próbki przy danej liczbie klas. Graficzne przedstawienie szeregu rozdzielczego nazywamy histogramem (por. rys. 1). Zamiast liczebności kolejnych klas można odkładać na osi pionowej częstości ( frekwencje ) n i /N lub też unormowane częstości (n i /N) / (R/k), w taki sposób, by pole histogramu miało wartość 1. W tym ostatnim przypadku histogram będzie wyrażał próbkowe przybliżenie gęstości rozkładu teoretycznego. Przykład.1. Dla próbki N = 0-elementowej tworzymy k = 6 klas (3, 3.5], (3.5, 4],..., (5.5, 6], o końcach w punktach 3, 3.5,..., 6: R> =c(3.6, 5.0, 4.0, 4.7, 5., 5., 5.9, 4.5, 5.3, 5.5, + 3.9, 5.6, 3.5, 5.4, 5., 4.1, 5.0, 3.1, 5.8, 4.8) R> breaks=c(3,3.5,4,4.5,5,5.5,6) R> cut(,breaks) [1] (3.5,4] (4.5,5] (3.5,4] (4.5,5] (5,5.5] (5,5.5] (5.5,6] [8] (4,4.5] (5,5.5] (5,5.5] (3.5,4] (5.5,6] (3,3.5] (5,5.5] [15] (5,5.5] (4,4.5] (4.5,5] (3,3.5] (5.5,6] (4.5,5] 6 Levels: (3,3.5] (3.5,4] (4,4.5] (4.5,5]... (5.5,6] R> table(cut(,breaks)) (3,3.5] (3.5,4] (4,4.5] (4.5,5] (5,5.5] (5.5,6] 3 4 6 3 R> table(cut(,breaks))/length() (3,3.5] (3.5,4] (4,4.5] (4.5,5] (5,5.5] (5.5,6] 0.10 0.15 0.10 0.0 0.30 0.15 Następnie zliczamy liczebności i częstości wartości próbki w poszczególnych klasach otrzymując szereg rozdzielczy: n klasa przedział i n i n i /N i /N (6 3)/6 1 (3,3.5] 3.5 0.10 0. (3.5,4] 3.75 3 0.15 0.3 3 (4,4.5] 4.5 0.10 0. 4 (4.5,5] 4.75 4 0.0 0.4 5 (5,5.5] 5.5 6 0.30 0.6 6 (5.5,6] 5.75 3 0.15 0.3 suma 0 1 pole 1 3

par(mar=c(4.1,4.3,.1,1.1)) par(mfrow=c(1,)) hist(,breaks,col= gray ) hist(,breaks,prob=true,col= gray ) Histogram of Histogram of Frequency 0 1 3 4 5 6 Density 0.0 0.1 0. 0.3 0.4 0.5 0.6 3.0 3.5 4.0 4.5 5.0 5.5 6.0 3.0 3.5 4.0 4.5 5.0 5.5 6.0 Rys. 1. Histogramy próbki : lewy panel (domyślnie oznaczony Frequency) przedstawia liczebności próbki w poszczególnych klasach; prawy panel (oznaczony Density) wyraża gęstość, tj. wartości są unormowane i pole pod wykresem wynosi 1. Innymi charakterystykami próbki 1,,..., N są m.in. następujące statystyki opisowe: średnia arytmetyczna = 1 N N i ; i=1 mediana medianą nazywamy środkową liczbę w uporządkowanej niemalejąco próbce, tzn. (1) ()... (N), ((N+1)/), gdy N nieparzyste, m e = ( ) (N/) + (N/+1) /, gdy N parzyste; kwartyle w uporządkowanej niemalejąco próbce dzielimy wartości na dwie grupy: wartości mniejsze od mediany i medianę, oraz medianę i wartości większe od mediany. Kwartylem dolnym Q 1 próbki nazywamy medianę pierwszej grupy wartości, a kwartylem górnym Q 3 medianę drugiej grupy wartości. wariancja z próby var = 1 N 1 N ( i ). i=1 4

Przykład. (cd.). Dla próbki, N = 0-elementowej R> =c(3.6, 5.0, 4.0, 4.7, 5., 5., 5.9, 4.5, 5.3, 5.5, + 3.9, 5.6, 3.5, 5.4, 5., 4.1, 5.0, 3.1, 5.8, 4.8) R> mean() # średnia [1] 4.765 R> sort() [1] 3.1 3.5 3.6 3.9 4.0 4.1 4.5 4.7 4.8 5.0 5.0 5. 5. 5. [15] 5.3 5.4 5.5 5.6 5.8 5.9 R> sum(sort()[c(10,11)])/ [1] 5 R> median() # mediana [1] 5 R> var() # wariancja [1] 0.660895 R> sum((-mean())^)/19 [1] 0.660895 R> sd() # odchylenie standardowe [1] 0.8158 Analizując rozkład wartości próbki możemy posłużyć się również dystrybuantą empiryczną (doświadczalną). Dystrybuantę empiryczną N-elementowej próbki, F N, wyznacza się na podstawie uporządkowanej próbki (por. rys. ): (1) ()... (N), 0 dla < (1), k F N () = dla n (k) < (k+1), 1 k N 1, 1 dla (N). Przykład.3 (cd.). Dla próbki, N = 0-elementowej R> plot(ecdf(), main=,ylab=epression(paste(f[n], () )), + at= n,yat= n,lwd=, + lab=paste(sort(),,,sep=,collapse= )) R> abline(v = knots(ecdf()), lty =, col = "gray70") R> ais(1,knots(ecdf()),ce.ais=0.8) R> abline(h=(0:0)/0,lty=,col= gray ) R> ais(,(0:0)/0,ce.ais=0.8,las=) W przypadku dyskretnych zmiennych losowych (które przyjmują wartości w zbiorze {0, 1,,...}, niekoniecznie skończonym) nie należy budować szeregów rozdzielczych czy histogramów w dotychczas opisany sposób. W takiej sytuacji badamy rozkład próbki poprzez określenie liczebności poszczególnych wartości w próbie. Każdej wartości przyporządkowujemy liczność bądź częstość jej występowania w próbie konstruując szereg liczności / szereg częstości ( (i, n i ) i=0,1,..., / i, n ) i. N i=0,1,... Graficznym przedstawieniem powyższych szeregów jest wykres liczności / częstości (por. rys. 3). 5

F N () 1.00 0.95 0.90 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.50 0.45 0.40 0.35 0.30 0.5 0.0 0.15 0.10 0.05 0.00 3.1 3.5 3.6 3.9 4.0 4.1 4.5 4.7 4.8 5.0 5. 5.3 5.4 5.5 5.6 5.8 5.9 3.1, 3.5, 3.6, 3.9, 4, 4.1, 4.5, 4.7, 4.8, 5, 5, 5., 5., 5., 5.3, 5.4, 5.5, 5.6, 5.8, 5.9, Rys.. Wykres dystrybuanty empirycznej próbki, N = 0-elementowej Przykład.4. Dla próbki, N = 0-elementowej R> =c(,,1,,,3,0,1,0,, +,0,0,,,1,1,1,1,) R> table() 0 1 3 4 6 9 1 R> table()/length() 0 1 3 0.0 0.30 0.45 0.05 par(mfrow=c(1,)) R> plot(table(),ylab= liczność ) R> plot(table()/length(),ylab= częstość ) licznosc 0 4 6 8 czestosc 0.0 0.1 0. 0.3 0.4 0 1 3 0 1 3 Rys. 3. Wykres liczności (lewy panel) i częstości (prawy panel) wartości próbki, N = 0-elementowej 6

3. Metoda odwrotnej dystrybuanty Oznaczmy przez F : (, ) [0, 1] ciągłą i ściśle rosnącą dystrybuantę pewnego rozkładu. Dla tak określonej funkcji istnieje funkcja odwrotna F 1 : [0, 1] [, ]. Metoda generowania rozkładów korzystając z rozkładu jednostajnego opiera się na poniższym twierdzeniu: Twierdzenie 3.1. Niech U będzie zmienną losową o rozkładzie jednostajnym na (0,1) (U U(0, 1)), a F będzie ściśle rosnącą ciągłą dystrybuantą pewnego rozkładu prawdopodobieństwa. Zmienna losowa X := F 1 (U) ma rozkład prawdopodobieństwa o dystrybuancie F. Dowód. Jeżeli U U(0, 1), to dystrybuanta zmiennej losowej U dana jest wzorem F U () = P (U ) =, dla [0, 1]. Zatem F X () = P (X ) = P (F 1 (U) ) = P (U F ()) = F U (F ()) = F (). Powyższe twierdzenie możemy rozszerzyć na dowolne dystrybuanty rozkładów prawdopodobieństwa. W tym celu definiujemy dystrybuantę odwrotną jako F 1 : [0, 1] [, ], F 1 (u) = inf{ R; F () u}, u [0, 1]. Zauważmy, że w powyższej definicji dystrybuanta odwrotna nie musi być w ogóle funkcją odwrotną, ani nawet funkcją. 3.1. Algorytm metody odwrotnej dystrybuanty Aby wygenerować wartość z rozkładu o dystrybuancie F mając do dyspozycji generator rozkładu jednostajnego: (1) wygeneruj u U(0, 1), () = F 1 (u). 7

F() f() F() f() Rys. 4. Biorąc jednostajnie rozłożone wartości wzdłuż osi y na odcinku (0, 1) widzimy, że tam, gdzie funkcja dystrybuanty F () jest względnie stroma, otrzymamy większe zagęszczenie punktów wzdłuż osi otrzymując większą wartość funkcji gęstości f(). Z drugiej strony, tam gdzie F () ma małą pochodną otrzymamy mniejsze zagęszczenie punktów (i mniejszą wartość funkcji gęstości f()). 8

3.. Metoda rozbicia przedziału (0,1) Dany jest dyskretny rozkład prawdopodobieństwa skupiony na skończonym zbiorze. Dla ustalenia uwagi rozważmy skończony zbiór {1,, 3,..., K} N oraz rozkład {p i } i=1,,...,k, gdzie dla każdego i {1,,..., K} p i > 0 oraz K i=1 p i = 1, p i = P({i}). Metoda rozbicia przedziału (0, 1) polega na podzieleniu (rozbiciu) przedziału (0, 1) na rozłączne podprzedziały o długościach p 1, p,..., p K : K 0 < p 1 < p 1 + p <... < p i = 1, i=1 [0, p 1 ), [p 1, p 1 + p ),..., [p 1 + p +... + p K 1, 1], którym przyporządkowujemy odpowiednią wartość zmiennej losowej w naszym przypadku podprzedziałowi o długości p i przyporządkowujemy wartość i, i {1,,..., K}. Generujemy liczbę u z rozkładu jednostajnego U(0, 1) (runif(1)) i za wartość z rozkładu dyskretnego {p i } i=1,,...,k przyjmujemy wartość i odpowiadającą podprzedziałowi, do którego wpadło u. Zauważmy, że wyboru przedziałów możemy dokonać z pewną dowolnością. Przykład 3.1 (rozkład zero jedynkowy / rozkład Bernoulliego). Rozkład zero jedynkowy opisuje próbę Bernoulliego eksperyment, w którym możliwe są dwa rezultaty: sukces (1) albo porażka (0). Parametr rozkładu p (0, 1) opisuje prawdopodobieństwo sukcesu w pojedynczej próbie. Oznacza to, że wartość 0 ma prawdopodobieństwo p 0 = 1 p, a wartość 1 ma prawdopodobieństwo p 1 = p. Zatem przedział (0, 1) dzielimy na dwie części o długościach (1 p) i p odpowiednio, a następnie generujemy wartość u U(0, 1). Sprawdzamy, do jakiego przedziału należy u: np. jeżeli u (0, 1 p) to przypisujemy wynik = 0, jeżeli u [p, 1) to = 1. Oczywiście, ponieważ losujemy wartość u z rozkładu jednostajnego na (0, 1), to prawdopodobieństwo, że wartość ta należy do przedziału o długości p, wynosi p. W tab. 1 przedstawione zostały informacje o rozkładzie zero jedynkowym. Tablica 1: Rozkład zero jedynkowy (1 p)δ 0 + pδ 1 parametry p (0, 1) { 1 p, k = 0, funkcja rozkładu f(k) = p, k = 1, 0, k < 0, dystrybuanta F (k) = 1 p, 0 k < 1, 1, k 1, W poniższym algorytmie stosujemy równoważny sposób podziału odcinka (0, 1) (por. rys. 5). (1) wygeneruj u U(0, 1), () jeżeli u < p to = 1, w przeciwnym razie = 0. 9

0 1 u U(0, 1) 0 p 1 = 1 = 0 P ({1}) = p P ({0}) = 1 p Rys. 5. Schemat algorytmu generowania rozkładu dwupunktowego Zauważmy, że metoda rozbicia przedziału (0, 1) jest metodą odwrotnej dystrybuanty (rozkładu dyskretnego). 3..1. Ważniejsze rozkłady dyskretne Generatory dla ważniejszych dyskretnych rozkładów prawdopodobieństwa można zbudować w oparciu o ich definicje i generator rozkładu zero jedynkowego; i tak np. rozkład dwumianowy B(n, p) to rozkład liczby sukcesów w n doświadczeniach Bernoulliego, gdy prawdopodobieństwo sukcesu w pojedynczej próbie wynosi p; rozkład geometryczny Geom(p) to rozkład czasu oczekiwania na pierwszy sukces w ciągu doświadczeń Bernoulliego o prawdopodobieństwie sukcesu p; rozkład ujemny dwumianowy nbinom(s, p) to rozkład liczby porażek poprzedzających s-ty sukces w ciągu prób Bernoulliego o prawdopodobieństwie sukcesu p; rozkład Pascala P as(s, p) to rozkład liczby prób do osiągnięcia s sukcesów w ciągu prób Bernoulliego o prawdopodobieństwie sukcesu p; rozkład hipergeometryczny hiper(n, N, K) to rozkład liczby wyróżnionych elementów wylosowanych w n kolejnych losowaniach bez zwracania, gdy cała pula N elementów zawiera K elementów wyróżnionych (por. schemat urnowy); rozkład wielomianowy multinom(n, p 1, p,..., p m ) to rozkład wyników przy n-krotnym powtórzeniu doświadczenia o m możliwych rezultatach o prawdopodobieństwach p 1, p,..., p m odpowiednio (p i > 0, m 1 p i = 1). Literatura [1] P. Biecek, Przewodnik po pakiecie R, Oficyna Wydawnicza GiS, Wrocław, 011. [] R. Wieczorkowski, R. Zieliński, Komputerowe generatory liczb losowych, Wydawnictwo Naukowo-Techniczne, 1997. 10

4. Projekt Bieżący rozdział należy potraktować jako wskazówkę do napisania własnego raportu z projektu. Wszystkie obliczenia, które są wykonywane w sposób analityczny należy umieścić w raporcie, te które są wykonywane w sposób numeryczny powinny być opisane algorytmem i kodem z R. Każdy z wykresów powinien być opisany i odpowiedni kod go generujący zamieszczony w odpowiednim miejscu raportu. Cały kod rozwiązania projektu powinien być umieszczony jeszcze raz na końcu raportu. 4.1. Zadanie 1. Metoda odwrotnej dystrybuanty. Metodą odwrotnej dystrybuanty wygenerować ciąg pseudolosowy o rozkładzie zadanym gęstością f() = π ( (π cos 1 )) 1 [0,1] (). W rozwiązaniu wyznaczyć w sposób analityczny dystrybuantę i dystrybuantę odwrotną rozkładu, przedstawić dystrybuantę i dystrybuantę odwrotną na jednym wykresie. podać statystyki opisowe otrzymanych ciągów długości N = 10, 100, 1000 i porównać wyniki z parametrami rozkładu teoretycznego, narysować histogram (wykres częstości) wraz z wykresem gęstości rozkładu (mas prawdopodobieństwa) teoretycznego, narysować dystrybuantę empiryczną wraz z dystrybuantą teoretyczną. Niech F () oznacza dystrybuantę rozkładu cosinus: 0, < 0, π F () = 0 cos(π( 1 ))d, [0, 1), 1, 1. π cos(π( 1 0 ))d = 1 (sin(π( 1 ) )) sin( π ) = 1 (1 + sin(π( 1 ) )) Zatem dystrybuanta na odcinku [0, 1] dana jest wzorem: F () = 1 (1 + sin(π( 1 ) )). Niech u [0, 1], wyznaczamy funkcję odwrotną do F na [0, 1]: u = 1 (1 + sin(π( 1 ) )) u 1 = sin(π( 1 )) arc sin(u 1) = π( 1 )) 1 π arc sin(u 1) + 1 =. 11

Zauważmy, że powyższe równanie, dla u [0, 1], możemy zapisać w postaci równoważnej: 1 π arc sin(u) + 1 =, dla u [ 1, 1]. Na rys. 6 przedstawiono wykres dystrybuanty F () oraz dystrybuanty odwrotnej F 1 (), [0, 1]. F(), F ( 1) () F() F 1 () Rys. 6. Dystrybuanta F () oraz dystrybuanta odwrotna F 1 () rozkładu cosinus, na [0, 1] kod rys. 6 Wartości teoretyczne statystyk rozkładu cosinus: minimum, maimum: supp = [0, 1], średnia: rozkład symetryczny na [0, 1] stąd średnia 1, mediana: rozkład symetryczny na [0, 1] stąd mediana 1, kwartyle: Q 1 jest kwantylem rzędu 1 4, tzn. Q 1 = F 1 ( 1 4 ) = 1 3, Q 3 jest kwantylem rzędu 3 4, tzn. Q 1 = F 1 ( 3 4 ) = 3, 1

wariancja: var = = 1 0 π π ( ) 1 f()d = ( u π + 1 1 ) 1 cos(u)du 1 π 4 = = 1 ( (u ) sin(u) + u cos(u) ) π π ) ) 0 π cos ( π( 1 ) ) d 1 4 π π u π cos(u) + u π cos(u) + 1 8 cos(u)du 1 4 + 1 π (u sin(u) + cos(u)) π π + 1 8 sin(u) π π 1 4 = 1 π ( (π + 1 4 1 4 = π 8 4π 0.0473576, odchylenie std. var 0.17618. Wykorzystując generator rozkładu jednostajnego runif() generujemy ciąg wartości z rozkładu F metodą odwrotnej dystrybuanty, długości N = 10, 100, 1000. kod dla generatora i tab. Porównanie wartości teoretycznych rozkładu oraz statystyk wygenerowanych ciągów przedstawia tab.. Tablica : Wartości statystyk ciągów liczb pseudolosowych o długościach N oraz wartości teoretyczne rozkładu cosinus ciągi pseudolosowe wartości teoretyczne N 10 100 1000 min. 0.686 0.008 0.008 0 ma. 0.9618 0.9701 0.9841 1 średnia 0.5560 0.4813 0.4957 0.5 π wariancja 0.048 0.0491 0.0474 8 0.0473576 4π odchylenie std. 0.195 0.16 0.177 π 8 0.17618 π 1 1 kwartyl 0.3994 0.3055 0.34 3 mediana 0.5639 0.4699 0.4903 0.5 3 kwartyl 0.647 0.6404 0.6637 3 Na rys. 7 przedstawiono histogramy ciągów liczb pseudolosowych o długościach N z naniesioną funkcją gęstości rozkładu cosinus f() = π cos ( π ( 1 )) 1[0,1] (). kod histogramów i rys. 7 Rys. 8 przedstawia dystrybuanty empiryczne ciągów liczb pseudolosowych ( o długościach N z naniesioną teoretyczną dystrybuantą rozkładu cosinus F () = 1 1 + sin(π( 1 ))). 13

gestosc 0.0 0.5 1.0 1.5 gestosc 0.0 0.5 1.0 1.5 gestosc 0.0 0.5 1.0 1.5 N=10 N=100 N=1000 gestosc 0.0 0.5 1.0 1.5.0 gestosc 0.0 0.5 1.0 1.5.0 gestosc 0.0 0.5 1.0 1.5.0 N=10 N=100 N=1000 Rys. 7. Histogramy ciągów pseudolosowych długości N = 10, 100, 1000, dla k = 5, 0 klas, wraz z teoretyczną gęstością rozkładu cosinus N=10 N=100 N=1000 FN() FN() FN() 0. 0.4 0.6 0.8 1.0 Rys. 8. Dystrybuanty empiryczne ciągów pseudolosowych długości N = 10, 100, 1000 wraz z teoretyczną dystrybuantą rozkładu cosinus kod dystrybuant empirycznych i rys. 8 14

4.. Zadanie. Rozkłady dyskretne i ciągłe Korzystając z generatora rozkładu jednostajnego runif() wygenerować ciąg pseudolosowy o rozkładzie dyskretnym (równomiernym na {, 1,..., 7}) zadanym funkcją masy prawdopodobieństwa f(i) = P ({i}) = 1, i {, 1,..., 7}. 10 W rozwiązaniu podać statystyki opisowe otrzymanych ciągów długości N = 10, 100, 1000 i porównać wyniki z parametrami rozkładu teoretycznego, narysować wykres częstości wraz z wykresem (masy prawdopodobieństwa) rozkładu teoretycznego, narysować dystrybuantę empiryczną wraz z dystrybuantą teoretyczną. W zadanym rozkładzie, każda z 10 wartości {, 1, 0, 1,, 3, 4, 5, 6, 7} ma prawdopodobieństwo takie samo, równe 1. Przykładem rozkładu równomiernego są wyniki rzutu kostką 10 n-ścienną (w naszym przypadku 10-ścienną). Charakterystyka rozkładu nośnik {, 1, 0, 1,, 3, 4, 5, 6, 7}, średnia: mediana:.5, min + ma =.5, wariancja: (ma min +1) 1 1 = 99 1 = 8.5 odchylenie std. var.8781, funkcja masy prawdopodobieństwa f(k) = { 1 10, k {, 1,..., 7}, 0, w przeciwnym przypadku, dystrybuanta 0, k <, k+3 F (k) =, k < 7, 10 1, k 7, Algorytm w oparciu o metodę rozbicia przedziału (0, 1). Dla rozkładu równomiernego o 10 1 wartościach dzielimy odcinek [0, 1] na 10 części długości : [0, 0.1), [0.1, 0.),..., [0.9, 1]: 10 (1) wygeneruj u U(0, 1), () jeżeli u [i 0.1, (i + 1) 0.1), to = i (dla i = 1,,..., 10). Oczywiście nie trzeba wykonywać wielokrotnych porównań w (), by określić do jakiego przedziału należy wartość u łatwo sprawdzić, że 15

( ) = + 10 u równoważnie definiuje wartości. kod dla generatora i tab. 3 Porównanie wartości teoretycznych rozkładu oraz statystyk wygenerowanych ciągów przedstawia tab. 3. Tablica 3: Wartości statystyk ciągów liczb pseudolosowych o długościach N oraz wartości teoretyczne rozkładu ciągi pseudolosowe wartości teoretyczne N 10 100 1000 min. - - - ma. 4 7 7 7 średnia 1.6000.4400.4960.5 wariancja 4.9333 8.571 8.3143 8.5 odchylenie std..1.978.8835.873 1 kwartyl -0.5000 0.0000 0.0000 0 mediana.5000.0000.0000.5 3 kwartyl 3.0000 5.0000 5.0000 5 Na rys. 9 przedstawiono wykresy częstości ciągów liczb pseudolosowych o długościach N z naniesioną funkcją rozkładu f(k) = 1 1 10 {, 1,...,7}. Rys. 10 przedstawia dystrybuanty empiryczne ciągów liczb pseudolosowych o długościach N z naniesiona teoretyczna dystrybuanta rozkładu równomiernego na {,..., 7}. R> table(v10) v10 - -1 1 3 4 1 1 1 3 R> table(v100) v100 - -1 0 1 3 4 5 6 7 10 11 10 11 11 8 8 11 9 11 R> table(v1000) v1000 - -1 0 1 3 4 5 6 7 106 89 103 107 101 93 96 11 86 107 kod wykresów częstości, dystrybuant, rys. 9 i rys. 10. 16

czestosc / prawdopodobienstwo 0.00 0.05 0.10 0.15 0.0 0.5 0.30 N=10 czestosc / prawdopodobienstwo 0.00 0.05 0.10 0.15 0.0 0.5 0.30 N=100 czestosc / prawdopodobienstwo 0.00 0.05 0.10 0.15 0.0 0.5 0.30 N=1000 1 0 1 3 4 5 6 7 1 0 1 3 4 5 6 7 1 0 1 3 4 5 6 7 Rys. 9. Wykresy częstości ciągów pseudolosowych długości N = 10, 100, 1000 teoretyczną funkcją rozkładu dystrybuanta empiryczna / teoretyczna N=10 dystrybuanta empiryczna / teoretyczna N=100 dystrybuanta empiryczna / teoretyczna N=1000 1 0 1 3 4 5 6 7 8 1 0 1 3 4 5 6 7 8 1 0 1 3 4 5 6 7 8 Rys. 10. Dystrybuanty empiryczne ciągów pseudolosowych długości N = 10, 100, 1000 wraz z teoretyczną dystrybuantą rozkładu równomiernego 17