Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Podobne dokumenty
Generowanie ciągów pseudolosowych o zadanych rozkładach wstęp do projektu

Spacery losowe generowanie realizacji procesu losowego

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

1 Podstawy rachunku prawdopodobieństwa

Jeśli wszystkie wartości, jakie może przyjmować zmienna można wypisać w postaci ciągu {x 1, x 2,...}, to mówimy, że jest to zmienna dyskretna.

Rozkłady i ich dystrybuanty 16 marca F X (t) = P (X < t) 0, gdy t 0, F X (t) = 1, gdy t > c, 0, gdy t x 1, 1, gdy t > x 2,

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Statystyka opisowa- cd.

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Prawdopodobieństwo i statystyka

Statystyka matematyczna i ekonometria

Rozdział 1. Zmienne losowe, ich rozkłady i charakterystyki. 1.1 Definicja zmiennej losowej

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Przykład 1 W przypadku jednokrotnego rzutu kostką przestrzeń zdarzeń elementarnych

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Estymacja parametrów w modelu normalnym

Środowisko R wprowadzenie c.d. Wykład R2; Struktury danych w R c.d.

Biostatystyka, # 3 /Weterynaria I/

Zadanie Tworzenie próbki z rozkładu logarytmiczno normalnego LN(5, 2) Plot Probability Distributions

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Komputerowa analiza danych doświadczalnych

Statystyka i eksploracja danych

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

RACHUNEK PRAWDOPODOBIEŃSTWA WYKŁAD 3.

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Przedmiot statystyki. Graficzne przedstawienie danych.

KURS PRAWDOPODOBIEŃSTWO

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

Zmienne losowe. Statystyka w 3

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

Testowanie hipotez statystycznych.

Ważne rozkłady i twierdzenia

Komputerowa Analiza Danych Doświadczalnych

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Podstawowe pojęcia. Własności próby. Cechy statystyczne dzielimy na

Prawdopodobieństwo i statystyka

Prawdopodobieństwo i statystyka

Zmienne losowe ciągłe i ich rozkłady

Statystyka w przykładach

Wykład 2 Zmienne losowe i ich rozkłady

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Próba własności i parametry

Modelowanie komputerowe

Zmienne losowe. dr Mariusz Grzadziel. rok akademicki 2016/2017 semestr letni. Katedra Matematyki, Uniwersytet Przyrodniczy we Wrocławiu

6.4 Podstawowe metody statystyczne

Statystyka Matematyczna Anna Janicka

Zmienne losowe ciągłe i ich rozkłady

Definicja 7.4 (Dystrybuanta zmiennej losowej). Dystrybuantą F zmiennej losowej X nazywamy funkcję: Własności dystrybuanty zmiennej losowej:

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Statystyka matematyczna dla leśników

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

Ważne rozkłady i twierdzenia c.d.

Monte Carlo, bootstrap, jacknife

Spis treści 3 SPIS TREŚCI

Sieci Mobilne i Bezprzewodowe laboratorium 2 Modelowanie zdarzeń dyskretnych

Wykład 7 Testowanie zgodności z rozkładem normalnym

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Wykład 5: Statystyki opisowe (część 2)

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Zmienne losowe i ich rozkłady. Momenty zmiennych losowych. Wrocław, 10 października 2014

Testy zgodności. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 11

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Komputerowa analiza danych doświadczalnych

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Zadania ze statystyki, cz.6

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Wykład 10: Elementy statystyki

Prawa wielkich liczb, centralne twierdzenia graniczne

Wykład 3 Momenty zmiennych losowych.

Kolokwium ze statystyki matematycznej

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Wykład 3 Momenty zmiennych losowych.

Laboratorium 3 - statystyka opisowa

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Prawdopodobieństwo i statystyka

Rozkłady statystyk z próby

Statystyczne metody analizy danych

Rozkłady prawdopodobieństwa zmiennych losowych

Wykład 13. Zmienne losowe typu ciągłego

Wykłady 14 i 15. Zmienne losowe typu ciągłego

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść I

Jednowymiarowa zmienna losowa

Rozkłady zmiennych losowych

STATYSTYKA

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

WYKŁADY Z RACHUNKU PRAWDOPODOBIEŃSTWA I wykład 4 Przekształcenia zmiennej losowej, momenty

Wykład 3. Opis struktury zbiorowości. 1. Parametry opisu rozkładu badanej cechy. 3. Średnia arytmetyczna. 4. Dominanta. 5. Kwantyle.

Zmienne losowe. dr Mariusz Grządziel Wykład 12; 20 maja 2014

6. Zmienne losowe typu ciagłego ( ) Pole trapezu krzywoliniowego

Transkrypt:

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport Michał Krzemiński Streszczenie Projekt dotyczy metod generowania oraz badania własności statystycznych ciągów liczb pseudolosowych. Słowa kluczowe: generatory liczb losowych, liczby pseudolosowe, Marsenne-Twister, rozkład prawdopodobieństwa, statystyki opisowe, metoda odwrotnej dystrybuanty 1. Generatory liczby pseudolosowych Szczególnie potrzebne, w zagadnieniach związanych z modelowaniem stochastycznym złożonych zjawisk rzeczywistych (np. metody Monte Carlo), są narzędzia pozwalające symulować losowość. Stąd w wielu programach czy pakietach statystycznych dostępne są funkcje generujące liczby pseudolosowe takie liczby, które mają podobne własności jak liczby losowe (liczbą losową nazwalibyśmy pewną realizację zmiennej losowej, X : (Ω, F) (R, B R ), X(ω)). Wszystkie generatory programowe (będziemy mówić po prostu generatory) to deterministyczne funkcje. Do określenia kolejnych liczb wykorzystują tzw. ziarno (ang. seed), które jednoznacznie określa wartości kolejnych liczb pseudolosowych wyznaczonych jako kolejne iteracje ustalonego algorytmu. W R mamy do dyspozycji kilka zaimplementowanych już generatorów. Polecenie R> RNGkind() [1] "Mersenne-Twister" "Inversion" pozwala na sprawdzenie i zmianę aktualnie używanego generatora. Domyślnie stosowany jest algorytm Mersenne Twister (o okresie 2 19937 1). W wyniku otrzymujemy wartości z przedziału (0, 1) o własnościach liczb z rozkładu jednostajnego U(0, 1). Nie ma potrzeby stosowania różnych algorytmów do różnych rozkładów, bo te można otrzymać stosując np. metodę odwrotnej dystrybuanty (por. rozdział ). Wyjątkiem jest tu rozkład normalny, dla którego możemy określić, z jakiej metody chcemy korzystać (domyślnie stosowana jest metoda odwrotnej dystrybuanty "Inversion"). e-mail: mickrzem@pg.edu.pl 1

1.1. runif() Polecenie runif() służy wywołaniu generatora rozkładu jednostajnego (random unif orm distribution) R> runif(5) [1] 0.2920036 0.2648172 0.8588310 0.3138031 0.6643540 Dla ustalonego generatora i ziarna otrzymamy za każdym razem identyczne wartości liczb pseudolosowych (stosujemy przecież tę samą funkcję deterministyczną z tą samą wartością początkową). Dla generatora Mersenne-Twister ziarno jest wektorem 625 liczb całkowitych. W prosty sposób możemy reprodukować kolejne losowania liczb pseudolosowych wskazując na to samo ziarno: R> set.seed(564) R> runif(5) [1] 0.6774393 0.3742534 0.2191412 0.4306322 0.2370166 R> set.seed(564) R> runif(5) [1] 0.6774393 0.3742534 0.2191412 0.4306322 0.2370166 Warto w tym miejscu wskazać na cały zbiór funkcji R do obsługi większości popularnych rozkładów prawdopodobieństwa. R> runif(1) [1] 0.01660708 R> punif(0.25) [1] 0.25 R> dunif(0.5) [1] 1 R> qunif(0.25) [1] 0.25 Kolejne polecenia składają się z dwóch części przedrostka r-, p-, d-, q- oraz nazwy rodziny rozkładów (w tym przypadku unif orm). r- (random) wskazuje na generator liczb pseudolosowych z zadanego rozkładu, generuje próbę prostą o liczebności n; p- (probability) wyznacza wartość dystrybuanty w punkcie ; d- (density) wyznacza wartość gęstości (dla rozkładów ciągłych) lub masy prawdopodobieństwa (dla rozkładów dyskretnych) w punkcie ; q- (quantile) wyznacza wartość kwantyli danego rozkładu w punkcie. 2. Próbka W projekcie będziemy porównywać własności statystyczne ciągów liczb pseudolosowych z rozkładami (teoretycznymi) prawdopodobieństw. Dla zadanych rozkładów generujemy wektor liczb pseudolosowych wielkości N. Wektor ten modeluje N-elementową próbkę losową prostą, tzn. modeluje realizację N niezależnych zmiennych losowych o zadanym rozkładzie. 2

2.1. Statystyki opisowe Niech 1, 2,..., N będzie N-elementową próbką. Rozstępem w próbce nazywamy różnicę R = ma min, gdzie ma, min oznaczają maksimum i minimum wartości w próbce. Dla większych N wartości próbki grupujemy w klasy, najczęściej równej długości, by ułatwić jej analizę. Liczbę wartości próbki zawartych w i-tej klasie nazywamy liczebnością i-tej klasy i oznaczamy n i. W wyniku takiego grupowania otrzymujemy szereg rozdzielczy ( i, n i ) i=1,2,...,k, gdzie dla każdej klasy i = 1, 2,..., k wyznaczamy środek klasy i i liczebność klasy n i. Sposób w jaki liczebności są rozłożone w poszczególnych klasach nazywamy rozkładem liczebności próbki przy danej liczbie klas. Graficzne przedstawienie szeregu rozdzielczego nazywamy histogramem (por. rys. 1). Zamiast liczebności kolejnych klas można odkładać na osi pionowej częstości ( frekwencje ) n i /N lub też unormowane częstości (n i /N) / (R/k), w taki sposób, by pole histogramu miało wartość 1. W tym ostatnim przypadku histogram będzie wyrażał próbkowe przybliżenie gęstości rozkładu teoretycznego. Przykład 2.1. Dla próbki N = 20-elementowej tworzymy k = 6 klas (3, 3.5], (3.5, 4],..., (5.5, 6], o końcach w punktach 3, 3.5,..., 6: R> =c(3.6, 5.0, 4.0, 4.7, 5.2, 5.2, 5.9, 4.5, 5.3, 5.5, + 3.9, 5.6, 3.5, 5.4, 5.2, 4.1, 5.0, 3.1, 5.8, 4.8) R> breaks=c(3,3.5,4,4.5,5,5.5,6) R> cut(,breaks) [1] (3.5,4] (4.5,5] (3.5,4] (4.5,5] (5,5.5] (5,5.5] (5.5,6] [8] (4,4.5] (5,5.5] (5,5.5] (3.5,4] (5.5,6] (3,3.5] (5,5.5] [15] (5,5.5] (4,4.5] (4.5,5] (3,3.5] (5.5,6] (4.5,5] 6 Levels: (3,3.5] (3.5,4] (4,4.5] (4.5,5]... (5.5,6] R> table(cut(,breaks)) (3,3.5] (3.5,4] (4,4.5] (4.5,5] (5,5.5] (5.5,6] 2 3 2 4 6 3 R> table(cut(,breaks))/length() (3,3.5] (3.5,4] (4,4.5] (4.5,5] (5,5.5] (5.5,6] 0.10 0.15 0.10 0.20 0.30 0.15 Następnie zliczamy liczebności i częstości wartości próbki w poszczególnych klasach otrzymując szereg rozdzielczy: n klasa przedział i n i n i /N i /N (6 3)/6 1 (3,3.5] 3.25 2 0.10 0.2 2 (3.5,4] 3.75 3 0.15 0.3 3 (4,4.5] 4.25 2 0.10 0.2 4 (4.5,5] 4.75 4 0.20 0.4 5 (5,5.5] 5.25 6 0.30 0.6 6 (5.5,6] 5.75 3 0.15 0.3 suma 20 1 pole 1 3

par(mar=c(4.1,4.3,2.1,1.1)) par(mfrow=c(1,2)) hist(,breaks,col= gray ) hist(,breaks,prob=true,col= gray ) Histogram of Histogram of Frequency 0 1 2 3 4 5 6 Density 0.0 0.1 0.2 0.3 0.4 0.5 0.6 3.0 3.5 4.0 4.5 5.0 5.5 6.0 3.0 3.5 4.0 4.5 5.0 5.5 6.0 Rys. 1. Histogramy próbki : lewy panel (domyślnie oznaczony Frequency) przedstawia liczebności próbki w poszczególnych klasach; prawy panel (oznaczony Density) wyraża gęstość, tj. wartości są unormowane i pole pod wykresem wynosi 1. Innymi charakterystykami próbki 1, 2,..., N są m.in. następujące statystyki opisowe: średnia arytmetyczna = 1 N N i ; i=1 mediana medianą nazywamy środkową liczbę w uporządkowanej niemalejąco próbce, tzn. (1) (2)... (N), ((N+1)/2), gdy N nieparzyste, m e = ( ) (N/2) + (N/2+1) /2, gdy N parzyste; kwartyle w uporządkowanej niemalejąco próbce dzielimy wartości na dwie grupy: wartości mniejsze od mediany i medianę, oraz medianę i wartości większe od mediany. Kwartylem dolnym Q 1 próbki nazywamy medianę pierwszej grupy wartości, a kwartylem górnym Q 3 medianę drugiej grupy wartości. wariancja z próby var = 1 N 1 N ( i ) 2. i=1 4

Przykład 2.2 (cd.). Dla próbki, N = 20-elementowej R> =c(3.6, 5.0, 4.0, 4.7, 5.2, 5.2, 5.9, 4.5, 5.3, 5.5, + 3.9, 5.6, 3.5, 5.4, 5.2, 4.1, 5.0, 3.1, 5.8, 4.8) R> mean() # średnia [1] 4.765 R> sort() [1] 3.1 3.5 3.6 3.9 4.0 4.1 4.5 4.7 4.8 5.0 5.0 5.2 5.2 5.2 [15] 5.3 5.4 5.5 5.6 5.8 5.9 R> sum(sort()[c(10,11)])/2 [1] 5 R> median() # mediana [1] 5 R> var() # wariancja [1] 0.6602895 R> sum((-mean())^2)/19 [1] 0.6602895 R> sd() # odchylenie standardowe [1] 0.812582 Analizując rozkład wartości próbki możemy posłużyć się również dystrybuantą empiryczną (doświadczalną). Dystrybuantę empiryczną N-elementowej próbki, F N, wyznacza się na podstawie uporządkowanej próbki (por. rys. 2): (1) (2)... (N), 0 dla < (1), k F N () = dla n (k) < (k+1), 1 k N 1, 1 dla (N). Przykład 2.3 (cd.). Dla próbki, N = 20-elementowej R> plot(ecdf(), main=,ylab=epression(paste(f[n], () )), + at= n,yat= n,lwd=2, + lab=paste(sort(),,,sep=,collapse= )) R> abline(v = knots(ecdf()), lty = 2, col = "gray70") R> ais(1,knots(ecdf()),ce.ais=0.8) R> abline(h=(0:20)/20,lty=2,col= gray ) R> ais(2,(0:20)/20,ce.ais=0.8,las=2) W przypadku dyskretnych zmiennych losowych (które przyjmują wartości w zbiorze {0, 1, 2,...}, niekoniecznie skończonym) nie należy budować szeregów rozdzielczych czy histogramów w dotychczas opisany sposób. W takiej sytuacji badamy rozkład próbki poprzez określenie liczebności poszczególnych wartości w próbie. Każdej wartości przyporządkowujemy liczność bądź częstość jej występowania w próbie konstruując szereg liczności / szereg częstości (i, n i ) i=0,1,..., ( i, n ) i. N i=0,1,... 5

F N () 1.00 0.95 0.90 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.50 0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00 3.1 3.5 3.6 3.9 4.0 4.1 4.5 4.7 4.8 5.0 5.2 5.3 5.4 5.5 5.6 5.8 5.9 3.1, 3.5, 3.6, 3.9, 4, 4.1, 4.5, 4.7, 4.8, 5, 5, 5.2, 5.2, 5.2, 5.3, 5.4, 5.5, 5.6, 5.8, 5.9, Rys. 2. Wykres dystrybuanty empirycznej próbki, N = 20-elementowej Graficznym przedstawieniem powyższych szeregów jest wykres liczności / częstości (por. rys. 3). Przykład 2.4. Dla próbki, N = 20-elementowej R> =c(2,2,1,2,2,3,0,1,0,2, + 2,0,0,2,2,1,1,1,1,2) R> table() 0 1 2 3 4 6 9 1 R> table()/length() 0 1 2 3 0.20 0.30 0.45 0.05 par(mfrow=c(1,2)) R> plot(table(),ylab= liczność ) R> plot(table()/length(),ylab= częstość ) 6

licznosc 0 2 4 6 8 czestosc 0.0 0.1 0.2 0.3 0.4 0 1 2 3 0 1 2 3 Rys. 3. Wykres liczności (lewy panel) i częstości (prawy panel) wartości próbki, N = 20-elementowej 7

3. Metoda odwrotnej dystrybuanty Oznaczmy przez F : (, ) [0, 1] ciągłą i ściśle rosnącą dystrybuantę pewnego rozkładu. Dla tak określonej funkcji istnieje funkcja odwrotna F 1 : [0, 1] [, ]. Metoda generowania rozkładów korzystając z rozkładu jednostajnego opiera się na poniższym twierdzeniu: Twierdzenie 3.1. Niech U będzie zmienną losową o rozkładzie jednostajnym na (0,1) (U U(0, 1)), a F będzie ściśle rosnącą ciągłą dystrybuantą pewnego rozkładu prawdopodobieństwa. Zmienna losowa X := F 1 (U) ma rozkład prawdopodobieństwa o dystrybuancie F. Dowód. Jeżeli U U(0, 1), to dystrybuanta zmiennej losowej U dana jest wzorem F U () = P (U ) =, dla [0, 1]. Zatem F X () = P (X ) = P (F 1 (U) ) = P (U F ()) = F U (F ()) = F (). Powyższe twierdzenie możemy rozszerzyć na dowolne dystrybuanty rozkładów prawdopodobieństwa. W tym celu definiujemy dystrybuantę odwrotną jako F 1 : [0, 1] [, ] F 1 (u) = inf{ R; F () u}, u [0, 1]. Zauważmy, że w powyższej definicji dystrybuanta odwrotna nie musi być w ogóle funkcją odwrotną, ani nawet funkcją. 3.1. Algorytm metody odwrotnej dystrybuanty Aby wygenerować wartość z rozkładu o dystrybuancie F mając do dyspozycji generator rozkładu jednostajnego: (1) wygeneruj u U(0, 1), (2) = F 1 (u). 8

F() f() F() f() Rys. 4. Biorąc jednostajnie rozłożone wartości wzdłuż osi y na odcinku (0, 1) widzimy, że tam, gdzie funkcja dystrybuanty F () jest względnie stroma, otrzymamy większe zagęszczenie punktów wzdłuż osi otrzymując większą wartość funkcji gęstości f(). Z drugiej strony, tam gdzie F () ma małą pochodną otrzymamy mniejsze zagęszczenie punktów (i mniejszą wartość funkcji gęstości f()). 9