Identyfikacja i modelowanie struktur i procesów biologicznych

Podobne dokumenty
Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Weryfikacja hipotez statystycznych

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Ważne rozkłady i twierdzenia

Sieci Mobilne i Bezprzewodowe laboratorium 2 Modelowanie zdarzeń dyskretnych

Prawdopodobieństwo i statystyka

Instytut Fizyki Politechniki Łódzkiej Laboratorium Metod Analizy Danych Doświadczalnych Ćwiczenie 3 Generator liczb losowych o rozkładzie Rayleigha.

Wykład 14. Testowanie hipotez statystycznych - test zgodności chi-kwadrat. Generowanie liczb losowych.

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

Niezawodność diagnostyka systemów laboratorium. Ćwiczenie 2

Statystyka matematyczna dla leśników

Ważne rozkłady i twierdzenia c.d.

Statystyka. Wydział Zarządzania Uniwersytetu Łódzkiego

Zestaw 2: Zmienne losowe. 0, x < 1, 2, 2 x, 1 1 x, 1 x, F 9 (x) =

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Modelowanie komputerowe

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Wynik pomiaru jako zmienna losowa

Zadania ze statystyki, cz.6

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Zawartość. Zawartość

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Spis treści 3 SPIS TREŚCI

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Algorytmy zrandomizowane

Metody numeryczne. Wykład nr 12. Dr Piotr Fronczak

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA

Sterowanie wielkością zamówienia w Excelu - cz. 3

166 Wstęp do statystyki matematycznej

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Rozkład Gaussa i test χ2

Informatyka I stopień (I stopień / II stopień) ogólno akademicki (ogólno akademicki / praktyczny) podstawowy (podstawowy / kierunkowy / inny HES)

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

Testowanie hipotez statystycznych.

Zmienne losowe ciągłe i ich rozkłady

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Układy stochastyczne

PDF created with FinePrint pdffactory Pro trial version

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

Podstawy symulacji komputerowej

Metody Rozmyte i Algorytmy Ewolucyjne

Zmienne losowe ciągłe i ich rozkłady

Estymacja przedziałowa. Przedział ufności

Wydział Matematyki. Testy zgodności. Wykład 03

Zwiększenie wartości zmiennej losowej o wartość stałą: Y=X+a EY=EX+a D 2 Y=D 2 X

Kwantyle. Kwantyl rzędu p rozkładu prawdopodobieństwa to taka liczba x p. , że. Możemy go obliczyć z dystrybuanty: P(X x p.

WSTĘP. Tematy: Regresja liniowa: model regresji liniowej, estymacja nieznanych parametrów. Wykład:30godz., ćwiczenia:15godz., laboratorium:30godz.

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Statystyka w przykładach

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

WYMAGANIA WSTĘPNE W ZAKRESIE WIEDZY, UMIEJĘTNOŚCI I INNYCH KOMPETENCJI

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

WYDZIAŁ BUDOWNICTWA LĄDOWEGO I WODNEGO

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

Biostatystyka, # 3 /Weterynaria I/

Wykład 7 Testowanie zgodności z rozkładem normalnym

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Testowanie hipotez statystycznych.

Wprowadzenie do analizy korelacji i regresji

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Rozkłady statystyk z próby

Generatory takie mają niestety okres, po którym sekwencja liczb powtarza się.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Ćwiczenia 3 ROZKŁAD ZMIENNEJ LOSOWEJ JEDNOWYMIAROWEJ

Testowanie hipotez statystycznych.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Statystyka matematyczna i ekonometria

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Rachunek Prawdopodobieństwa Anna Janicka

Estymacja parametrów w modelu normalnym

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Z poprzedniego wykładu

Zadania ze statystyki cz.8. Zadanie 1.

Zadanie 1. Analiza Analiza rozkładu

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Testowanie hipotez statystycznych

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Statystyka matematyczna

6. Zmienne losowe typu ciagłego ( ) Pole trapezu krzywoliniowego

ANALIZA STATYSTYCZNA WYNIKÓW BADAŃ

Analiza niepewności pomiarów

Transkrypt:

Identyfikacja i modelowanie struktur i procesów biologicznych Laboratorium 3: Generatory liczb losowych. Rozkłady statystyczne mgr inż. Urszula Smyczyńska AGH Akademia Górniczo-Hutnicza 1. Cel zajęć Celem ćwiczenia jest zapoznanie z metodami generowania ciągów losowych (pseudolosowych) liczb przy użyciu komputera, sposobami oceny jakości wygenerowanych sekwencji oraz podstawowymi rozkładami statystycznymi. 2. Wstęp 2.1. Ciągi liczb pseudolosowych Generowanie i badanie ciągów losowych odgrywa w statystyce i modelowaniu istotną rolę. Komputerowe symulacje różnych procesów oraz obliczenia numeryczne często wymagają wykorzystania losowych sekwencji liczb. Korzystamy z nich np. do automatycznego generowania haseł, modelowania szumu czy inicjalizacji algorytmów uczenia maszynowego, takich jak sieci neuronowe. Zwykle oczekuje się przy tym, że taki ciąg liczb będzie miał z góry zadane parametry statystyczne średnią, odchylenie standardowe, zakres czy konkretny rozkład (np. równomierny, normalny), co oczywiście można sprawdzić po uzyskaniu tych liczb. Pozostaje pytanie: jak komputer urządzenie deterministyczne może wygenerować losowy ciąg? Jeśli za kryterium losowości przyjmiemy brak zrozumiałej przyczyny (czy algorytmu) powstania takiego ciągu to odpowiedź brzmi: nie może. Mimo tego sytuacja nie jest całkowicie beznadziejna, ponieważ możliwe jest komputerowe generowanie ciągów tzw. liczb pseudolosowych, czyli takich, które sprawiają wrażenie losowych, w tym sensie, że brak w nich porządku i bez znajomości algorytmu nie będziemy w stanie przewidzieć kolejnych wyników. Niewątpliwą zaletą takich generatorów programowych jest łatwość ich użycia i możliwość produkowania nawet długich ciągów liczb bez ponoszenia poważnych kosztów. Alternatywa generatory sprzętowe, działające w oparciu o zjawiska prawdziwie losowe, np. rozpad promieniotwórczy są zdecydowanie trudniejsze w użyciu, a ich stosowanie wymaga zdecydowanie większych nakładów finansowych. Zdarza się też, że pożądane właściwości statystyczne ciągów liczb łatwiej uzyskać w generatorze programowym, który w przeciwieństwie do sprzętowego nie zmienia właściwości z czasem. 1

2.2. Rozkład statystyczny Statystyczne właściwości zmiennej losowej często opisujemy za pomocą jej rozkładu prawdopodobieństwa, czyli funkcji opisującej prawdopodobieństwo wystąpienia poszczególnych wartości. Taka funkcja gęstości prawdopodobieństwa P(x) musi spełniać następujący warunek: P( x)=1, co oznacza, że suma prawdopodobieństw wszystkich zdarzeń (wartości) wynosi 1. Korzystając z powyższej właściwości często wprowadza się dystrybuantę funkcji gęstości prawdopodobieństwa, jako funkcję: z F(z)= P( x)dx, która każdej wartości z przypisuje łączne prawdopodobieństwo wystąpienia w ciągu wszystkich wartości nie większych od z. Ponieważ F(z) wyraża prawdopodobieństwo jej zakres wartości wynosi zawsze [0, 1], niezależnie od tego jaki opisuje rozkład. 2.3. Najpopularniejsze rozkłady statystyczne Do najczęściej stosowanych rozkładów statystycznych należą: Nazwa Funkcja gęstości prawdopodobieństwa Dystrybuanta 1 dla x [a,b] b a P(x)={ 0 dla x [a,b] 0 dla x (,a) x a dla x [a, b) b a F(x)={ 1 dla x [b, ) Rozkład równomierny (jednorodny, jednostajny, płaski) 2

P(x)= 1 σ (2π ) exp ( (x μ)2 2σ 2 ) Analitycznie nie da się dokładnie wyznaczyć. Rozkład normalny (Gaussa) Rozkład chi kwadrat ( Χ 2 ) Rozkład Studenta (t, t-studenta) P(x)={ λ e λ x x 0 0 x<0 F(x)={ 1 e λ x x 0 0 x<0 Rozkład wykładniczy 3

Oznaczenia: a, b dowolnie wybrane liczby, takie, że b>a μ średnia σ odchylenie standardowe k liczba stopni swobody 3. Generatory liczb losowych 3.1. Generator liniowy Liniowy generator liczby losowych ma następującą ogólną postać, określającą wartość n+1 wygenerowanej liczby: X n +1 =(a 1 X n +a 2 X n 1 +...+a k X n k+1 +c) mod m Jak widać generator korzysta z k liczb, będących dotychczasowym rezultatem jego pracy lub na początku z k liczb podanych jako inicjalizujące jego działanie, pomnożonych przez odpowiednie współczynniki. Operacja modulo (mod), czyli obliczanie reszty z dzielenia przez m, zapewnia efekt pseudolosowości. Generator tego typu daje na wyjściu liczby całkowite, mniejsze od m (reszta z dzielenia przez m może wynosić co najwyżej m-1), przy czym ich rozkład jest równomierny. Jeśli chcemy taki wynik przekształcić na generator liczb z zakresu (0,1) należy uzyskane wartości podzielić przez m. W praktyce najczęściej wykorzystuje się generatory, które w powyższym obliczeniu uwzględniają tylko jedną poprzedzającą próbkę, co daje: Albo przy pominięciu stałej c: X n +1 =(a X n +c) mod m X n+1 =(a X n ) mod m W obu powyższych przypadkach do zainicjalizowania generatora potrzeba tylko 1 liczby. Łatwo również zauważyć, że przy danym X n wartość X n+1 jest zdeterminowana jednoznacznie, stąd gdy jakaś wartość pojawi się w sekwencji po raz drugi, automatycznie powtarza się cały ciąg. Zatem generator jest okresowy, choć okres może być tak długi, że będzie to trudne do zaobserwowania. Przykładowe wartości parametrów generatora: 1. a=2 16 +3 i m=2 31 generator RANDU 2. a=4 23 7 +1 i m=2 31 generator RNB 3. a=7 5 i m=2 31 1 4

3.2. Przekształcanie rozkładu równomiernego na inny Czasem potrzeba, aby wygenerowane losowe liczby miały rozkład inny niż równomierny, np. normalny. Najczęściej osiąga się to przez odpowiednie przekształcenie wyników uzyskanych z generatora o rozkładzie równomiernym, co można wykonać na wiele sposobów. A. Odwracanie dystrybuanty Odwracanie dystrybuanty jest metodą pozwalającą przekształcić rozkład równomierny na inny, przy czym najlepiej taki, którego dystrybuanta jest opisana stosunkowo nieskomplikowanym równaniem funkcji y(x). W celu odwrócenia dystrybuanty potrzebna jest zależność odwrotna, czyli funkcja x(y), uzyskana z przekształcenia równania dystrybuanty. Będzie ona jednoznaczna oczywiście tylko wtedy, gdy dystrybuanta jest rosnąca (zwykle tak jest, czasem zdarzają się odcinki funkcji stałej; malejąca być nie może, co wynika z definicji). Aby otrzymać ciąg liczb o rozkładzie opisanym dystrybuantą y, wystarczy wygenerować ciąg z rozkładu równomiernego i przekształcić go zgodnie z zależnością x(y), podstawiając kolejne elementy w miejsce y. Na rysunku poniżej koncepcja odwracania dystrybuanty została przedstawiona graficznie, na przykładzie rozkładu wykładniczego. Jak widać punkty, które były rozłożone równomiernie na osi Y, po przekształceniu na oś X mają już inny rozkład. B. Metoda eliminacji Metoda eliminacji jest bardziej uniwersalna i dla wielu rozkładów prostsza w implementacji niż odwracanie dystrybuanty. W ogólnym przypadku, aby przekształcić rozkład równomierny U(x) na szukany rozkład gęstości prawdopodobieństwa f(x) potrzebujemy w pierwszej kolejności funkcji g(x) takiej, że: c g(x) f ( x), dla pewnej wartości stałej c, jesteśmy w stanie wygenerować ciąg liczb losowych o rozkładzie opisanym przez g(x). 5

Chcąc wygenerować ciąg losowy o rozkładzie f(x) postępujemy następująco: 1. Generujemy liczbę u z rozkładu U(x). 2. Generujemy liczbę X z rozkładu g(x). 3. Jeżeli u< f (X ), zapamiętujemy X jako element szukanego ciągu, w przeciwnym c g( X ) przypadku y odrzucamy. 4. Powtarzamy powyższe, aż do uzyskania żądanej długości ciągu. Na rysunku poniżej znajduje się graficzna ilustracja metody dla generowania liczb z rozkładu normalnego (f(x) niebieska krzywa) za g(x) przyjęto funkcje wykładniczą 0.5 e 0.5 x c=1., natomiast 3.3. Testowanie generatora Istnieje bardzo dużo testów, a nawet standardów testowania, generatorów liczb losowych. Część z nich jest uniwersalna i nadaje się do badania jakości niemal dowolnych generatorów, inne są przydatne tylko w niektórych sytuacjach. Najczęściej chcemy sprawdzić przynajmniej, czy nasz generator rzeczywiście charakteryzuje się zadanymi parametrami statystycznymi, takimi jak średnia, zakres czy odchylenie standardowe oraz czy otrzymaliśmy żądany rozkład wartości ciągu. Drugą istotną sprawą może być stwierdzenie braku (lub obecności) powiązań między kolejnymi wyprodukowanymi przez generator liczbami. 6

A. Badanie parametrów statystycznych Gdy interesują nas cechy statystyczne generatora, najprostszą możliwością ich sprawdzenia jest po prostu wygenerowanie odpowiednio długiego ciągu, obliczenie żądanych wielkości i porównanie ich z wartościami oczekiwanymi. Jeśli chcemy mieć większą pewność, co do wiarygodności wyniku, właściwym rozwiązaniem są testy statystyczne. Istnieje oczywiście bardzo wiele testów stosowanych w różnych okolicznościach. Tutaj najbardziej będą nas interesowały testy dla wartości średniej i odchylenia standardowego próby, przy czym niektórych z nich możemy użyć dla prób o dowolnym rozkładzie, innych tylko w konkretnych przypadkach. W odniesieniu do wartości średniej najpowszechniejszy jest test t-studenta, dzięki któremu możemy zweryfikować hipotezę, że średnia liczb produkowanych przez generator jest równa założonej wartości M. Odchylenie standardowe (lub wariancję) również możemy zbadać odpowiednim testem, z tym, że najczęściej wykonujemy to w odniesieniu do rozkładu normalnego. B. Badanie rozkładu Często bardziej interesujące niż testy odnoszące się do średniej lub odchylenia standardowego są te, które umożliwiają sprawdzenie zgodności rozkładu wartości z naszymi oczekiwaniami. Najbardziej uniwersalnym narzędziem jest w tym przypadku test Χ 2 (chi-kwadrat), który można wykorzystać do oceny zgodności uzyskanego rozkładu próbek z dowolnym rozkładem przewidywanym. Istnieją także inne testy, odpowiednie dla poszczególnych rozkładów prawdopodobieństwa, np. test Shapiro-Wilka dla rozkładu normalnego, stosowany zwłaszcza przy stosunkowo niewielkich próbach czy test Kołmogorowa-Smirnova, wykorzystywany najczęściej również dla rozkładu normalnego. C. Badanie zależności między kolejnymi próbkami W przypadku generatorów losowych istotne jest, aby nie istniało oczywiste statystyczne powiązanie między kolejnymi próbkami, czyli aby były one nieskorelowane. Wstępnie można zbadać to na wykresie zależności dwóch kolejnych próbek, prezentującym funkcję X n ( X n 1 ). Pozwala to zaobserwować pewne wzorce w ciągu oraz zobaczyć na ile równomiernie punkty wypełniają płaszczyznę. Podobnie można postąpić korzystając z sekwencji 3 kolejnych próbek, tworząc wykres trójwymiarowy X n ( X n 1, X n 2 ). Ponadto zależności między próbkami bardziej odległymi można wykryć stosując funkcję autokorelacji, którą w przypadku sygnałów dyskretnych definiujemy następująco: R xx (r)= 1 N r x(i) x(i+r) N r i=1 gdzie: x sygnał, tu: ciąg losowy N długość sygnału (jako ilość próbek) r przesunięcie czasowe (również jako ilość próbek) 7

Wartość takiej funkcji będzie najwyższa przy zerowym przesunięciu czasowym (każdy sygnał jest skorelowany ze swoją kopią). W przypadku ciągu losowego dla kolejnych przesunięć powinna być zdecydowanie mniejsza. 4. Liczby losowe w Matlab'ie 4.1. Generowanie wbudowanymi funkcjami rand generator liczby z rozkładu równomiernego randn generator liczb z rozkładu normalnego ze średnią 0 i odchyleniem standardowym 1 rng funkcja pozwalająca kontrolować parametry powyższych generatorów 4.2. Podstawowe statystyki dla liczb z generatora mean średnia std odchylenie standardowe ttest funkcja realizująca różne warianty testu t-studenta do badania hipotez dotyczących wartości średniej. Najczęściej używana dla populacji o rozkładzie normalnym, ale przydaje się również w innych sytuacjach, o ile badana próba jest duża. vartest test wartości odchylenia standardowego dla rozkładu normalnego 4.3. Badanie rozkładu liczb z generatora hist generowanie histogramu badanego ciągu liczb chi2gof test Χ 2 oceniający zgodność badanego rozkładu z rozkładem teoretycznym. Domyślnie, przy podaniu tylko ciągu badanego, oceniana jest jego zgodność z rozkładem normalnym. 4.4. Badanie powiązań między próbkami xcorr funkcja służąca do obliczania autokorelacji w przypadku podania tylko 1 argumentu (sygnału) lub korelacji wzajemnej w przypadku podania 2 argumentów (sygnałów). plot(x,y) wykres dwuymiarowy scatter3(x,y,z) wykres trójwymiarowy zaznaczenie punktów o współrzędnych opisanych wektorami X, Y, Z. 8

4.5. Funkcje dla popularnych rozkładów Rozkład normalny: normpdf, normfit, normrnd Rozkład wykładniczy: exppdf, expfit, exprnd Rozkład jednorodny: unifpdf, uniffit, unifrnd Rozkład lognormalny: lognpdf, lognfit, lognrnd 5. Literatura: [1] Wieczorkowski R., Zieliński R. Komputerowe generatory liczb losowych, WNT Wydawnictwa Naukowo-Techniczne, Warszawa 1997 [2] Cook J.D. Testing a Random Number Generator, W: Beautiful Testing, red. Riley T., Goucher A., O'Reilly, 2010 [3] Gentle J. Computational Statistics, Springer, 2009. (Generowania liczb losowych dotyczy rozdział 7: Generation of Random Numbers ) [4] Robert C.P., Casella G. Introducing Monte Carlo Methods with R, Springer, 2010 (O generatorach losowych rozdział 2: Random Variable Generation, z przykładami w języku programowania R) [5] Müller-Clostermann B., Jonischkat T. Random Numbers How Can We Create Randomness in Computers?, W: Algorithms Unplugged, red. Vöcking B., Alt H., Dietzfelbinger M., Reischuk R., Scheideler C., Vollmer H., Wagner D., Springer, 2011 [6] Gentle G. Random Number Generation and Monte Carlo Methods, Springer, 2005 9