Statistika, regresní analýza, náhodné procesy 7.10.2011
1 I. STATISTIKA
Úlohy statistiky 2 1 Sestavit model 2 Odhadnout parametr(y) 1 Bodově 2 Intervalově 3 Testovat hypotézy
Častá rozdělení ve statistice: χ 2 n-rozdělení 3 Necht X 1, X 2..., X n jsou nezávislé stejně rozdělené náhodné veličiny s rozděleními N(0, 1). Pak náhodná veličina Y = má tzv. χ 2 n-rozdělení (čteno chí-kvadrát rozdělení o n stupních volnosti ). n i=1 X 2 i
Častá rozdělení ve statistice: Studentovo t-rozdělení 4 Necht X je náhodná veličina s rozdělením N(0, 1) a Y je náhodná veličina s rozdělením χ 2 n. Pak náhodná veličina Z = X Y n má tzv. t n -rozdělení nazváno také Studentovo t-rozdělení o n stupních volnosti.
Náhodný výběr 5 Definice Náhodnému vektoru X = (X 1, X 2..., X n ) T nezávislých stejně rozdělených náhodných veličin s distribuční funkcí F θ závisející na parametru θ ve statistice říkáme náhodný výběr. Číslu n říkáme rozsah výběru.
Výběrový průměr a výběrový rozptyl 6 Definice Funkce náhodného výběru n X n = 1 n i=1 X i se nazývá výběrový průměr a funkce S 2 n = 1 n 1 n (X i X n ) 2 se nazývá výběrový rozptyl. S n = S 2 n je pak výběrová směrodatná odchylka. i=1
Výběrový průměr a výběrový rozptyl pro normální rozdělení 7 Věta Necht X = (X 1, X 2..., X n ) T je náhodný výběr z rozdělení N(µ, σ 2 ), µ R, σ 2 > 0. Pak 1 výběrový průměr X n a výběrový rozptyl S 2 n jsou nezávislé náhodné veličiny, 2 rozdělení výběrového průměru X n je N(µ, σ 2 /n), 3 náhodná veličina (n 1)Sn 2 /σ 2 má χ 2 -rozdělení o (n 1) stupních volnosti, 4 náhodná veličina T = X n µ S n n má t-rozdělení o (n 1) stupních volnosti.
Kvantily 8 Definice Necht distribuční funkce F je spojitá, ryze monotonní a necht 0 < β < 1. Pak číslo z β takové, že F (z β ) = β se nazývá β-kvantil tohoto rozdělení. Označení kvantilů používaných v této přednášce u β... β-kvantil normovaného normálního rozdělení, t β,n... β-kvantil Studentova t rozdělení o n stupních volnosti, χ 2 β,n... β-kvantil χ2 rozdělení o n stupních volnosti. Poznámka Je-li X náhodná veličina s distribuční funkcí F a kvantily z β, pak P(z α/2 < X < z 1 α/2 ) = F (z 1 α/2 ) F (z α/2 ) = 1 α.
Empirická distribuční funkce a kvartily 9 Definice Necht (x 1, x 2..., x n ) T je realizace náhodného výběru X = (X 1, X 2..., X n ) T. Pak F emp (x) = #{x i : x i x}, n kde # značí počet prvků, se nazývá empirická distribuční funkce. Definice Necht (x 1, x 2..., x n ) T je realizace náhodného výběru X = (X 1, X 2..., X n ) T. Pak z = min(x i : F emp (x i ) 1/4) se nazývá 1.kvartil, z = min(x i : F emp (x i ) 3/4) se nazývá 3.kvartil, z = min(x i : F emp (x i ) 1/2) se nazývá medián (2.kvartil), nejčastěji zastoupený prvek se nazývá modus.
Příklad 10 21 po sobě byly sledovány doby (v měsících) do poruchy daného přístroje. Naměřeny byly hodnoty: 4.9, 6.2, 2.6, 0.6, 0.3, 2.3, 3.2, 1.4, 6.4, 4.8, 1.2 2.5, 0.2, 0.2, 0.8, 0.1, 0.1, 1.4, 7.8, 0.2, 4.7. Uspořádáme-li pro lepší přehled tato data od nejmenší hodnoty k největší, dostaneme řadu hodnot: 0.1, 0.1, 0.2, 0.2, 0.2, 0.3, 0.6, 0.8, 1.2, 1.4, 1.4, 2.3, 2.5, 2.6, 3.2, 4.7, 4.8, 4.9, 6.2, 6.4, 7.8. Z dat máme: výběrový průměr X 21 = 2.471, výběrový rozptyl S 2 21 = 5.81, výběrovou směrodatnou odchylku S 21 = 5.81 = 2.21, 1.kvartil = 0.3, medián (tj. 2.kvartil) = 1.4 a 3.kvartil = 4.7, minimum = 0.1, maximum = 7.8, modus = 0.2.
Empirická distribuční funkce 11 Empiricka distribucni funkce 0.0 0.2 0.4 0.6 0.8 1.0 0 2 4 6 8 data
Histogram a boxplot 12 Histogram Boxplot 0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 data data
Porovnání odhadů a skutečných funkcí 13 Histogram Empiricka distribucni funkce 0.0 0.1 0.2 0.3 0.0 0.2 0.4 0.6 0.8 1.0 0 2 4 6 8 data 0 2 4 6 8 data
Bodový odhad 14 Definice Mějme náhodný výběr X = (X 1, X 2..., X n ) T, kde rozdělení (tj. distribuční funkce apod.) náhodné veličiny X 1 závisí na parametru θ. Bodový odhad parametru θ je jakákoliv funkce náhodného výběru θ (X), jejíž funkční předpis nezávisí na θ. Tento odhad se nazývá nestranný, jestliže Eθ (X) = θ. Poznámka Výše zmíněná definice je sice matematicky přesná, avšak pro naše potřeby příliš obecná a nepřehledná. Budeme si proto pod bodovým odhadem představovat nikoliv funkci náhodného výběru θ (X), nýbrž samotné číslo ˆθ, které získáme z realizace (x 1, x 2..., x n ) T náhodného výběru X = (X 1, X 2..., X n ) T a které co nejpřesněji popisuje hledaný parametr θ.
Metoda momentů 15 Mějme (x 1, x 2..., x n ) T realizaci náh. výběru X = (X 1, X 2..., X n ) T. Rozdělení náhodné veličiny X 1 závisí na parametrech θ 1,..., θ k Θ, kde Θ je množina, z níž mohou parametry pocházet (např. nezáporná reálná čísla). Předpoklad: EX i 1 < i = 1,...k a EX i 1 závisejí na θ 1,..., θ k. Postup: Položením EX i 1 = m i, kde m i je i tý výběrový moment získaný jako n m i = 1 n j=1 x i j pro všechna i = 1,...k, získáme soustavu k rovnic o k neznámých θ 1,..., θ k, jejímž řešením jsou hledané odhady ˆθ 1,..., ˆθ k. Alternativa: Pokud k = 2, pak místo vztahů pro i-té momenty, i = 1, 2, můžeme uvažovat rovnice EX 1 = X n a varx 1 = S 2 n. Nevýhoda: Tento odhad má velký rozptyl.
Metoda maximální věrohodnosti 16 Předpokládejme, že máme (x 1, x 2..., x n ) T realizaci náhodného výběru X = (X 1, X 2..., X n ) T z rozdělení s pravděpodobnostmi P θ (X 1 =.) nebo s hustotou f θ a necht tyto pravděpodobnosti, resp. hustota, závisí na nějakém parametru θ Θ. Definice Odhad ˆθ je maximálně věrohodným odhadem, jestliže resp. n i=1 Pˆθ (X 1 = x i ) = max θ Θ n i=1 fˆθ(x i ) = max θ Θ n P θ (X 1 = x i )), i=1 n f θ (x i ). i=1 Poznámka Většinou je však výhodnější pracovat s logaritmem součinu, nebot tak získáme součet logaritmů.
Metoda maximální věrohodnosti pro výběr z diskrétního rozdělení 17 1 Vyjádřit věrohodnostní funkci L(θ) = n i=1 P θ(x 1 = x i ). 2 Zlogaritmovat a tím získat logaritmicko-věrohodnostní funkci l(θ) = n i=1 log P θ(x 1 = x i )). 3 Položit l(θ) θ = 0. 4 Řešení rovnice l(θ) θ = 0 je hledaný maximálně věrohodný odhad ˆθ.
Metoda maximální věrohodnosti pro výběr ze spojitého rozdělení 18 1 Vyjádřit věrohodnostní funkci L(θ) = n i=1 f θ(x i ). 2 Zlogaritmovat a tím získat logaritmicko-věrohodnostní funkci l(θ) = n i=1 log f θ(x i ). 3 Položit l(θ) θ = 0. 4 Řešení rovnice l(θ) θ = 0 je hledaný maximálně věrohodný odhad ˆθ.
Intervalový odhad 19 Definice Mějme náhodný výběr X = (X 1, X 2..., X n ) T a číslo α (0, 1). 1 Dvojice (θ L (X 1,..., X n ), θ U (X 1,..., X n )) se nazývá intervalový odhad parametru θ o spolehlivosti 1 α, jestliže P(θ L(X 1,..., X n ) < θ < θ U(X 1,..., X n )) = 1 α. 2 (θ D (X 1,..., X n )) se nazývá dolní odhad parametru θ o spolehlivosti 1 α, jestliže P(θ D(X 1,..., X n ) < θ) = 1 α. 3 (θ H (X 1,..., X n )) se nazývá horní odhad parametru θ o spolehlivosti 1 α, jestliže P(θ H(X 1,..., X n ) > θ) = 1 α.
Intervalové odhady parametrů normálního rozdělení - známý rozptyl 20 Věta Necht X = (X 1, X 2..., X n ) T je náhodný výběr z rozdělení N(µ, σ 2 ), µ R je neznámý parametr, σ 2 > 0 známá konstanta. Pak 1 ( X n u 1 α/2 σ n, X n + u 1 α/2 σ n ) je intervalový odhad µ o spolehlivosti 1 α, 2 Xn u 1 α σ n je dolní intervalový odhad µ o spolehlivosti 1 α, 3 X n + u 1 α σ n je horní intervalový odhad µ o spolehlivosti 1 α.
Intervalové odhady parametrů normálního rozdělení - neznámý rozptyl 21 Věta Necht X = (X 1, X 2..., X n ) T je náhodný výběr z rozdělení N(µ, σ 2 ), µ R, σ 2 > 0, oba parametry neznámé. Pak 1 S ( X n t n 1 α/2,n 1 n S, X n + t n 1 α/2,n 1 n ) je intervalový odhad µ o spolehlivosti 1 α, 2 S Xn t n 1 α,n 1 n je dolní intervalový odhad µ o spolehlivosti 1 α, 3 S Xn + t n 1 α,n 1 n je horní intervalový odhad µ o spolehlivosti 1 α, 4 ( (n 1)S2 n, (n 1)S2 χ 2 n ) je intervalový odhad σ 2 o spolehlivosti 1 α, χ 2 1 α/2,n 1 α/2,n 1 5 (n 1)S 2 n χ 2 1 α,n 1 je dolní intervalový odhad σ 2 o spolehlivosti 1 α, 6 (n 1)S 2 n χ 2 α,n 1 je horní intervalový odhad σ 2 o spolehlivosti 1 α.
Intervalové odhady založené na CLV 22 Věta Necht X = (X 1, X 2..., X n ) T je náhodný výběr z libovolného rozdělení, pro které 0 < σ 2 <. Pak intervalovým odhadem µ = EX o asymptotické spolehlivosti 1 α je ( X n u 1 α/2 S n n, X n + u 1 α/2 S n n ).
Intervalové odhady založené na CLV 23 Důkaz. Víme, že pro velká n platí Sn σ 1, tj. S n se asymptoticky bĺıží hodnotě σ. Z CLV víme, že má přibližně normální rozdělení. To znamená, že Xi P( n P Xi nµ nσ 2 Xi nµ P(u α 2 nσ 2 Xi nµ P(u α 2 S + u 1 α n µ 2 n P( X n + u 1 α 2 nsn Xi n S n n µ X n u 1 α 2 u 1 α 2 ) = 1 α u 1 α 2 ) = 1 α S + u α n ) = 1 α 2 n S n n ) = 1 α, což je definice intervalového odhadu o spolehlivosti 1 α.
Intervalové odhady založené na CLV 24 Věta 1 Necht X = (X 1, X 2..., X n ) T je náhodný výběr z alternativního rozdělení s parametrem 0 < p < 1. Pak intervalovým odhadem p o asymptotické spolehlivosti 1 α je ( X X n (1 n u X n ) 1 α/2, n X X n (1 n + u X n ) 1 α/2 ). n 2 Necht X = (X 1, X 2..., X n ) T je náhodný výběr z Poissonova rozdělení s parametrem 0 < λ <. Pak intervalovým odhadem λ o asymptotické spolehlivosti 1 α je ( X X n n u 1 α/2 n, X X n n + u 1 α/2 n ).
Intervalové odhady založené na CLV 25 Důkaz. Myšlenka důkazu plyne z charakteristik daných rozdělení: pro alternativní rozdělení máme EX = p a varx = p(1 p) a v Poissonově rozdělení platí EX = varx = λ.
Princip testování hypotéz 26 Necht X = (X 1, X 2..., X n ) T je náhodný výběr z rozdělení, které závisí na parametru θ Θ. Chceme-li zjistit, jestli θ patří do nějaké užší podmnožiny parametrů Θ 0, nazveme tuto domněnku nulovou hypotézou, (označme H 0 : θ Θ 0 ). Na základě výběru X = (X 1, X 2..., X n ) T testujeme tuto hypotézu proti alternativě H A : θ Θ \ Θ 0. To se zpravidla provede tak, že se určí množina W (tzv. kritický obor) taková, že pokud X W, pak H 0 zamítáme. Poznámka Většinou testujeme H 0 : θ = θ 0, kde θ 0 je nějaká konkrétní hodnota. Přirozenou alternativou je pak H A : θ θ 0. Někdy je však smysluplnější testovat např. proti alternativě H A : θ > θ 0. I když totiž teoreticky může být θ < θ 0, nemá smysl se tou situací zabývat, např. pokud při testování střední hodnoty H 0 : µ = 3 z dat víme, že X n = 5, pak nemá smysl uvažovat situaci µ < 3.
Chyba 1. a 2.druhu a testovací hladina 27 Mohou nastat následující situace: H 0 ve skutečnosti platí a test ji nezamítá. H 0 ve skutečnosti neplatí a test ji zamítá. H 0 ve skutečnosti platí, ale test ji zamítá nastala chyba 1.druhu. H 0 ve skutečnosti neplatí, ale test ji nezamítá nastala chyba 2.druhu. Hladina testu: Zvoĺıme si tzv. hladinu testu α (obvykle 0.05, někdy ale také 0.01 i méně) a W voĺıme tak, aby pravděpodobnost chyby 1.druhu nebyla větší než α (obvykle tak, aby byla rovna α).
Testování pomocí intervalových odhadů 28 Intervalové odhady lze použít pro testování hypotéz o střední hodnotě rozdělení, z něhož náhodný výběr X = (X 1, X 2..., X n ) T pochází. Uvažujme hladinu testu α a předpokládejme, že intervalový odhad pro střední hodnotu µ o spolehlivosti 1 α vypočítaný z výběru X je (µ L, µ U ). Pak hypotézu H 0 : µ = µ 0, kde µ 0 je libovolná konstanta, zamítáme ve prospěch hypotézy H A : µ µ 0, jestliže µ 0 / (µ L, µ U ). Podobně pak můžeme testovat také H 0 : µ = µ 0 oproti H A : µ > µ 0. V tomto případě H 0 zamítáme ve prospěch hypotézy H A, jestliže µ 0 / (, µ H ), kde µ H je horní odhad střední hodnoty µ. Analogicky se pak postupuje i při testování H 0 : µ = µ 0 oproti H A : µ < µ 0. Tyto testy mají hladinu testu α pouze asymtptoticky!
Testování střední hodnoty normálního rozdělení (t-testy): Jednovýběrový t-test 29 Necht (X 1, X 2..., X n ) T je náhodný výběr z N(µ, σ 2 ), kde σ 2 > 0, a předpokládejme, že ani jeden parametr není znám. Testujeme-li H 0 : µ = µ 0 oproti H A : µ µ 0, je postup následující: 1 Vypočteme hodnotu T 0 = X n µ 0 S n n. 2 Pokud T 0 t 1 α/2,n 1, zamítáme H 0. V opačném případě pak H 0 nezamítáme. Jednostranný test H 0 : µ = µ 0 oproti H A : µ > µ 0 pak probíhá podobně: 1 Vypočteme hodnotu T 0 = X n µ 0 S n n. 2 Pokud T 0 t 1 α,n 1, zamítáme H 0. V opačném případě pak H 0 nezamítáme. Poznámka: H 0 : µ = µ 0 oproti H A : µ < µ 0 pak zamítáme v případě, že T 0 t α,n 1.
Testování střední hodnoty normálního rozdělení (t-testy): Párový t-test 30 Ve statistice se často vyskytuje situace, kdy u jednoho objektu sledujeme dva spolu související znaky najednou (např. výnosy dvou různých poboček jedné firmy apod.). Máme tedy náhodný výběr (Y 1, Z 1 ), (Y 2, Z 2 )..., (Y n, Z n ) T a chceme testovat H 0 : EY i EZ i = µ 0 (nejčastěji µ 0 = 0, tj. střední hodnoty se rovnají) oproti některé z výše uvedených alternativ. Pak postupujeme tak, že utvoříme rozdíly X 1 = Y 1 Z 1,..., X n = Y n Z n a pokud veličiny X 1,..., X n pocházejí z normálního rozdělení, můžeme na ně použít výše popsaný jednovýběrový t-test.
Testování střední hodnoty normálního rozdělení (t-testy): Dvouvýběrový t-test 31 Mějme dva náhodné výběry (X 1, X 2..., X m ) T z N(µ 1, σ 2 ) a (Y 1, Y 2..., Y n ) T z N(µ 2, σ 2 ), kde σ 2 > 0, a předpokládejme, že tyto výběry na sobě nezávisí. Označme X výběrový průměr výběru (X 1, X 2..., X m ) T, Ȳ výběrový průměr výběru (Y 1, Y 2..., Y n ) T, SX 2 výběrový rozptyl výběru (X 1, X 2..., X m ) T a SY 2 výběrový rozptyl výběru (Y 1, Y 2..., Y n ) T. Platí, že náhodná veličina T = X Ȳ (µ 1 µ 2 ) (m 1)S 2 X + (n 1)S 2 Y mn(m + n 2) má t m+n 2 rozdělení. Chceme-li tudíž testovat H 0 : µ 1 µ 2 = µ 0 oproti H A : µ 1 µ 2 µ 0, je postup následující: 1 Vypočteme hodnotu T 0 = X Ȳ µ 0 (m 1)S 2 X +(n 1)S 2 Y m + n q mn(m+n 2) m+n. 2 Pokud T 0 t 1 α/2,m+n 2, zamítáme H 0. V opačném případě pak H 0 nezamítáme.
Testování střední hodnoty normálního rozdělení (t-testy): Testování normality 32 Základním předpokladem pro t-testy je normalita dat. Tu lze testovat analytickými testy (Shapiro Wilkův test, D Agostinův test apod.) graficky (histogram, Q-Q plot apod.) Normal Q Q Plot Normal Q Q Plot Sample Quantiles 2 4 6 8 10 Sample Quantiles 0 1 2 3 4 2 1 0 1 2 Theoretical Quantiles 2 1 0 1 2 Theoretical Quantiles
χ 2 test dobré shody 33 Multinomické rozdělení Předpokládejme, že v určitém pokusu může nastat právě jeden z jevů A 1, A 2..., A k a označme pravděpodobnosti p i = P(A i ). Opakujme tento pokus n krát a označme X i počet výskytu jevu A i v těchto n pokusech. Pak P(X 1 = x 1,..., X k = x k ) = n! x 1!... x k! px1 1... px k k, k p i = 1, i=1 k x i = n i=1 a rozdělení vektoru (X 1, X 2..., X k ) T se nazývá multinomické.
χ 2 test dobré shody 34 Chceme-li testovat H 0, že skutečné hodnoty dílčích pravděpodobností jsou rovny předem zadaným číslům p 1,..., p k, oproti alternativě, že aspoň jedna hodnota p i je jiná, postupujeme následovně: 1 Vypočteme hodnotu χ 2 = k (X i np i ) 2 i=1 np i. 2 Pokud χ 2 > χ 2 1 α,k 1, zamítáme H 0. V opačném případě pak H 0 nezamítáme.
Test nezávislosti v kontingenční tabulce 35 Mějme výběr (Y 1, Z 1 ), (Y 2, Z 2 )..., (Y n, Z n ), kde Y k může nabývat hodnot 1,..., r a Z k může nabývat hodnot 1,..., c. Testujeme H 0 : Y a Z jsou nezávislé oproti H A : Y a Z nejsou nezávislé. Označíme-li n ij počet výskytů dvojice (Y k = i, Z k = j), pak matici o rozměru r c s prvky n ij říkáme kontingenční tabulka a prvkům n ij říkáme sdružené četnosti. Marginální četnosti jsou pak dány vztahy n i. = j n ij, n.j = i n ij. Postup: 1 Vypočteme hodnotu χ 2 = rx i=1 cx (n ij n i.n.j j=1 n i. n.j n n ) 2. 2 Pokud χ 2 χ 2 1 α,(r 1)(c 1), zamítáme H 0 ve prospěch H A.
36 II. REGRESNÍ ANALÝZA
Motivace 37 Y 6 4 2 0 2 4 6 0 5 10 15 20 X
Cíl regresní analýzy 38 Uvažujme náhodný vektor X = (X 1,..., X r ), náhodnou veličinu Y a předpokládejme, že Y na X nějakým způsobem závisí. Úkolem regresní analýzy je nalézt funkční závislost Y na X, tj. najít takovou funkci f, že Y = f θ1,...,θ p (X 1,..., X r ) + ɛ, (1) kde tzv. chybový člen ɛ je náhodná veličina s nulovou střední hodnotou a rozptylem σ 2. Aby tato funkce dobře popisovala situaci, je třeba, aby rozptyl σ 2 nebyl příliš velký. Často navíc předpokládáme normalitu ɛ.
Základní pojmy 39 Definice Vztah (1) se nazývá regresní model. Funkce f se nazývá regresní funkce. Číslům θ 1,..., θ p se říká parametry regrese. Náhodný vektor X = (X 1,..., X r ) se nazývá vysvětlující proměnná. Náhodná veličina Y je pak vysvětlovaná proměnná.
Metoda nejmenších čtverců 40 Definice Necht (y i, x 1i,..., x ri ), i = 1,..., n je n pozorování vektoru (Y, X 1,..., X r ). Označme S(θ 1,..., θ p ) = n i=1 (y i f (x 1i,..., x ri, θ 1,..., θ p )) 2 Výraz S(θ 1,..., θ p ) se nazývá reziduální součet čtverců. Metoda spočívá v minimalizaci (ˆθ 1,..., ˆθ p ) = arg min θ 1,...,θ p S(θ 1,..., θ p ) = arg min θ 1,...,θ p n (y i f (x 1i,..., x ri, θ 1,..., θ p )) 2, i=1 (parciální derivací podle jednotlivých parametrů - viz MMV).
Lineární regrese 41 Nejjednodušší formou regrese je případ, kdy funkce f je lineární. Obecný tvar (nazývaný vícenásobná regrese) je Y = a + b 1 X 1 +... + b r X r + ɛ. Často však hledáme závislost veličiny Y pouze na jediné veličině X (tj. X je jednorozměrný vektor). Tento případ, tj. vztah Y = a + bx + ɛ, se nazývá jednoduchá regrese. Máme-li data (y i, x 1i,..., x ri ), i = 1,..., n a uvažujeme-li jednoduchou regresi, pak hodnoty e i = y i a bx i, i = 1,..., n se nazývají rezidua a lze je považovat za realizace chybového členu ɛ. Reziduální součet čtverců pro jednoduchou regresi je n S(a, b) = (y i a bx i ) 2. i=1
Bodový odhad parametrů modelu 42 K nalezení odhadů parametrů a a b v modelu jednoduché regrese použijeme výše popsanou metodu nejmenších čtverců. Hledáme-li minimum S(a, b), dostáváme rovnice n a S(a, b) = 2 (y i a bx i ) = 0 i=1 n b S(a, b) = 2 (y i a bx i )x i = 0 i=1 ˆb = n n i=1 x iy i n i=1 x n i i=1 y i n n i=1 x i 2 ( n i=1 x ) 2 = i â = ȳ ˆb x, n i=1 (x i x)y i n i=1 (x i x) 2 kde â, ˆb jsou hledané bodové odhady parametrů a a b.
Příklad 43 Y Mějme následující pozorování: x i 1 2 3 4 5 6 7 8 9 10 y i 3 5 4 4 0 2 2 0-1 -2 x i 11 12 13 14 15 16 17 18 19 20 y i 0-2 -3 0-5 -6-4 -4-5 -6 Bodové odhady parametrů a a b jsou â = 4.816, ˆb = 0, 544. 6 4 2 0 2 4 6 0 5 10 15 20 X
Intervalové odhady parametrů 44 Označme S R = S(a, b) reziduální součet čtverců, pak bodový odhad rozptylu s 2 chybového členu ɛ je s 2 = S R n 2. Pomocí s 2 lze vyjádřit odhady rozptylu regresních parametrů Sa 2 s 2 n i=1 = x i 2 n n i=1 x i 2 ( n i=1 xi) 2 Sb 2 s 2 = n i=1 x i 2 n x. 2 Statistiky T a = â a S a a T b = ˆb b S b mají t-rozdělení o (n 2) stupních volnosti, tudíž intervalové odhady pro a a b jsou â S a t n 2,1 α 2 a â + S a t n 2,1 α 2 ˆb S b t n 2,1 α 2 b ˆb + S b t n 2,1 α 2 kde t n 2,1 α je (1 α 2 2 )-kvantil t-rozdělení o n 2 stupních volnosti.
Testování podmodelů 45 Pro testovaní, zda se koeficienty modelu výrazně liší od nuly, používáme statistiky T a = â, resp. T b = ˆb, S a S b které mají za platnosti hypotézy H 0 : a = 0, resp. H 0 : b = 0, t-rozdělení o (n 2) stupních volnosti. Tedy hypotézu H 0 : a = 0, resp. H 0 : b = 0, zamítáme ve prospěch H A : a 0, resp. H A : b 0, na hladině významnosti α, pokud T a t n 2,1 α, resp. T 2 b t n 2,1 α. 2 Poznámka Alternativou pro testování, zda lze daný koeficient považovat za nulový, je sestavení intervalů spolehlivosti a zjištění, zda některý z těchto intervalů nulu obsahuje.
Příklad 46 Pro data z předešlého příkladu dostáváme a T a = 7.6867 = 7.6867 > 2.1009 = t 18,0.975 T b = 10.40844 = 10.4084 > 2.1009 = t 18,0.975, tedy zamítáme jak hypotézu H 0 : a = 0, tak H 0 : b = 0, ve prospěch H A : a 0, resp. H A : b 0, na hladině 5%. Nebo alternativně: Intervalové odhady o spolehlivosti 0.95 pro parametry a a b jsou (3.499543 < a < 6.132036) a ( 0.654239 < b < 0.4344828). Jelikož ani jeden z intervalů neobsahuje 0, zamítáme na hladině 5% jak hypotézu H 0 : a = 0, tak H 0 : b = 0, ve prospěch H A : a 0, resp. H A : b 0.
Pásy spolehlivosti 47 Existuje více způsobů sestavení těchto intervalů lišících se v předpokladech o modelu, např. Pás spolehlivosti kolem regresní přímky o spolehlivosti (1 α) vychází z předpokladu, že koeficienty regrese a a b jsou známé. Pak tento pás je tvaru Ŷ SŶ t n 2,1 α 2 Y Ŷ S Ŷ t n 2,1 α 2, kde Ŷ (x) = a + bx je bodový odhad hodnoty regresní funkce a ( 1 S 2 = Ŷ s2 n + (x x) 2 ) n i=1 x i 2 n x 2 je nestranný bodový odhad rozptylu Ŷ.
Pásy spolehlivosti 48 Pás spolehlivosti pro predikci o spolehlivosti (1 α) se používá v reálnějších situacích, kdy koeficienty regrese a a b neznáme. Je zřejmé, že tyto pásy jsou širší, jelikož je třeba počítat i s jistou variabilitou regresních koeficientů. Tato šíře je daná odhadem rozptylu ( S 2 = Ŷ s2 1 + 1 n + (x x) 2 ) n i=1 x i 2. n x 2
Příklad 49 Y Pro data z předešlého příkladu dostáváme následující pásy spolehlivosti kolem regresní přímky (červená) a pro predikci (modrá): 6 4 2 0 2 4 6 0 5 10 15 20 X
Analýza reziduí a odlehlá pozorování 50 Předpoklady na chybový člen ɛ: náhodná veličina s nulovou střední hodnotou, s normálním rozdělením. Třeba oveřit tyto předpoklady na odhadech chybových členů e i = y i a bx i. Toto ověření se nazývá analýza reziduí a používají se pro ni již dříve popsané metody (histogram, boxplot, Q-Q plot apod.). Při analýze reziduí lze navíc detekovat i odlehlá pozorování.
Příklad 51 Y 0 5 10 15 20 X 30 20 10 0 10 20 Y 0 5 10 15 20 X 30 20 10 0 10 20 30 20 10 0 2 0 2 4 Regresní přímka proložená všemi daty, daty bez odlehlého pozorování a boxploty příslušných reziduí.
Výběr vhodného modelu 52 Koeficient determinace R 2 = n i=1 (a + bx i ȳ) 2 n i=1 (y i ȳ) 2. Jeho hodnoty se pohybují v intervalu (0,1), přičemž větší hodnoty znamenají větší úspěšnost regrese. Pro předešlý příklad dostáváme R 2 = 0.084 (špatná data), resp. R 2 = 0.876 (data bez odlehlého pozorování).
53 III. NÁHODNÉ PROCESY
Definice náhodného procesu 54 Definice Necht (Ω, A, P) je pravděpodobnostní prostor a T R. Rodina reálných náhodných veličin {X t, t T } definovaných na (Ω, A, P) se nazývá náhodný (nebo také stochastický) proces.
Základní dělení náhodných procesů 55 Definice Je-li T = Z nebo T = N, mluvíme o náhodném procesu s diskrétním časem. Je-li T = [a, b], kde a < b, mluvíme o náhodném procesu se spojitým časem. Definice Dvojice (S, E), kde S je množina hodnot náhodných veličin X t a E je σ algebra na množině S, se nazývá stavový prostor. Definice Pokud náhodné veličiny X t nabývají pouze diskrétních hodnot, mluvíme o náhodném procesu s diskrétními stavy. Pokud náhodné veličiny X t nabývají spojitých hodnot, mluvíme o náhodném procesu se spojitými stavy.
Trajektorie procesu 56 Náhodný proces {X t, t T } můžeme chápat jako funkci dvou proměnných ω a t. Pro pevné t je tato funkce náhodnou veličinou, pro pevné ω se jedná o funkci jedné reálné proměnné t. Definice Mějme pevné ω Ω. Pak funkce t X t se nazývá trajektorie procesu {X t, t T }. Definice Proces se nazývá spojitý, jsou-li všechny jeho trajektorie spojité.
Slabá stacionarita procesu 57 Definice Necht {X t, t T } je náhodný proces takový, že pro každé t T existuje střední hodnota EX t. Potom funkce µ t = EX t definovaná na T se nazývá střední hodnota procesu {X t }. Jestliže platí E X t 2 < pro všechna t T, potom funkce dvou proměnných definovaná na T T předpisem R(s, t) = E(X s µ s )(X t µ t ) se nazývá autokovarianční funkce procesu {X t }. Hodnota R(t, t) se nazývá rozptyl procesu {X t } v čase t. Definice Řekneme, že náhodný proces {X t, t T } je slabě stacionární, jestliže R(s, t) je funkcí pouze rozdílu s t, tj. Důsledek: R(s, t) = R(s t) R(s, t) = R(s + h, t + h) pro každé h R takové, že s + h T a t + h T.
Silná stacionarita procesu 58 Označme F t1,...,t n (x 1,..., x n ) = P(X t1 x 1,..., X tn x n ). Definice Řekneme, že náhodný proces {X t, t T } je striktně stacionární, jestliže pro libovolné n N, pro libovolná reálná x 1,..., x n a pro libovolná reálná t 1,..., t n a h taková, že t k T, t k + h T, 1 k n, platí F t1,...,t n (x 1,..., x n ) = F t1+h,...,t n+h(x 1,..., x n ). (2) Poznámka Pro procesy s diskrétními stavy je vztah (2) je ekvivalentní vztahu P(X t1 = x 1,..., X tn = x n ) = P(X t1+h = x 1,..., X tn+h = x n ).
Ekvivalence procesů 59 Definice Necht náhodné procesy {X t, t T } a {Y t, t T } jsou definované na stejném pravděpodobnostním prostoru s hodnotami ve stejném stavovém prostoru. Pak 1 {X t } a {Y t } jsou stochasticky ekvivalentní, jestliže P(X t = Y t ) = P(ω : X t (ω) = Y t (ω)) = 1, t T. Říkáme také, že proces {X t } je stochastickou verzí, popř. modifikací, procesu {Y t }. 2 {X t } a {Y t } jsou nerozlišitelné, jestliže P(X t = Y t, t T ) = P(ω : X t (ω) = Y t (ω), t T ) = 1.
Definice Markovské řetězce s diskrétním časem 60 Mějme Definice pravděpodobnostní prostor (Ω, A, P), na něm posloupnost náhodných veličin {X n, n N}, stavový prostor (S, E), kde množina S je konečná nebo spočetná, bez újmy na obecnosti předpokládejme S = {0, 1,..., N}, resp. S = {0, 1,...}. Posloupnost náhodných veličin {X n, n N} nazveme Markovský řetězec s diskrétním časem, jestliže P(X n+1 = j X n = i, X n 1 = i n 1,..., X 0 = i 0 ) = P(X n+1 = j X n = i) pro všechna n = 0, 1,... a všechna i, j, i n 1,..., i 0 S taková, že P(X n = i, X n 1 = i n 1,..., X 0 = i 0 ) > 0.
Příklad: náhodná procházka 61 Necht Y 1, Y 2,... jsou nezávislé stejně rozdělené náhodné veličiny nabývající hodnot ±1 s pravděpodobnostmi 1/2. Definujme X 0 = 0 n X n = Y i. Pak posloupnost (proces, řetězec) {X n, n N} se nazývá náhodná procházka. i=1
Pravděpodobnostmi přechodu, homogenita řetězce 62 Definice Podmíněné pravděpodobnosti 1 P(X n+1 = j X n = i) = p ij (n, n + 1) nazveme pravděpodobnostmi přechodu ze stavu i v čase n do stavu j v čase n + 1 nebo také pravděpodobnostmi přechodu 1.řádu; 2 P(X n+m = j X n = i) = p ij (n, n + m) nazveme pravděpodobnostmi přechodu ze stavu i v čase n do stavu j v čase n + m nebo také pravděpodobnostmi přechodu m-tého řádu. Definice Jestliže pravděpodobnosti přechodu p ij (n, n + m) nezávisí na časových okamžicích n a n + m, ale pouze na rozdílu m, nazývá se příslušný Markovský řetězec homogenní.
Matice pravděpodobností přechodu 63 Uvažujme homogenní řetězec a označme p ij := p ij (n, n + 1). Tyto prvky lze seřadit do čtvercové matice P = {p ij, i, j S}, pro niž zřejmě platí p ij 0, i, j S a p ij = 1, i S. j S Definice Matice P = {p ij, i, j S} se nazývá matice pravděpodobností přechodu.
Rozdělení Markovského řetězce 64 Označme dále p i = P(X 0 = i), i S, pro které zřejmě platí p i 0, i S a p i = 1. i S Definice Vektor p = {p i, i S} se nazývá počáteční rozdělení Markovského řetězce. Lze ukázat (Věta o úplné pravděpodobnosti), že P(X 0 = i 0, X 1 = i 1,..., X n = i n ) = p i0 p i0i 1... p in 1i n.
Matice pravděpodobností přechodů vyššího řadu 65 Označme dále p (1) ij = p ij a definujme pro přirozené n 1 postupně p (n+1) ij = k S p (n) ik p kj. (3) Lze ukázat, že p (n) ij 1 a navíc pro matice pravděpodobností přechodů platí P (2) = P P = P 2 a obecně P (n+1) = P (n) P = P P (n) = P n+1. Věta Necht {X n, n N} je homogenní Markovský řetězec s maticí přechodu P. Potom pro pravděpodobnosti přechodu n tého řádu platí P(X m+n = j X m = i) = p (n) ij, i, j S pro všechna přirozená m a n a pro P(X m = i) > 0.
Chapman-Kolmogorova rovnost 66 Vztah (3) lze zobecnit. Toto zobecnění se nazývá Chapman-Kolmogorova rovnost definována jako zapsáno maticově p (m+n) ij = k S p (m) ik p (n) kj, P (m+n) = P (m) P (n).
Značení 67 Vychází-li řetězec {X n, n N} ze stavu j, tj. P(X 0 = j) = 1, pak označíme P(. X 0 = j) = P j (.). Položme τ j (0) = 0 a definujme náhodné veličiny τ j (1) = inf{n > 0 : X n = j} čas prvního návratu řetězce do stavu j. Střední hodnotu doby prvního návratu označíme µ j = E[τ j (1) X 0 = j]. Největší společný dělitel čísel n 1, pro které p (n) jj > 0, označíme d j.
Klasifikace 68 Definice Stav j Markovského řetězce se nazývá trvalý, jestliže P j (τ j (1) < ) = 1. Stav j Markovského řetězce se nazývá přechodný, jestliže P j (τ j (1) = ) > 0. Definice Trvalý stav j Markovského řetězce se nazývá nenulový, jestliže µ j < a nulový, jestliže µ j =. Definice Je-li d j > 1, stav j Markovského řetězce se nazývá periodický s periodou d j, je-li d j = 1, stav j Markovského řetězce se nazývá neperiodický.
Konvergence pravděpodobností přechodu 69 Věta a) Necht j je přechodný stav. Potom lim n p (n) ij = 0, i S. b) Necht j je trvalý nulový stav. Potom lim n p (n) ij = 0, i S. c) Necht j je trvalý nenulový a neperiodický stav. Potom lim n p (n) jj = 1 µ j. d) Necht j je trvalý nenulový stav s periodou d j. Potom lim n p (nd j ) jj = d j µ j. Věta Trvalý stav j je nulový právě tehdy, když lim n p (n) jj = 0.
Řetězec s konečně mnoha stavy 70 Uvažujme nyní řetězec s množinou přechodných stavů R a definujme náhodnou veličinu τ = inf{n 0 : X n / R} značící čas výstupu z množiny přechodných stavů. Věta V řetězci s konečně mnoha stavy je P i (τ = ) = 0, i R.
Dosažitelnost stavů 71 Definice Řekneme, že stav j je dosažitelný ze stavu i, jestliže existuje n N takové, že p (n) ij > 0. Jestliže p (n) ij = 0, pro všechna n N, pak říkáme, že stav j je nedosažitelný ze stavu i. Definice Množina stavů C se nazývá uzavřená, jestliže žádný stav vně C není dosažitelný z žádného stavu uvnitř C. Věta Množina stavů je uzavřená právě tehdy, je-li p ij = 0 pro všechna i C, j / C.
Absorpční stavy a rozložitelnost řetězce 72 Definice Markovský řetězec se nazývá nerozložitelný, jestliže každý jeho stav je dosažitelný z každého jiného stavu. V opačném případě je řetězec rozložitelný. Definice Je-li jednobodová množina stavů {j} uzavřená, tj. je-li p jj = 1, pak se stav j nazývá absorpční. Definice Řetězec s konečně mnoha stavy, jehož všechny trvalé stavy jsou absorpční, se nazývá absorpční řetězec.
Stacionární rozdělení 73 Definice Necht {X n, n N} je homogenní řetězec s množinou stavů S a maticí pravděpodobností přechodu P. Necht π = {π j, j S} je nějaké pravděpodobnostní rozdělení na množině S, tj. π j 0, j S, j S π j = 1. Potom π se nazývá stacionární rozdělení daného řetězce, jestliže platí π T = π T P, neboli π j = k S π k p kj, j S.
Stacionární rozdělení 74 Věta Necht počáteční rozdělení homogenního Markovského řetězce je stacionární. Pak je tento řetězec striktně stacionární a pro všechna n N platí p j (n) = P(X n = j) = π j, j S, kde π j jsou počáteční stacionární pravděpodobnosti.
Stacionární rozdělení pro různé stavy 75 Věta Pro nerozložitelný Markovský řetězec platí 1 Jsou-li všechny jeho stavy přechodné nebo všechny trvalé nulové, stacionární rozdělení neexistuje. 2 Jsou-li všechny jeho stavy trvalé nenulové, stacionární rozdělení existuje a je jednoznačné. 1 Jsou-li všechny stavy neperiodické, potom pro všechna i, j S π j = lim n p(n) ij > 0 a π j = lim n p j(n) > 0. 2 Jsou-li všechny stavy periodické, potom pro všechna i, j S 1 π j = lim n n nx k=1 p (k) 1 ij > 0 a π j = lim n n nx p j (k) > 0. 3 V nerozložitelném řetězci s konečně mnoha stavy stacionární rozdělení existuje. k=1
Markovský řetězec se spojitým časem 76 Definice Systém celočíselných náhodných veličin {X t, t 0} definovaných na pravděpodobnostním prostoru (Ω, A, P) nazveme Markovský řetězec se spojitým časem, jestliže P(X t = j X s = i, X tn = i n,..., X t1 = i 1 ) = P(X t = j X s = i) pro všechna 0 t 1 <... < t n < s < t a všechna i, j, i n,..., i 1 S taková, že P(X s = i, X tn = i n,..., X t1 = i 1 ) > 0.
Základní pojmy 77 P(X t = j X s = i) = p ij (s, t) nazveme pravděpodobnostmi přechodu ze stavu i v čase s do stavu j v čase t; pro homogenní řetězec, kde pravděpodobnosti přechodu závisí pouze na rozdílech časů, budeme značit p ij (s, s + t) jako p ij (t); absolutní pravděpodobnosti budeme značit p j (t) = P(X t = j), j S a p j (0) = P(X 0 = j), j S pak budou počáteční pravděpodobnosti.
Matice pravděpodobnosti přechodu, Chapman-Kolmogorova rovnost 78 Pro každé t je P(t) = {p ij (t), i, j S} čtvercová matice systém matic pravděpodobností přechodu {P(t), t 0}. Zřejmě platí: {P(0) = I }, kde I je jednotková matice. Dále dostáváme p j (t) = i S p i (0)p ij (t) j S, zapsáno maticově Ten lze zobecnit na p(t) T = p(0) T P(t). p ij (s + t) = k S p ik (s)p kj (t) i, j S, zapsáno maticově P(s + t) = P(s) P(t), což je Chapman-Kolmogorova rovnost.
Intenzita přechodu 79 V dalším textu budeme předpokládat, že lim p ij(t) = δ ij, i, j S, t 0+ kde δ ij značí Dirackovu funkci, tj. δ ij = 1 pro i = j a δ ij = 0 jinak. Tento předpoklad společně se skutečností, že p ij (0) = δ ij znamená, že řetězec je zprava spojitý v 0. Dále si označme 1 p ii (h) p ij (h) lim := q i a lim := q ij. (4) h 0+ h h 0+ h Definice Nezáporná čísla q ij z (4) se nazývají intenzity přechodu, číslo q i z (4) je pak celková intenzita. Matice Q = {q ij, i, j S}, kde q ii = q i se nazývá matice intenzit přechodu.
Vlastnosti intenzity přechodu 80 Věta Pro homogenní Markovský řetězec platí P(X t = i pro t (s, s + h) X s = i) = e q i h s 0, h 0. Věta Je-li q i = 0, pak p ii (t) = 1 pro všechna t 0. Je-li 0 < q i <, má doba, po kterou řetězec setrvává ve stavu i, exponenciální rozdělení s parametrem q i. Věta Necht 0 < q i <. Potom pravděpodobnost, že řetězec z počátečního stavu i přejde nejdříve do stavu j, je rovna q ij q i pro všechna j i.
Klasifikace stavů Markovského řetězce 81 Necht P(X 0 = j) = 1, J je čas, kdy řetězec poprvé opustí stav j, a τ j (1) = inf{t J : X t = j}. Definice Stav j Markovského řetězce se nazývá trvalý, jestliže bud q j = 0 nebo q j > 0 a zároveň P j (τ j (1) < ) = 1. Stav j Markovského řetězce se nazývá přechodný, jestliže q j > 0 a zároveň P j (τ j (1) = ) > 0. Definice Trvalý stav j Markovského řetězce se nazývá nenulový, jestliže bud q j = 0 nebo E[τ j (1)] <. V opačném případě se řetězec nazývá nulový.
Klasifikace stavů Markovského řetězce 82 Definice Stav j S se nazývá absorpční, jestliže q j = 0. Jestliže q i > 0, pak se stav j nazývá stabilní, pokud q j <, a nestabilní, pokud q j =. Definice Řekneme, že stav j je dosažitelný ze stavu i, jestliže existuje t > 0 takové, že p ij (t) > 0. Poznámka Analogicky jako pro řetězce s diskrétním časem můžeme definovat také nerozložitelnost řetězce se spojitým časem.
Stacionární rozdělení 83 Definice Necht {X t, t 0} je homogenní řetězec se spojitým časem, množinou stavů S a maticemi pravděpodobností přechodu P(t), t 0. Potom π se nazývá stacionární rozdělení daného řetězce, jestliže platí π T = π T P(t), t 0. Věta Necht počáteční rozdělení homogenního Markovského řetězce {X t, t 0} je stacionární. Pak je tento řetězec striktně stacionární a pro všechna t 0 platí p j (t) = P(X t = j) = π j, j S, kde π j jsou počáteční stacionární pravděpodobnosti.
Nejčastěji používané Markovské procesy: 1.) Poissonův proces 84 Poissonův proces {N t, t 0} popisuje počet událostí do času t. Předpoklady: počty událostí v disjunktních časových intervalech jsou nezávislé náhodné veličiny (proces s nezávislými přírustky), počty událostí v časovém intervalu (t, t + h) závisí pouze na h, pro počty událostí v časovém intervalu (t, t + h) platí P(N t+h N t = 0) = 1 λh + o(h), P(N t+h N t = 1) = λh + o(h), P(N t+h N t 2) = o(h), kde symbol o(h) značí, že o(h)/h 0 při h 0+, a λ je konstanta, která se nazývá intenzita Poissonova procesu.
Nejčastěji používané Markovské procesy: 1.) Poissonův proces 85 Z předpokladu nezávislosti přírustků plyne Markovská vlastnost Pro pravděpodobnosti přechodu platí P(N t+h = j N t = i) = λh + o(h) j = i + 1 Intenzity přechodu jsou = 1 λh + o(h) j = i = o(h) j > i + 1 = 0 j < i. q i,i+1 = λ, q i = qii = λ, q ij = 0 jinak. Navíc se dá ukázat, že pro tento proces platí P(N t = k) = (λt)k e λt, k = 0, 1,..., k! což je Poissonovo rozdělení.
Nejčastěji používané Markovské procesy: 2.) Wienerův proces 86 Není to Markovský řetězec, pouze Markovský proces (spojitá množina stavů)! Wienerův proces (někdy také nazýván Brownův pohyb) {W t, t 0} je definován následujícími vlastnostmi: {W t, t 0} má spojité trajektorie, W 0 = 0, {W t, t 0} má nezávislé přírustky, přírustek hodnoty v časovém intervalu (s, t) má normální rozdělení s nulovou střední hodnotou a rozptylem σ 2 (t s), kde σ 2 je kladná konstanta.