Využití zlomkových stochastických procesů pro analýzu signálu a časových řad Seminář strojového učení a modelování Martin Dlask (KSI FJFI) http://people.fjfi.cvut.cz/dlaskma1/ 3. března 2016 Martin Dlask zlomkové stochastické procesy 3. března 2016 1 / 62
Juliova množina Martin Dlask zlomkové stochastické procesy 3. března 2016 2 / 62
Juliova množina Martin Dlask zlomkové stochastické procesy 3. března 2016 3 / 62
Juliova množina Martin Dlask zlomkové stochastické procesy 3. března 2016 4 / 62
Fraktální množiny Tak co jsou vlastně fraktály? (pokud ne jen barevné obrázky) Martin Dlask zlomkové stochastické procesy 3. března 2016 5 / 62
Fraktální množiny Tak co jsou vlastně fraktály? (pokud ne jen barevné obrázky) množiny s neceločíselnou dimenzí Martin Dlask zlomkové stochastické procesy 3. března 2016 6 / 62
Fraktální množiny Tak co jsou vlastně fraktály? (pokud ne jen barevné obrázky) množiny s neceločíselnou dimenzí Martin Dlask zlomkové stochastické procesy 3. března 2016 7 / 62
Fraktální množiny Tak co jsou vlastně fraktály? (pokud ne jen barevné obrázky) množiny s neceločíselnou dimenzí Martin Dlask zlomkové stochastické procesy 3. března 2016 8 / 62
Fraktální množiny Tak co jsou vlastně fraktály? (pokud ne jen barevné obrázky) množiny s neceločíselnou dimenzí Martin Dlask zlomkové stochastické procesy 3. března 2016 9 / 62
Fraktální množiny množina je charakterizována svojí mírou fraktální dimenzí - Hausdorffova dimenze Martin Dlask zlomkové stochastické procesy 3. března 2016 10 / 62
Fraktální množiny δ-pokrytí množiny F R n množina v R 2 Martin Dlask zlomkové stochastické procesy 3. března 2016 11 / 62
Fraktální množiny δ-pokrytí množiny F R n množina v R 2 Martin Dlask zlomkové stochastické procesy 3. března 2016 12 / 62
Fraktální množiny δ-pokrytí množiny F R n množina v R 2 Martin Dlask zlomkové stochastické procesy 3. března 2016 13 / 62
Fraktální množiny δ-pokrytí množiny F R n množina v R 2 Martin Dlask zlomkové stochastické procesy 3. března 2016 14 / 62
Fraktální množiny δ-pokrytí množiny F R n množina v R 2 Martin Dlask zlomkové stochastické procesy 3. března 2016 15 / 62
Fraktální množiny δ-pokrytí množiny F R n množina v R 2 Martin Dlask zlomkové stochastické procesy 3. března 2016 16 / 62
Fraktální množiny δ-pokrytí množiny F R n množina v R 2 Martin Dlask zlomkové stochastické procesy 3. března 2016 17 / 62
Fraktální množiny δ-pokrytí množiny F R n množina v R 2 Martin Dlask zlomkové stochastické procesy 3. března 2016 18 / 62
Hausdorffova míra a dimenze Hausdorffova s-rozměrná míra množiny F R n H s (F) = lim δ 0 inf Hausdorffova dimenze { + } (diam(a i )) s : (A i ) je δ-pokrytí množinyf i=1 dim H (F) = sup{s : H s (F) = + } Martin Dlask zlomkové stochastické procesy 3. března 2016 19 / 62
Fraktální množiny dim H (C) = log(4)/log(3) dim H (S) = log(3)/log(2) Martin Dlask zlomkové stochastické procesy 3. března 2016 20 / 62
Zlomkový Brownův pohyb zlomkový Brownův pohyb B H (t) - spojitý gaussovský proces definovaný na intervalu 0; + ) je závislý na parametru H (0;1) dim H (B H (t)) = 2 H autokovarianční funkce cov(b H (t),b H (s)) = σ2 2 ( t 2H + s 2H + t s 2H) 1.5 1 0.5 B H (t) 0 0.5 1 1.5 0 50 100 150 200 250 300 350 400 450 500 t Martin Dlask zlomkové stochastické procesy 3. března 2016 21 / 62
Zlomkový Brownův pohyb Zlomkový Brownův pohyb - spojitý proces Martin Dlask zlomkové stochastické procesy 3. března 2016 22 / 62
Zlomkový Gaussův šum zlomkový Gaussův šum G H (t) - spojitý gaussovský proces definovaný na intervalu 0; + ) je závislý na parametru H (0;1) dim H (G H (t)) = 2 autokovarianční funkce cov(g H (t),g H (t +k)) = σ2 2 ( k +1 2H 2 k 2H + k 1 2H) 0.1 0.05 G H (t) 0 0.05 0.1 0 50 100 150 200 250 300 350 400 450 500 t Martin Dlask zlomkové stochastické procesy 3. března 2016 23 / 62
Speciální případy pro H=0,5 zlomkový Brownův pohyb pro H = 0,5 Wienerův proces 1.2 1 0.8 W(t) 0.6 0.4 0.2 0 0.2 0 50 100 150 200 250 300 350 400 450 500 t zlomkový Gaussův šum pro H = 0,5 bílý šum WN(t) 0.15 0.1 0.05 0 0.05 0.1 0.15 0.2 0 100 200 300 400 500 t Martin Dlask zlomkové stochastické procesy 3. března 2016 24 / 62
Speciální případy pro H=0,5 Wienerův proces jeho diference - bílý šum (short memory) Norbert Wiener Martin Dlask zlomkové stochastické procesy 3. března 2016 25 / 62
Vlastnosti zlomkového Brownova pohybu parametr H fraktál závislost přírůstků H = 1 ne ano H = 0,5 ano ne H = 0 ano ano Martin Dlask zlomkové stochastické procesy 3. března 2016 26 / 62
Hurstův exponent D = 2 H D... Hausdorffova dimenze H... Hurstův exponent Martin Dlask zlomkové stochastické procesy 3. března 2016 27 / 62
Hurstův exponent D = 2 H D... Hausdorffova dimenze H... Hurstův exponent Martin Dlask zlomkové stochastické procesy 3. března 2016 28 / 62
Metoda R/S R... rozsah (range) S... směrodatná odchylka (std) m... velikost segmentu 1 výpočet střední hodnoty R/S v každém segmentu (R/S) m = 1 r r j=1 R j S j, 2 použití regresního modelu E[(R/S)] m H. Martin Dlask zlomkové stochastické procesy 3. března 2016 29 / 62
Metoda R/S R... rozsah (range) S... směrodatná odchylka (std) m... velikost segmentu 1 výpočet střední hodnoty R/S v každém segmentu (R/S) m = 1 r r j=1 R j S j, 2 použití regresního modelu E[(R/S)] m H. Martin Dlask zlomkové stochastické procesy 3. března 2016 30 / 62
Metoda R/S R... rozsah (range) S... směrodatná odchylka (std) m... velikost segmentu 1 výpočet střední hodnoty R/S v každém segmentu (R/S) m = 1 r r j=1 R j S j, 2 použití regresního modelu E[(R/S)] m H. Martin Dlask zlomkové stochastické procesy 3. března 2016 31 / 62
Metoda R/S R... rozsah (range) S... směrodatná odchylka (std) m... velikost segmentu 1 výpočet střední hodnoty R/S v každém segmentu (R/S) m = 1 r r j=1 R j S j, 2 použití regresního modelu E[(R/S)] m H. Martin Dlask zlomkové stochastické procesy 3. března 2016 32 / 62
Metoda průchodů nulou (zero-crossing) 1 výpočet pravděpodobnosti průchodu nulou p = počet průsečíků počet dat 2 výpočet bodového odhadu H H = 1+log 2 cos πp 2 Martin Dlask zlomkové stochastické procesy 3. března 2016 33 / 62
Metoda průchodů nulou (zero-crossing) 1 výpočet pravděpodobnosti průchodu nulou p = počet průsečíků počet dat 2 výpočet bodového odhadu H H = 1+log 2 cos πp 2 Martin Dlask zlomkové stochastické procesy 3. března 2016 34 / 62
Metoda průchodů nulou (zero-crossing) 1 výpočet pravděpodobnosti průchodu nulou p = počet průsečíků počet dat 2 výpočet bodového odhadu H H = 1+log 2 cos πp 2 Martin Dlask zlomkové stochastické procesy 3. března 2016 35 / 62
Vylepšená metoda průchodů nulou (zero-crossing revisited) bodový odhad Hurstova exponentu H za předpokladu známé pravděpodobnosti p H = 1+log 2 cos πp 2 počet průchodů nulou Z ve vzorku délky N se řídí binomickým rozdělením ( ) N f(z p ) = (p ) Z (1 p ) N Z Z po použití Bayesovské inverze má pravděpodobnost průchodů nulou Beta-rozdělení f POST (p Z) = (p ) Z α (1 p ) N Z α B(Z +1 α,n Z +1 α) Martin Dlask zlomkové stochastické procesy 3. března 2016 36 / 62
Vylepšená metoda průchodů nulou (zero-crossing revisited) po rozdělení časové řady na L částí (v každé části je Z k průchodů nulou) můžeme vypočítat agregovanou hustotu pravděpodobnosti f L (p) = 1 L L k=1 p Z k α (1 p) N α Z k B(Z k +1 α,n Z k +1 α) ideální rozdělení (optimální segmentace) je na L dílů { L 1, když fl (p) je jednovrcholová pro všechna L = min{l > 1 : f L (p) je jednovrcholová },jinak děĺıme signál na jemnější segmenty do té doby, dokud není agregovaná hustota pravděpodobnosti f L (p) jednovrcholová Martin Dlask zlomkové stochastické procesy 3. března 2016 37 / 62
Vizualizace optimální segmentace Martin Dlask zlomkové stochastické procesy 3. března 2016 38 / 62
Vizualizace optimální segmentace Martin Dlask zlomkové stochastické procesy 3. března 2016 39 / 62
Vizualizace optimální segmentace Martin Dlask zlomkové stochastické procesy 3. března 2016 40 / 62
Vizualizace optimální segmentace Martin Dlask zlomkové stochastické procesy 3. března 2016 41 / 62
Vylepšená metoda průchodů nulou (zero-crossing revisited) výpočet Hurstova exponentu E(H) = 1+ 1 0 f L (p)log 2 cos pπ 2 dp tradiční metoda bodový odhad H pravděpodobnost průchodu nulou je nahrazena relativní četností pojímá signál jako celek absence konfidenčního intervalu nová metoda střední hodnota a konfidenční intervaly pravděpodobnost průchodů nulou má Beta-rozdělení využívá bayesovského přístupu a segmentace signálu realistický konfidenční interval Martin Dlask zlomkové stochastické procesy 3. března 2016 42 / 62
Martin Dlask zlomkové stochastické procesy 3. března 2016 43 / 62
Aplikace fraktální teorie Použití Hurstova exponentu: 1 test generátoru náhodných čísel - nejjednodušší použití 2 ekonomie - závislost vývoje časových řad (indexy akciových trhů) 3 biomedicína - detekce Alzheimerovy choroby ze signálu EEG 4 IT - vytížení počítačových sítí z hlediska množství dat 5 hydrologie - analýza průtoků vodních toků 6 hudba - klasifikace hudebních žánrů Martin Dlask zlomkové stochastické procesy 3. března 2016 44 / 62
Ekonomie - měření závislosti a predikování časových řad Martin Dlask zlomkové stochastické procesy 3. března 2016 45 / 62
Ekonomie - měření závislosti a predikování časových řad použití nové metodiky pro odhad Hurstova exponentu data z období 1991-2015 zkoumané indexy akciových trhů: Evropa - CAC40, DAX, FTSE, SMI Asie - HSI, NIKKEI Severní Amerika - SP500, NASDAQ, TSX zkoumány jejich logaritmické diference (za předpokladu fgn) 2500 2000 1500 x(t) 1000 500 0 1990 1995 2000 2005 2010 2015 t SP500 Martin Dlask zlomkové stochastické procesy 3. března 2016 46 / 62
Ekonomie - měření závislosti a predikování časových řad míra závislosti časové řady je dána Hurstovým exponentem časová řada je predikovatelná, když je Hurstův exponent větší než 0,5 použití nástroje pro zlomkové modelování časových řad (ARFIMA) Martin Dlask zlomkové stochastické procesy 3. března 2016 47 / 62
Ekonomie - měření závislosti a predikování časových řad ekonomické časové řady jsou obtížně predikovatelné většinou je Hurstův exponent bĺızký 0,5 u více závislých časových řad je zapotřebí malý počet dělení H 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 5 10 15 20 25 L SP500 Martin Dlask zlomkové stochastické procesy 3. března 2016 48 / 62
Ekonomie - měření závislosti a predikování časových řad index L EH 95% CI CAC40 5 0.4652 (0.3746;0.5545) DAX 1 0.4790 (0.4556;0.5023) FTSE 3 0.4863 (0.4361;0.5482) HSI 1 0.4974 (0.4746;0.5201) NASDAQ 14 0.5418 (0.4008;0.7136) NIKKEI 3 0.4532 (0.4034;0.5068) SMI 1 0.5087 (0.4863;0.5310) SP500 6 0.4460 (0.3225;0.5628) TSX 12 0.5607 (0.3957;0.6992) Optimální segmentace a konfidenční intervaly Martin Dlask zlomkové stochastické procesy 3. března 2016 49 / 62
ARFIMA modely B... operátor posunutí ARMA(p,q) model ( 1 B i (X t ) = X t i ( p φ i B )X i t = 1+ i=1 q θ i B )e i t i=1 ARIMA(p,d,q) model, kde p N ( ( p 1 φ i B )(1 B) i d X t = 1+ i=1 q θ i B )e i t i=1 Martin Dlask zlomkové stochastické procesy 3. března 2016 50 / 62
ARFIMA modely ARFIMA(p,d,q) model, kde d (0,1) ( ( p 1 φ i B )(1 B) i d X t = 1+ i=1 má stejný zápis jako ARIMA s rozdílem, že (1 B) d = k=0 ( ) d ( B) k = 1 d B + k q θ i B )e i t i=1 parametr d vypočteme z Hurstova exponentu H jako d = H 1/2 d(d 1) B 2 2! Martin Dlask zlomkové stochastické procesy 3. března 2016 51 / 62
Biomedicína - diagnostika Alzheimerovy choroby z EEG Martin Dlask zlomkové stochastické procesy 3. března 2016 52 / 62
Biomedicína - diagnostika Alzheimerovy choroby z EEG analýza 19 kanálů EEG rozdílný Hurstův exponent zdravých subjektů a pacientů trpících Alzheimerovou demencí zdravý člověk (CN) - nižší hodnoty H nemocný člověk (AD) - vyšší hodnoty H nalezeny významné rozdíly mezi oběma skupinami nemoc se u každého projevuje různě metodika zatím neumožňuje přesně určit, jestli konkrétní pacient nemocí trpí Martin Dlask zlomkové stochastické procesy 3. března 2016 53 / 62
Biomedicína - diagnostika Alzheimerovy choroby z EEG 150 nemocný pacient 100 50 ϕ 0 50 100 150 0 500 1000 1500 2000 2500 3000 t 200 150 100 zdravý pacient ϕ 50 0 50 100 0 500 1000 1500 2000 2500 3000 t Martin Dlask zlomkové stochastické procesy 3. března 2016 54 / 62
Biomedicína - diagnostika Alzheimerovy choroby z EEG 1 0.98 0.96 0.94 0.92 E(H) 0.9 0.88 0.86 0.84 0.82 0.8 0 10 20 30 40 50 60 70 80 k 1 0.95 E(H) 0.9 0.85 0.8 0 10 20 30 40 50 60 70 80 k Martin Dlask zlomkové stochastické procesy 3. března 2016 55 / 62
Biomedicína - diagnostika Alzheimerovy choroby z EEG rozsah (range) Hurstova exponentu u nemocných (AD) a zdravých (CN) pacientů na druhém kanálu největší rozdíly většinou nastávají na druhém, třetím a sedmém kanálu 0.2 0.15 R 0.1 0.05 0 1AD CN 2 Martin Dlask zlomkové stochastické procesy 3. března 2016 56 / 62
Aplikace na hudební záznam Martin Dlask zlomkové stochastické procesy 3. března 2016 57 / 62
Aplikace na hudební záznam jaký hudební styl reprezentuje každý ze zvukových signálů? jaký je jejich Hurstův exponent? Martin Dlask zlomkové stochastické procesy 3. března 2016 58 / 62
Aplikace na hudební záznam Martin Dlask zlomkové stochastické procesy 3. března 2016 59 / 62
Aplikace na hudební záznam Martin Dlask zlomkové stochastické procesy 3. března 2016 60 / 62
Závěr Martin Dlask zlomkové stochastické procesy 3. března 2016 61 / 62
Dı ky za pozornost! ;) Martin Dlask zlomkove stochasticke procesy 3. br ezna 2016 62 / 62