ROBUST 2014 Zdeněk Fabián Ústav informatiky AVČR Praha January 19, 2014
Starověk x 1,..., x n data průměry
Starověk x 1,..., x n data průměry aritm., geom., harm.
Novověk Model F a skórová funkce Ψ F inferenční funkce: náhodný výběr (x 1,...x n ) z F F θ : n (x i µ) = 0 k=1 vlivová funkce: n Ψ F (x k ; θ) = 0 k=1 Ψ F (x k ; θ) pro pevné k: relativní vliv pozorovaného x k na odhadovanou charakteristiku výběru
2 typy skórových funkcí Klasická statistika: Model F θ s hustotou f (x; θ) Robustní statistika: Ψ clasic (x; θ) = log f (x; θ) θ Fisherova skórová funkce Struktura s parametry polohy a měřítka Ψ robust (x; µ, σ) = ψ bounded ( x µ σ )
Třetí typ skórové funkce na R Základní identita µ log g(y µ) = 1 g(y µ) d g(y µ) dy
Třetí typ skórové funkce na R Základní identita µ log g(y µ) = 1 g(y µ) d g(y µ) dy S G (y) = g (y) g(y)
Třetí typ skórové funkce na R Základní identita µ log g(y µ) = 1 g(y µ) d g(y µ) dy S G (y) = g (y) g(y) S G (y) je charakteristikou rozdělení Pearson (1895) Typy rozdělení S G (y) = ay+b cy 2 +dy+v Hampel et al. (1986) S G vlivová fce rozdělení Jurečková (2012) skórová funkce rozdělení
Typy funkcí s definičním oborem reálná přímka typ funkce NE sinh(u) NP u ON e u 1 NO 1 e u OO tanh(u/2) OR 2u 1+u 2
jako skórové funkce rozdělení typ S G (u) g(u) rozdělení NE e u e u 2 1 2K 1 (1) e 1 2 (eu +e u ) NP u 1 2π e 1 2 u2 hyperbolic normal ON e u 1 e u e eu Gumbel? NO 1 e u e u e e u extreme value OO e u 1 logistic OR e u (1+e u ) 2 e u +1 2u 1 1+u 2 π(1+u 2 ) S G (u) = g (u) g(u) Cauchy
Parametrické skórové funkce rozdělení zobecnění s podmínkou S G (u; α, ν) = 0 typ S G (u; α, ν) g(u; α, ν) rodina α NE 2 (eu νe u ) + ρ e α 2 (eu +νe u ) hyperbolic NP u e 1 2 u2 normal ON α(e u 1) e αu e αeu gamma NO α(1 e u ) e αu e αe u extreme val. OO α eu 1 e ναu OR e u +1/ν 2αu 1 1+u 2 (1+u 2 ) α [e u +1/ν] (1+ν)α beta Cauchy
Parametrické skórové funkce rozdělení zobecnění s podmínkou S G (u; α, ν) = 0 typ S G (u; α, ν) g(u; α, ν) rodina α NE 2 (eu νe u ) + ρ e α 2 (eu +νe u ) hyperbolic NP u e 1 2 u2 normal ON α(e u 1) e αu e αeu gamma NO α(1 e u ) e αu e αe u extreme val. OO α eu 1 e ναu OR e u +1/ν 2αu 1 1+u 2 (1+u 2 ) α [e u +1/ν] (1+ν)α beta u = y µ σ Cauchy
Obecná parametrická skórová funkce rozdělení na R Pro g(y; θ) s nosičem R (Fabián, 2001) S G (y; θ) = 1 d g(y; θ) g(y; θ) dy
Obecná parametrická skórová funkce rozdělení na R Pro g(y; θ) s nosičem R (Fabián, 2001) např. S G (y; θ) = 1 d g(y; θ) g(y; θ) dy 1 g(y; p, q) = B(p, q) (e y + 1) p+q S G (y; p, q) = qey p e y + 1 S G (y; p, q) = 0 y = log p q e py
Vlastnosti S G (y; θ) momenty ESG k (θ) existují
Vlastnosti S G (y; θ) momenty ESG k (θ) existují a jsou jednoduchými funkcemi θ obecná momentová metoda
Vlastnosti S G (y; θ) momenty ESG k (θ) existují a jsou jednoduchými funkcemi θ obecná momentová metoda g(y) = 1 e py B(p,q) (e y +1), S p+q G (y) = qey p e y +1 n qe y i p e y = 0 i + 1 i=1 n ( ) qe y i p 2 pq e y = i + 1 p + q + 1 i=1
Vlastnosti S G (y; θ) momenty ESG k (θ) = SG k (θ)f (y; θ dy existují a jsou jednoduchými funkcemi θ obecná momentová metoda
Vlastnosti S G (y; θ) momenty ESG k (θ) = SG k (θ)f (y; θ dy existují a jsou jednoduchými funkcemi θ obecná momentová metoda typická hodnota: mód y : S G (y; θ) = 0
Vlastnosti S G (y; θ) momenty ESG k (θ) = SG k (θ)f (y; θ dy existují a jsou jednoduchými funkcemi θ obecná momentová metoda typická hodnota: mód y : S G (y; θ) = 0 variabilita rozdělení (z analogie s Cramér-Rao větou): score variance ω 2 = 1 ES 2 G kde ESG 2 je Fisherova informace pro mód normální rozdělení S Φ (x; µ, σ) = x µ σ 2, x = µ, ω = σ
Proč se to takhle ve statistice nedělá Funkce S F (x) = f (x) f (x) je pro rozdělení F s nosičem X = R divná: f (x) = e x, X = (0, ) f (x) = 1, X = (0, 1)
Proč se to takhle ve statistice nedělá Funkce S F (x) = f (x) f (x) je pro rozdělení F s nosičem X = R divná: f (x) = e x, X = (0, ) f (x) = 1, X = (0, 1) Nápad: Skórová funkce rozdělení na X = R existuje, ale je dána jiným vzorcem, který závisí na X
Skórová funkce rozdělení na X = R F má nosič X η : X R je hladká rostoucí funkce Y R G prototyp, S G X na X : X = η 1 (Y ), F = G η f (x) = g(η(x))η (x)
Skórová funkce rozdělení na X = R F má nosič X η : X R je hladká rostoucí funkce Y R G prototyp, S G X na X : X = η 1 (Y ), F = G η f (x) = g(η(x))η (x) S F (x) = S G (η(x))
Skórová funkce rozdělení na X = R Dvě ekvivalentní vyjádření: S F (x) = S G (η(x)) S F (x) = 1 ( ) d 1 f (x) dx η (x) f (x)
Věta: η je dáno jednoznačně Pokud vzorec pro transformovanou hustotu f (x) = g(η(x))η (x) obsahuje Jacobian nějaké transformace z X na R, je to ona
Věta: η je dáno jednoznačně Pokud vzorec pro transformovanou hustotu f (x) = g(η(x))η (x) obsahuje Jacobian nějaké transformace z X na R, je to ona Příklady: f (x) = 1 2π cos 2 x e 1 2 tan2 x f (x) = 1 2π 1 1 + x 2 e 1 2 arctan2 x
η je dáno jednoznačně V ostatní případech to nejfrekventovanější η : (0, ) R : η(x) = log x
η je dáno jednoznačně V ostatní případech to nejfrekventovanější η : (0, ) R : η(x) = log x Exponenciální f (x) = 1 2 e x/2 f (x) = [xf (x)] 1 x
η je dáno jednoznačně V ostatní případech to nejfrekventovanější η : (0, ) R : η(x) = log x Exponenciální f (x) = 1 2 e x/2 f (x) = [xf (x)] 1 x T F (x) = 1 d f (x) dx [xf (x)] = x 2 1
η je dáno jednoznačně v ostatní případech to nejfrekventovanější η : (0, ) R : η(x) = log x Exponenciální f (x) = 1 2 e x/2 f (x) = [xf (x)] 1 x T F (x) = 1 d f (x) dx [xf (x)] = x 2 1
Příklady g(y) 1 normal e 1 2 y 2 2π S G (y) extreme value e y e e y 1 e y Gumbel e y e ey e y 1 logistic e y (1+e y ) 2 y e y 1 e y +1 f (x) S F (x) lognormal 1 e 1 2 log2 x 2πx log x 1 Fréchet e 1/x 1 1/x x 1 2 exponential x xe x x 1 1 x 1 log-logistic x x+1 x (1+x) 2
Rozdělení na intervalu X = (0, 1) nejfrekventovanější η(x) = log x 1 x 1 Johnson U B f (x) = e 1 2 log2 x 1 x S 2πx(1 x) F (x) = log x 1 x
Rozdělení na intervalu X = (0, 1) nejfrekventovanější η(x) = log x 1 x 1 Johnson U B f (x) = e 1 2 log2 x 1 x S 2πx(1 x) F (x) = log x 1 x X = ( π/2, π/2) η(x) = tan x S F (x) = 1 d f (x) dx [cos2 xf (x)] = sin 2x cos 2 x f (x) f (x) S F (x) f (x) g(y) S G (y) 1 tan x c cos 2 x e 1 2 tan2 x 1 e 1 2 y 2 y 2π 1 sin x c cos 2 e 1/ cos x 1 x 2K 1 (1) e 1+y 2 y 1+y 2 sin 2x k cos 2 1 x c k e kx 1 1 c k e k tan 1 y 2y k 1+y 2 1+y 2
t-score a S F Pro parametrická rozdělení T F (x; θ) = 1 d f (x; θ) dx ( ) 1 η f (x; θ) (x) x : T F (x; θ) = 0 a skórová funkce rozdělení je S F (x; θ) = η (x )T F (x; θ)
t-score a S F Pro parametrická rozdělení T F (x; θ) = 1 d f (x; θ) dx ( ) 1 η f (x; θ) (x) x : T F (x; θ) = 0 a skórová funkce rozdělení je S F (x; θ) = η (x )T F (x; θ) Pro exponenciální f (x; τ) = 1 τ e x/τ je S F (x; τ) = 1 τ [x τ 1] zde je x = τ = η 1 (µ) a S F (x; τ) je Fisherův skór pro τ
Vlastnosti S F K regulární f na X je S F určena jednoznačně Skalární funkce reflektující vlastnosti rozdělení Typická hodnota x : T F (x; θ) = 0 je x = η 1 (y ), y obraz módu G Je-li θ = (x,...), je S F (x; θ) Fisherův skór pro x S F rozdělení s těžkými chvosty omezená
Co přináší S F nového pro popis modelu A. Systematika rozdělení: podle chování S F na koncích intervalu X
Co přináší S F nového pro popis modelu A. Systematika rozdělení: podle chování S F na koncích intervalu X B. Nové numerické charakteristiky: x, ω 2
Co přináší S F nového pro popis modelu A. Systematika rozdělení: podle chování S F na koncích intervalu X B. Nové numerické charakteristiky: x, ω 2 C. Nové funkce charakterizující rozdělení: S 2 F (x), S F (x) = ds F (x) dx
Co přináší S F nového pro popis modelu A. Systematika rozdělení: podle chování S F na koncích intervalu X B. Nové numerické charakteristiky: x, ω 2 C. Nové funkce charakterizující rozdělení: S 2 F (x), S F (x) = ds F (x) dx D. Vzdálenosti pravděpodobnostních měr a metrika ve výběrovém prostoru D(P, Q) = E P (S P S Q ) 2 d(x 1, x 2 ) = S F (x 1 ) S F (x 2 )
B. Numerické charakteristiky Poloha na ose x: těžiště x : S F (x) = 0
B. Numerické charakteristiky Poloha na ose x: těžiště x : S F (x) = 0 ES 2 F (Fisherova) informace (pro x )
B. Numerické charakteristiky Poloha na ose x: těžiště x : S F (x) = 0 ES 2 F (Fisherova) informace (pro x ) Míra variability: score variance ω 2 = 1 ES 2 F
B. Numerické charakteristiky Poloha na ose x: těžiště x : S F (x) = 0 ES 2 F (Fisherova) informace (pro x ) Míra variability: score variance ω 2 = 1 ES 2 F F f (x) m 1 x ω 2 c Weibull x ( x τ )c e ( x τ )c τγ( 1 c + 1) τ τ 2 /c 2 Pareto c/x c+1 c c+1 c+2 beta-prime 1 Fréchet x p 1 B(p,q) (x+1) p+q c 1 p q 1 c p q c 3 p(p+q+1) q 3 c x ( τ x )c e ( τ x )c τγ(1 1 c ) τ τ 2 /c 2
Variabilita pomocí ω 2 Rozdělení s různými x a týmž ω 2 = 1
Co přináší S F nového pro statistiku Málo dat: Neznáme model, čistá data: neparametrické metody
Co přináší S F nového pro statistiku Málo dat: Neznáme model, čistá data: neparametrické metody Neznáme model, kontaminovaná data: metody robustní statistiky
Co přináší S F nového pro statistiku Málo dat: Neznáme model, čistá data: neparametrické metody Neznáme model, kontaminovaná data: metody robustní statistiky Známe model, čistá data: parametrické metody klasické statistiky
Co přináší S F nového pro statistiku Málo dat: Neznáme model, čistá data: neparametrické metody Neznáme model, kontaminovaná data: metody robustní statistiky Známe model, čistá data: parametrické metody klasické statistiky Známe model, kontaminovaná data: parametrické metody založené na skalárním skóru
S F jako inferenční funkce pro bodové odhady Score moment rovnice ˆθ SM : 1 n n SF k (x i; θ) = ESF k (θ) i=1 k = 1,..., m Estimátor robustní pro všechny parametry když S F je omezená
S F jako inferenční funkce pro bodové odhady Score moment rovnice ˆθ SM : 1 n n SF k (x i; θ) = ESF k (θ) i=1 k = 1,..., m Estimátor robustní pro všechny parametry když S F je omezená Výsledky pro rozdílné modely jdou porovnávat pomocí ˆx F = x F (ˆθ), ˆω F = ω F (ˆθ)
S F jako inferenční funkce pro bodové odhady Score moment rovnice ˆθ SM : 1 n n SF k (x i; θ) = ESF k (θ) i=1 k = 1,..., m Estimátor robustní pro všechny parametry když S F je omezená Výsledky pro rozdílné modely jdou porovnávat pomocí ˆx F = x F (ˆθ), ˆω F = ω F (ˆθ) Konfidenční intervaly pro ˆx pomocí S F (x 0 ) S F (ˆx F )
Těžiště: i S F(x i ; θ) = 0 exponential lognormal Weibull Pareto beta-prime Johnson ( x i τ 1) = 0 log(xi /τ) = 0 (xi /τ) c 1) = 0 ˆτ = x ˆτ = x g ˆτ = ( xi c ) 1/c ˆx = x h (1 x /x i ) = 0 qxi p x i +1 = 0 ˆx = log ( xi (1 τ) (1 x i )τ xi x i +1 1 x i +1 ) = 0 ˆx = Π n i=1 x i 1 x i
ˆx a std(ˆx ) Pareto f (x; c) = kde x = (c + 1)/c c x c+1 S F (x; c) (1 x x )
ˆx a std(ˆx ) Pareto f (x; c) = kde x = (c + 1)/c c x c+1 S F (x; c) (1 x x )
F s neomezenou S F Pro G(y µ) z R (Huber, Ronchetti, 2007) u pro x u ψ(x) = S G (x) pro u < x < v v pro x v Nejde pro vektorový parametr, ale jde pro S F (x) při libovolném X v = ˆx + r MADN(x) F = 0.9F 0 (ω = 1) + 0.1F(ω = k)
B. Složitější úlohy Kovarianční koeficienty: r S = n i=1 S X (x i ; ˆθ)S Y (y i ; ˆθ) Lineární regrese: ε i = y i (α 0 + α 1 x i ) 1 n n Sε 2 (ε i ; ˆθ) = min. i=1 Skalární skór časové řady {S F (X t )}
Korelační koeficient
Lineární regrese pro data z R + (beta-prime)
Lineární regrese pro data z R +
Lineární regrese pro data z R +
y i = a 0 + a 1 x i + ε i a 1 = 0.25, a 0 = 2.5 ε i beta-prime Weibull method â 1 â 0 std(â 1 ) std(â 0 ) least-squares 0.25619-1.51736 0.07274 1.04505 Huber 0.25104-2.57570 0.01836 0.32221 score 0.250017-2.39620 0.00223 0.28503 Pareto Huber 0.24860-1.94217 0.01525 0.30225 score 0.25031-2.25081 0.00489 0.07948
Skalární skór S F (X t ) časové řady X t
Odhad spektrální hustoty X t = 0.4X t 1 + Z t with beta-prime noise with different ω Full line: S F (X t ), dashed line: log X t, dotted line: true
Odhad spektrální hustoty X t = 0.4X t 1 + Z t with beta-prime noise with different ω Full line: S F (X t ), dashed line: log X t, dotted line: normal Z t
Statistické metody při kontaminaci známého modelu (x 1,..., x n ) z F θ ψ F (x; θ) je S F (x; θ) nebo její huberizovaná verze data jako latentní hodnoty (ψ F (x 1, θ),..., ψ F (x n, θ)) odhady ˆθ n, ˆx = x (ˆθ n ),... Upravená data pro další operace [ψ F (x 1 ; ˆθ n ),..., ψ F (x n ; ˆθ n )] nový model Fθ 2...
Reference. Fabián Z.: Score function of distribution and revival of the moment method (accepted in Communication in Statistics, Theory-Method) Děkuji za pozornost