Estymatory regresji rangowej oparte na metodzie LASSO Wojciech Rejchel UMK Toruń Wisła 2013
Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie P X, X X R m, Y, Y R
Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie P X, X X R m, Y, Y R X, X - obserwowane wektory cech Y, Y - nieznane zmienne losowe
z jest lepszy od z, jeśli y > y
z jest lepszy od z, jeśli y > y Reguła rangująca f : X X R
z jest lepszy od z, jeśli y > y Reguła rangująca f : X X R jeśli f (x, x ) > 0, to przewidujemy y > y
z jest lepszy od z, jeśli y > y Reguła rangująca f : X X R jeśli f (x, x ) > 0, to przewidujemy y > y φ : R R - funkcja straty
z jest lepszy od z, jeśli y > y Reguła rangująca f : X X R jeśli f (x, x ) > 0, to przewidujemy y > y φ : R R - funkcja straty Minimalizacja ryzyka z funkcją straty φ Q(f ) = E φ [ sign(y Y ) f (X, X ) ]
z jest lepszy od z, jeśli y > y Reguła rangująca f : X X R jeśli f (x, x ) > 0, to przewidujemy y > y φ : R R - funkcja straty Minimalizacja ryzyka z funkcją straty φ Q(f ) = E φ [ sign(y Y ) f (X, X ) ] f = arg min f F Q(f )
Z 1 = (X 1, Y 1 ),..., Z n = (X n, Y n ) - niezależne kopie Z
Z 1 = (X 1, Y 1 ),..., Z n = (X n, Y n ) - niezależne kopie Z Minimalizacja ryzyka empirycznego Q n (f ) = 1 n(n 1) 1 i j n φ [ sign(y i Y j ) f (X i, X j )]
Z 1 = (X 1, Y 1 ),..., Z n = (X n, Y n ) - niezależne kopie Z Minimalizacja ryzyka empirycznego Q n (f ) = 1 n(n 1) 1 i j n φ [ sign(y i Y j ) f (X i, X j )] ˆf = arg min f F Q n(f ), F F
0 1 funkcja straty φ(t) = I (,0) (t)
0 1 funkcja straty φ(t) = I (,0) (t) Ryzyko Q(f ) = P [ sign(y Y ) f (X, X ) < 0 ]
0 1 funkcja straty φ(t) = I (,0) (t) Ryzyko Q(f ) = P [ sign(y Y ) f (X, X ) < 0 ] Najlepsza reguła rangująca f :
0 1 funkcja straty φ(t) = I (,0) (t) Ryzyko Q(f ) = P [ sign(y Y ) f (X, X ) < 0 ] Najlepsza reguła rangująca f : jeśli P(Y > Y X, X ) 1 2, to Z jest lepszy od Z
φ(x) = max(0, 1 x) = (1 x) +
φ(x) = max(0, 1 x) = (1 x) +
Kara LASSO F = {f θ (x, x ) = θ T (x x ) : θ Θ R m}
Kara LASSO F = {f θ (x, x ) = θ T (x x ) : θ Θ R m} Q n (f θ ) = 1 n(n 1) [ 1 sign(y i Y j ) f θ (X i, X j )] + i j
Kara LASSO F = {f θ (x, x ) = θ T (x x ) : θ Θ R m} Q n (f θ ) = 1 n(n 1) ˆf = arg min θ [ 1 sign(y i Y j ) f θ (X i, X j )] + i j Q n (f θ ) + λ n m θ k k=1
Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie P X, X X R m, Y, Y R
Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie P X, X X R m, Y, Y R ψ 1,..., ψ m : X X R - funkcje bazowe
Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie P X, X X R m, Y, Y R ψ 1,..., ψ m : X X R - funkcje bazowe F = { f θ (x, x ) = } m θ k ψ k (x, x ) : θ Θ R m k=1
Minimalizacja ryzyka z funkcją straty φ Q(f ) = E φ [ f (X, X ), Y, Y ] f = arg min f F Q(f )
Minimalizacja ryzyka z funkcją straty φ Q(f ) = E φ [ f (X, X ), Y, Y ] f = arg min f F Q(f ) Minimalizacja ryzyka empirycznego z karą LASSO ˆf = arg min Q n(f θ ) + λ n f θ F m θ k k=1
Minimalizacja ryzyka z funkcją straty φ Q(f ) = E φ [ f (X, X ), Y, Y ] f = arg min f F Q(f ) Minimalizacja ryzyka empirycznego z karą LASSO Q n (f θ ) = ˆf = arg min Q n(f θ ) + λ n f θ F 1 n(n 1) 1 i j n m θ k k=1 φ [ f θ (X i, X j ), Y i, Y j ]
ψ k (x, x ) = x k x k, x, x R m
ψ k (x, x ) = x k x k, x, x R m φ [ f θ (x, x ), y, y ] = [ 1 sign(y y ) f θ (x, x ) ] +
N(θ) = #{k : θ k 0}
N(θ) = #{k : θ k 0} { } arg min Q(f θ ) Q( f ) + γn(θ) f θ F
N(θ) = #{k : θ k 0} { } arg min Q(f θ ) Q( f ) + γn(θ) f θ F Tarigan, van de Geer (2006), van de Geer (2008), Bickel, Ritov, Tsybakov (2009)
Założenia funkcja straty φ jest wypukła ze względu na pierwszą zmienną
Założenia funkcja straty φ jest wypukła ze względu na pierwszą zmienną fθ F x,x f θ (x, x ) K
Założenia funkcja straty φ jest wypukła ze względu na pierwszą zmienną fθ F x,x f θ (x, x ) K 1 k m x,x ψ k (x, x ) C n
Założenia funkcja straty φ jest wypukła ze względu na pierwszą zmienną fθ F x,x f θ (x, x ) K 1 k m x,x ψ k (x, x ) C n ψ(x, x ) = [ψ 1 (x, x ),..., ψ m (x, x )] T
Założenia funkcja straty φ jest wypukła ze względu na pierwszą zmienną fθ F x,x f θ (x, x ) K 1 k m x,x ψ k (x, x ) C n ψ(x, x ) = [ψ 1 (x, x ),..., ψ m (x, x )] T Σ = E ψ(x, X )ψ T (X, X )
Założenia funkcja straty φ jest wypukła ze względu na pierwszą zmienną fθ F x,x f θ (x, x ) K 1 k m x,x ψ k (x, x ) C n ψ(x, x ) = [ψ 1 (x, x ),..., ψ m (x, x )] T Σ = E ψ(x, X )ψ T (X, X ) Najmniejsza wartość własna ρ jest dodatnia
Z prawdopodobieństwem przynajniej 1 1 m Cn Q(ˆf ) Q( f ) inf f θ F { Q(f θ ) Q( f ) + 4λ n K } N(θ) +2λ n K, ρ
Z prawdopodobieństwem przynajniej 1 1 m Cn Q(ˆf ) Q( f ) inf f θ F { Q(f θ ) Q( f ) + 4λ n K } N(θ) +2λ n K, ρ gdzie λ n = 18 2LC n log m n
Z prawdopodobieństwem przynajniej 1 1 m Cn Q(ˆf ) Q( f ) inf f θ F { Q(f θ ) Q( f ) + 4λ n K } N(θ) +2λ n K, ρ gdzie m n d dla d 1 λ n = 18 2LC n log m n
{ } f θ = arg min Q(f θ ) Q( f ) + γ n N(θ) f θ F
{ } f θ = arg min Q(f θ ) Q( f ) + γ n N(θ) f θ F P ( ) ˆθ θ 1 M(n, f θ, f ) 1...
Bickel, P. J., Ritov, Y., Tsybakov, A., B. (2009). Simultaneous analysis of Lasso and Dantzig selector. Annals of Statistics 37, 1705 1732. Tarigan, B., van de Geer, S. (2006). Classifiers of support vector machine type with l 1 penalty. Bernoulli 12, 1045 1076. Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B 58, 267 288. van de Geer, S. (2008). High-dimensional generalized linear models and the Lasso. Annals of Statistics 36, 614 645.