Własności estymatorów regresji porządkowej z karą LASSO Uniwersytet Mikołaja Kopernika w Toruniu Uniwersytet Warszawski Badania sfinansowane ze środków Narodowego Centrum Nauki przyznanych w ramach finansowania stażu po uzyskaniu stopnia naukowego doktora, DEC-2014/12/S/ST1/00344.
Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie P X, X X, Y, Y Y R
Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie P X, X X, Y, Y Y R X, X - obserwowane wektory cech Y, Y - nieznane zmienne losowe
z jest lepszy niż z, jeśli y > y
z jest lepszy niż z, jeśli y > y Reguła rangująca f : X X R
z jest lepszy niż z, jeśli y > y Reguła rangująca f : X X R jeśli f (x, x ) > 0, to przewidujemy y > y
z jest lepszy niż z, jeśli y > y Reguła rangująca f : X X R jeśli f (x, x ) > 0, to przewidujemy y > y Minimalizacja ryzyka Q(f ) = E φ [ sign(y Y ) f (X, X ) ]
z jest lepszy niż z, jeśli y > y Reguła rangująca f : X X R jeśli f (x, x ) > 0, to przewidujemy y > y Minimalizacja ryzyka Q(f ) = E φ [ sign(y Y ) f (X, X ) ] φ : R R - funkcja straty
z jest lepszy niż z, jeśli y > y Reguła rangująca f : X X R jeśli f (x, x ) > 0, to przewidujemy y > y Minimalizacja ryzyka Q(f ) = E φ [ sign(y Y ) f (X, X ) ] φ : R R - funkcja straty f = arg min f F Q(f )
Z 1 = (X 1, Y 1 ),..., Z n = (X n, Y n ) - niezależne kopie Z
Z 1 = (X 1, Y 1 ),..., Z n = (X n, Y n ) - niezależne kopie Z Minimalizacja ryzyka empirycznego Q n (f ) = 1 n(n 1) 1 i j n φ [ sign(y i Y j ) f (X i, X j )]
Z 1 = (X 1, Y 1 ),..., Z n = (X n, Y n ) - niezależne kopie Z Minimalizacja ryzyka empirycznego Q n (f ) = 1 n(n 1) 1 i j n φ [ sign(y i Y j ) f (X i, X j )] arg min f F Q n(f ), F F
Kara LASSO ψ 1,..., ψ m : X X R - funkcje bazowe
Kara LASSO ψ 1,..., ψ m : X X R - funkcje bazowe { } m F = f θ (x, x ) = θ k ψ k (x, x ) : θ Θ R m k=1
Kara LASSO ψ 1,..., ψ m : X X R - funkcje bazowe F = { f θ (x, x ) = } m θ k ψ k (x, x ) : θ Θ R m k=1 X = R m ψ k (x, x ) = x k x k
Kara LASSO ψ 1,..., ψ m : X X R - funkcje bazowe F = { f θ (x, x ) = } m θ k ψ k (x, x ) : θ Θ R m k=1 X = R m ψ k (x, x ) = x k x k f θ (x, x ) = θ T (x x )
Kara LASSO Q n (f θ ) = 1 n(n 1) φ [sign(y i Y j ) f θ (X i, X j )] i j
Kara LASSO Q n (f θ ) = 1 n(n 1) φ [sign(y i Y j ) f θ (X i, X j )] i j fˆθ = arg min θ Q n (f θ ) + λ n m θ k k=1
Kara LASSO Q n (f θ ) = 1 n(n 1) φ [sign(y i Y j ) f θ (X i, X j )] i j fˆθ = arg min θ Q n (f θ ) + λ n m θ k k=1 Tarigan, van de Geer (2006), van de Geer (2008), Bickel, Ritov, Tsybakov (2009)
Założenia 1 funkcja straty φ jest wypukła
Założenia 1 funkcja straty φ jest wypukła 2 1 k m x,x n ψ k (x, x ) log m
Założenia 1 funkcja straty φ jest wypukła 2 1 k m x,x n ψ k (x, x ) log m 3 (F, )
Założenia 1 funkcja straty φ jest wypukła 2 1 k m x,x n ψ k (x, x ) log m 3 (F, ) B>0 fθ F f θ f 2 B [ ] Q(f θ ) Q( f )
Założenia - warunek zgodności (WZ) S {1,..., m} oraz S = {1,..., m}\s
Założenia - warunek zgodności (WZ) S {1,..., m} oraz S = {1,..., m}\s θ S : (θ S ) k = θ k I(k S), k = 1,..., m
Założenia - warunek zgodności (WZ) S {1,..., m} oraz S = {1,..., m}\s θ S : (θ S ) k = θ k I(k S), k = 1,..., m θ = θ S + θ S
Założenia - warunek zgodności (WZ) S {1,..., m} oraz S = {1,..., m}\s θ S : (θ S ) k = θ k I(k S), k = 1,..., m θ = θ S + θ S Zbiór S spełnia warunek zgodności, o ile istnieje stała A(S) > 0 taka, że θ S 2 1 f θ 2 S A(S) dla wszystkich θ R m spełniających θ S 1 3 θ S 1.
Założenia - warunek zgodności (WZ) ψ(x, x ) = [ψ 1 (x, x ),..., ψ m (x, x )] T
Założenia - warunek zgodności (WZ) ψ(x, x ) = [ψ 1 (x, x ),..., ψ m (x, x )] T Σ = E ψ(x, X )ψ T (X, X )
Założenia - warunek zgodności (WZ) ψ(x, x ) = [ψ 1 (x, x ),..., ψ m (x, x )] T Σ = E ψ(x, X )ψ T (X, X ) f θ 2 := Ef 2 θ (X, X ) = θ T Σθ
Założenia - warunek zgodności (WZ) ψ(x, x ) = [ψ 1 (x, x ),..., ψ m (x, x )] T Σ = E ψ(x, X )ψ T (X, X ) f θ 2 := Ef 2 θ (X, X ) = θ T Σθ Najmniejsza wartość własna ρ jest dodatnia
Założenia - warunek zgodności (WZ) ψ(x, x ) = [ψ 1 (x, x ),..., ψ m (x, x )] T Σ = E ψ(x, X )ψ T (X, X ) f θ 2 := Ef 2 θ (X, X ) = θ T Σθ Najmniejsza wartość własna ρ jest dodatnia θ R m θ 2 2 f θ 2 ρ
Wyrocznia S θ = {1 k m : θ k 0}
Wyrocznia S θ = {1 k m : θ k 0} Θ 1 = {θ Θ : S θ spełnia (WZ)}
Wyrocznia S θ = {1 k m : θ k 0} Θ 1 = {θ Θ : S θ spełnia (WZ)} θ = arg min θ Θ 1 { Q(f θ ) Q( f ) + λ2 n S θ A 2 (θ) }
Z prawdopodobieństwem 1 1 m 2 Q(fˆθ ) Q( f ) C 1 [ ] Q(f θ ) Q( f ) + λ2 n S θ A 2 (θ )
Z prawdopodobieństwem 1 1 m 2 Q(fˆθ ) Q( f ) C 1 [ ] Q(f θ ) Q( f ) + λ2 n S θ A 2 (θ ) λ n = C 2 log m n
Z prawdopodobieństwem 1 1 m 2 Q(fˆθ ) Q( f ) C 1 [ m n d dla d 1 ] Q(f θ ) Q( f ) + λ2 n S θ A 2 (θ ) λ n = C 2 log m n
Z prawdopodobieństwem 1 1 m 2 [ ] ˆθ θ 1 C 1 Q(f θ ) Q( f ) + λ2 n S θ A 2 (θ )
Z prawdopodobieństwem 1 1 m 2 [ ] ˆθ θ 1 C 1 Q(f θ ) Q( f ) + λ2 n S θ A 2 (θ ) ˆθ θ 1 log m n
Bickel, P. J., Ritov, Y., Tsybakov, A., B. (2009). Simultaneous analysis of Lasso and Dantzig selector. Annals of Statistics 37, 1705 1732. Bühlmann, P., van de Geer, S. (2011). Statistics for high-dimensional data: methods, theory and applications. Springer. Tarigan, B., van de Geer, S. (2006). Classifiers of support vector machine type with l 1 penalty. Bernoulli 12, 1045 1076. Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B 58, 267 288. van de Geer, S. (2008). High-dimensional generalized linear models and the Lasso. Annals of Statistics 36, 614 645.