Maszyny wektorów podpierajacych w regresji rangowej Uniwersytet Mikołaja Kopernika
Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie X X R d, Y R
Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie X X R d, Y R X, X - obserwowane wektory cech Y, Y - nieznane zmienne losowe
Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie X X R d, Y R X, X - obserwowane wektory cech Y, Y - nieznane zmienne losowe Z jest lepszy od Z, jeśli Y > Y
Reguła rangująca f : X X R
Reguła rangująca f : X X R jeśli f (x, x ) > 0, to przewidujemy y > y
Reguła rangująca f : X X R jeśli f (x, x ) > 0, to przewidujemy y > y Minimalizacja ryzyka L(f ) = P( sgn(y Y ) f (X, X ) < 0) arg min f F L(f )
Z 1 = (X 1, Y 1 ),..., Z n = (X n, Y n ) - niezależne kopie Z
Z 1 = (X 1, Y 1 ),..., Z n = (X n, Y n ) - niezależne kopie Z Minimalizacja ryzyka empirycznego L n (f ) = 1 n(n 1) I[ sgn(y i Y j ) f (X i, X j ) < 0] i j arg min f F L n(f )
Wypukłe ryzyko ψ - wypukła funkcja straty
Wypukłe ryzyko ψ - wypukła funkcja straty Q(f ) = E ψ[ sgn(y Y ) f (X, X )] f = arg min f F Q(f )
Wypukłe ryzyko ψ - wypukła funkcja straty Q(f ) = E ψ[ sgn(y Y ) f (X, X )] f = arg min f F Q(f ) Minimalizacja ryzyka empirycznego Q n (f ) = 1 n(n 1) ψ f (Z i, Z j ), i j gdzie ψ f (z, z ) = ψ[sgn(y y ) f (x, x )]
Wypukłe ryzyko ψ - wypukła funkcja straty Q(f ) = E ψ[ sgn(y Y ) f (X, X )] f = arg min f F Q(f ) Minimalizacja ryzyka empirycznego Q n (f ) = 1 n(n 1) ψ f (Z i, Z j ), i j gdzie ψ f (z, z ) = ψ[sgn(y y ) f (x, x )] f n = arg min f F Q n(f )
Statystyczna klasyfikacja (X, Y ) - wektor losowy, Y { 1, 1}
Statystyczna klasyfikacja (X, Y ) - wektor losowy, Y { 1, 1} f (x) = w, x + b
Statystyczna klasyfikacja (X, Y ) - wektor losowy, Y { 1, 1} f (x) = w, x + b jeśli f (x) 0, to przewidujemy y = 1
Przypadek liniowo separowalny dla i = 1,..., n { w, xi + b 0, gdy y i = 1 w, x i + b < 0, gdy y i = 1
Przypadek liniowo separowalny dla i = 1,..., n { w, xi + b 0, gdy y i = 1 w, x i + b < 0, gdy y i = 1
Przypadek liniowo separowalny
Przypadek liniowo separowalny min w,b w 2 z warunkami y i ( w, x i + b) 1 dla i = 1,..., n
Przypadek liniowo separowalny min w,b w 2 z warunkami y i ( w, x i + b) 1 dla i = 1,..., n w 0 = n i=1 α 0 i y ix i, b 0 = w 0,x(1)+x( 1) 2
Przypadek liniowo separowalny min w,b w 2 z warunkami y i ( w, x i + b) 1 dla i = 1,..., n w 0 = n i=1 α 0 i y ix i, max α b 0 = w 0,x(1)+x( 1) 2 n α i 1 n α i α j y i y j x i, x j 2 i=1 i,j=1 z warunkami n i=1 α i y i = 0 oraz α i 0, i = 1,..., n
Przypadek liniowo separowalny min w,b w 2 z warunkami y i ( w, x i + b) 1 dla i = 1,..., n w 0 = n i=1 α 0 i y ix i, max α b 0 = w 0,x(1)+x( 1) 2 n α i 1 n α i α j y i y j x i, x j 2 i=1 i,j=1 z warunkami n i=1 α i y i = 0 oraz α i 0, i = 1,..., n f (x) = n αi 0 y i x i, x + b 0 i=1
Przypadek liniowo nieseparowalny ξ 1,..., ξ n
Przypadek liniowo nieseparowalny ξ 1,..., ξ n dla i = 1,..., n ( ) { w, xi + b 1 ξ i, gdy y i = 1 w, x i + b 1 + ξ i, gdy y i = 1
Przypadek liniowo nieseparowalny ξ 1,..., ξ n dla i = 1,..., n ( ) { w, xi + b 1 ξ i, gdy y i = 1 w, x i + b 1 + ξ i, gdy y i = 1 Minimalizacja z warunkami ( ) w 2 + C n ξ i i=1
Liniowe reguły rangujące jeśli w, x > w, x, to przewidujemy y > y
Liniowe reguły rangujące jeśli w, x > w, x, to przewidujemy y > y Liniowa separowalność w, X i > w, X j, gdy Y i > Y j
Liniowe reguły rangujące jeśli w, x > w, x, to przewidujemy y > y Liniowa separowalność w, X i > w, X j, gdy Y i > Y j X ij = X i X j, Y ij = Y i Y j
Liniowe reguły rangujące jeśli w, x > w, x, to przewidujemy y > y Liniowa separowalność w, X i > w, X j, gdy Y i > Y j X ij = X i X j, Y ij = Y i Y j w, X ij > 0, gdy Y ij > 0
Minimalizacja ryzyka empirycznego C Q n (f ) = max [0, 1 sign(y i Y j )f (X i, X j )]+ f 2 n(n 1) i j
Minimalizacja ryzyka empirycznego C Q n (f ) = max [0, 1 sign(y i Y j )f (X i, X j )]+ f 2 n(n 1) i j
Ryzyko i ryzyko względne Dla dowolnego 0 < α < 1 ( P Q(f n ) Q n (f n ) + ) D(F, ψ) ln α 1 n β 1 α
Ryzyko i ryzyko względne Dla dowolnego 0 < α < 1 ( P Q(f n ) Q n (f n ) + ) D(F, ψ) ln α 1 n β 1 α P ( Q(f n ) Q(f ) + ) D(F, ψ) ln α 1 n β 1 α
Ryzyko i ryzyko względne Dla dowolnego 0 < α < 1 ( P Q(f n ) Q n (f n ) + ) D(F, ψ) ln α 1 n β 1 α P ( Q(f n ) Q(f ) + β = 1/2 - Clemencon(2008) ) D(F, ψ) ln α 1 n β 1 α
Użyte jądra Liniowe K(x, x ) = x, x
Użyte jądra Liniowe K(x, x ) = x, x Wielomianowe stopnia trzeciego K(x, x ) = x, x 3
Użyte jądra Liniowe K(x, x ) = x, x Wielomianowe stopnia trzeciego K(x, x ) = x, x 3 Gaussowskie K(x, x ) = exp ( 1 ) 2 x x 2
Wytrzymałość betonu na zgniatanie Dane: 1030 obserwacji, 8 cech L(1) L(10) W(1) W(10) G(1) G(10) n=100 0,198 0,196 0,199 0,196 0,179 0,185 n=300 0,191 0,189 - - 0,165 0,179
Ceny mieszkań w Bostonie Dane: 506 obserwacji, 13 cech L(1) L(10) W(1) W(10) G(1) G(10) n=100 0,153 0,157 0,148 0,153 0,133 0,132 n=300 0,132 0,133 - - 0,107 0,123
Jakość wina czerwonego i białego Dane: 13 cech, ponad 1600 i 5000 obserwacji Czerwone L(1) L(10) W(1) W(10) G(1) G(10) n=100 0,226 0,227 0,281 0,271 0,257 0,285 n=300 0,214 0,216 - - 0,232 0,270 Białe n=100 0,265 0,266 0,292-0,282 0,305 n=300 0,253 0,249 - - 0,268 0,303
M. A. Arcones, E. Gine, U-processes indexed by Vapnik-Chervonenkis classes of functions with applications to asymptotics and bootstrap of U-statistics with estimated parameters, Stochastic Process. Appl., vol. 52, pp. 17-38, 1994. P. L. Bartlett, O. Bousquet, S. Mendelson, Local Rademacher complexities, Ann. Statist., vol. 33, pp. 1497-1537, 2005. P. L. Bartlett, M. I. Jordan, J. D. McAuliffe, Convexity, Classification, and Risk Bounds, Journal of the American Statistical Association, vol. 101, pp. 138-156, 2006. S. Clemençon, G. Lugosi, N. Vayatis, Ranking and empirical minimization of U-statistics, Ann. Statist., vol. 36, pp. 844-874, 2008. C. Cortes, V. N. Vapnik, Support vector networks, Machine Learning, vol. 20, pp. 273 297, 1995. P. Cortez, A. Cerdeira, F. Almeida, F. Matos, J. Reis, Modeling wine preferences by data mining from physicochemical properties, Decision Support Systems, vol. 47, Wojciech pp. Rejchel 547 553, Maszyny 2009. wektorów podpierajacych w regresji rangowej
E. Dimitriadou, K. Hornik, F. Leisch, D. Meyer, A. Weingessel, e1071: Misc Functions of the Department of Statistics (e1071), TU Wien, 2010. http://cran.r-project.org/package=e1071 A. Frank, A. Asuncion, UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science, 2010. V. H. de la Pena, E. Gine, Decoupling: from dependence to independence. Springer-Verlag, New York, 1999. C. Scovel, I. Steinwart, Fast rates for support vector machines using Gaussian kernels, Ann. Statist., vol. 35, pp. 575 607, 2007. V. N. Vapnik, Statistical learning theory, Wiley, New York, 1998. I. C. Yeh, Modeling of strength of high performance concrete using artificial neural networks, Cement and Concrete Research, vol. 28, pp. 1797 1808, 1998.