Maszyny wektorów podpierajacych w regresji rangowej

Podobne dokumenty
Estymatory regresji rangowej oparte na metodzie LASSO

Własności estymatorów regresji porządkowej z karą LASSO

Jądrowe klasyfikatory liniowe

UCZENIE MASZYNOWE III - SVM. mgr inż. Adam Kupryjanow

7. Maszyny wektorów podpierajacych SVMs

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

10. Redukcja wymiaru - metoda PCA

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Regresyjne metody łączenia klasyfikatorów

KLASYFIKACJA TEKSTUR ZA POMOCĄ SVM MASZYNY WEKTORÓW WSPIERAJĄCYCH

Multiklasyfikatory z funkcją kompetencji

Metody systemowe i decyzyjne w informatyce

PRZEWIDYWANIE WŁAŚCIWOŚCI PRODUKTU Z WYKORZYSTANIEM UCZENIA MASZYN

WYKŁAD: Perceptron Rosenblatta. Maszyny wektorów podpierających (SVM). Empiryczne reguły bayesowskie. Zaawansowane Metody Uczenia Maszynowego

SVM: Maszyny Wektorów Podpieraja cych

Opisy przedmiotów do wyboru

Analiza zawartości dokumentów za pomocą probabilistycznych modeli graficznych

Jak trudne jest numeryczne całkowanie (O złożoności zadań ciągłych)

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

strona 1 / 12 Autor: Walesiak Marek Publikacje:

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

O zgodności procedur jednoczesnego testowania zastosowanych do problemu selekcji zmiennych w modelu liniowym

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

Entropia Renyi ego, estymacja gęstości i klasyfikacja

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

ŁĄCZENIE RÓWNOLEGŁE MODELI KLASYFIKACJI OTRZYMANYCH METODĄ WEKTORÓW NOŚNYCH

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Wstęp do przetwarzania języka naturalnego. Wykład 11 Maszyna Wektorów Nośnych

ZASTOSOWANIE TECHNIK DATA MINING W BADANIACH NAUKOWYCH

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Zastosowanie optymalizacji rojem cząstek (PSO) w procesie uczenia wielowarstwowej sieci neuronowej w problemie lokalizacyjnym, kontynuacja badań

Model Pasywnego Trasera w Lokalnie Ergodycznym Środowisku

Budowa modeli klasyfikacyjnych o skośnych warunkach

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Metody systemowe i decyzyjne w informatyce

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

2. Empiryczna wersja klasyfikatora bayesowskiego

MODELOWANIE CZASU TRWANIA MODEL PROPORCJONALNEGO HAZARDU COXA

WYKORZYSTANIE REGRESJI NIEPARAMETRYCZNEJ DO MODELOWANIA WIELKOŚCI OSZCZĘDNOŚCI GOSPODARSTW DOMOWYCH

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Redukcja wymiarowości i selekcja cech w zadaniach klasyfikacji i regresji z wykorzystaniem uczenia maszynowego

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Odporność statystyk według Ryszarda Zielińskiego a porządki stochastyczne

Auditorium classes. Lectures

MATLAB Neural Network Toolbox przegląd

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Optymalizacja ciągła

KLASYFIKACJA. Słownik języka polskiego

Własności porządkowe w modelu proporcjonalnych szans

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński

Estymacja parametru rozkładu Rayleigha i logistycznego w terminach k-tych wartości rekordowych

1 Klasyfikator bayesowski

XXXIII Konferencja Statystyka Matematyczna

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

System bonus-malus z mechanizmem korekty składki

Generowanie zbioru reguł asocjacyjnych i decyzyjnych ze statystycznie reprezentatywnym wsparciem i anty-wsparciem

SPOTKANIE 9: Metody redukcji wymiarów

Metody Obliczeniowe w Nauce i Technice

METODY WYZNACZANIA WSPÓŁCZYNNIKA NIEPEŁNOŚCI WIEDZY W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ

Teoria systemów uczacych się i wymiar Vapnika-Chervonenkisa

Elementy inteligencji obliczeniowej

The data reporting such indexes for a number of years (about twelve years of such data are were fitted to a logistic curve:

SPOTKANIE 3: Regresja: Regresja liniowa

Oracle Data Mining 10g

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Procesy stochastyczne

Estimated data of three ICT indexes available from GUSM

Rozmyte drzewa decyzyjne. Łukasz Ryniewicz Metody inteligencji obliczeniowej

Popularne klasyfikatory w pakietach komputerowych

Procesy stochastyczne

ANALIZA WŁAŚCIWOŚCI FILTRU PARAMETRYCZNEGO I RZĘDU

STATYSTYKA MATEMATYCZNA

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Proces rezerwy w czasie dyskretnym z losową stopą procentową i losową składką

Dynamika rozwoju rynku mediów i poligrafii

Widzenie komputerowe (computer vision)

STOCHASTYCZNY MODEL BEZPIECZEŃSTWA OBIEKTU W PROCESIE EKSPLOATACJI

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

Badania w sieciach złożonych

Modele uporządkowań zmiennych losowych w charakteryzacjach rozkładów prawdopodobieństwa, estymacji i miarach zależności.

Klasteryzacja i klasyfikacja danych spektrometrycznych

HARMONOGRAM GODZINOWY ORAZ PUNKTACJA ECTS CZTEROLETNICH STUDIÓW DOKTORANCKICH

Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Monte Carlo, bootstrap, jacknife

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Transkrypt:

Maszyny wektorów podpierajacych w regresji rangowej Uniwersytet Mikołaja Kopernika

Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie X X R d, Y R

Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie X X R d, Y R X, X - obserwowane wektory cech Y, Y - nieznane zmienne losowe

Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie X X R d, Y R X, X - obserwowane wektory cech Y, Y - nieznane zmienne losowe Z jest lepszy od Z, jeśli Y > Y

Reguła rangująca f : X X R

Reguła rangująca f : X X R jeśli f (x, x ) > 0, to przewidujemy y > y

Reguła rangująca f : X X R jeśli f (x, x ) > 0, to przewidujemy y > y Minimalizacja ryzyka L(f ) = P( sgn(y Y ) f (X, X ) < 0) arg min f F L(f )

Z 1 = (X 1, Y 1 ),..., Z n = (X n, Y n ) - niezależne kopie Z

Z 1 = (X 1, Y 1 ),..., Z n = (X n, Y n ) - niezależne kopie Z Minimalizacja ryzyka empirycznego L n (f ) = 1 n(n 1) I[ sgn(y i Y j ) f (X i, X j ) < 0] i j arg min f F L n(f )

Wypukłe ryzyko ψ - wypukła funkcja straty

Wypukłe ryzyko ψ - wypukła funkcja straty Q(f ) = E ψ[ sgn(y Y ) f (X, X )] f = arg min f F Q(f )

Wypukłe ryzyko ψ - wypukła funkcja straty Q(f ) = E ψ[ sgn(y Y ) f (X, X )] f = arg min f F Q(f ) Minimalizacja ryzyka empirycznego Q n (f ) = 1 n(n 1) ψ f (Z i, Z j ), i j gdzie ψ f (z, z ) = ψ[sgn(y y ) f (x, x )]

Wypukłe ryzyko ψ - wypukła funkcja straty Q(f ) = E ψ[ sgn(y Y ) f (X, X )] f = arg min f F Q(f ) Minimalizacja ryzyka empirycznego Q n (f ) = 1 n(n 1) ψ f (Z i, Z j ), i j gdzie ψ f (z, z ) = ψ[sgn(y y ) f (x, x )] f n = arg min f F Q n(f )

Statystyczna klasyfikacja (X, Y ) - wektor losowy, Y { 1, 1}

Statystyczna klasyfikacja (X, Y ) - wektor losowy, Y { 1, 1} f (x) = w, x + b

Statystyczna klasyfikacja (X, Y ) - wektor losowy, Y { 1, 1} f (x) = w, x + b jeśli f (x) 0, to przewidujemy y = 1

Przypadek liniowo separowalny dla i = 1,..., n { w, xi + b 0, gdy y i = 1 w, x i + b < 0, gdy y i = 1

Przypadek liniowo separowalny dla i = 1,..., n { w, xi + b 0, gdy y i = 1 w, x i + b < 0, gdy y i = 1

Przypadek liniowo separowalny

Przypadek liniowo separowalny min w,b w 2 z warunkami y i ( w, x i + b) 1 dla i = 1,..., n

Przypadek liniowo separowalny min w,b w 2 z warunkami y i ( w, x i + b) 1 dla i = 1,..., n w 0 = n i=1 α 0 i y ix i, b 0 = w 0,x(1)+x( 1) 2

Przypadek liniowo separowalny min w,b w 2 z warunkami y i ( w, x i + b) 1 dla i = 1,..., n w 0 = n i=1 α 0 i y ix i, max α b 0 = w 0,x(1)+x( 1) 2 n α i 1 n α i α j y i y j x i, x j 2 i=1 i,j=1 z warunkami n i=1 α i y i = 0 oraz α i 0, i = 1,..., n

Przypadek liniowo separowalny min w,b w 2 z warunkami y i ( w, x i + b) 1 dla i = 1,..., n w 0 = n i=1 α 0 i y ix i, max α b 0 = w 0,x(1)+x( 1) 2 n α i 1 n α i α j y i y j x i, x j 2 i=1 i,j=1 z warunkami n i=1 α i y i = 0 oraz α i 0, i = 1,..., n f (x) = n αi 0 y i x i, x + b 0 i=1

Przypadek liniowo nieseparowalny ξ 1,..., ξ n

Przypadek liniowo nieseparowalny ξ 1,..., ξ n dla i = 1,..., n ( ) { w, xi + b 1 ξ i, gdy y i = 1 w, x i + b 1 + ξ i, gdy y i = 1

Przypadek liniowo nieseparowalny ξ 1,..., ξ n dla i = 1,..., n ( ) { w, xi + b 1 ξ i, gdy y i = 1 w, x i + b 1 + ξ i, gdy y i = 1 Minimalizacja z warunkami ( ) w 2 + C n ξ i i=1

Liniowe reguły rangujące jeśli w, x > w, x, to przewidujemy y > y

Liniowe reguły rangujące jeśli w, x > w, x, to przewidujemy y > y Liniowa separowalność w, X i > w, X j, gdy Y i > Y j

Liniowe reguły rangujące jeśli w, x > w, x, to przewidujemy y > y Liniowa separowalność w, X i > w, X j, gdy Y i > Y j X ij = X i X j, Y ij = Y i Y j

Liniowe reguły rangujące jeśli w, x > w, x, to przewidujemy y > y Liniowa separowalność w, X i > w, X j, gdy Y i > Y j X ij = X i X j, Y ij = Y i Y j w, X ij > 0, gdy Y ij > 0

Minimalizacja ryzyka empirycznego C Q n (f ) = max [0, 1 sign(y i Y j )f (X i, X j )]+ f 2 n(n 1) i j

Minimalizacja ryzyka empirycznego C Q n (f ) = max [0, 1 sign(y i Y j )f (X i, X j )]+ f 2 n(n 1) i j

Ryzyko i ryzyko względne Dla dowolnego 0 < α < 1 ( P Q(f n ) Q n (f n ) + ) D(F, ψ) ln α 1 n β 1 α

Ryzyko i ryzyko względne Dla dowolnego 0 < α < 1 ( P Q(f n ) Q n (f n ) + ) D(F, ψ) ln α 1 n β 1 α P ( Q(f n ) Q(f ) + ) D(F, ψ) ln α 1 n β 1 α

Ryzyko i ryzyko względne Dla dowolnego 0 < α < 1 ( P Q(f n ) Q n (f n ) + ) D(F, ψ) ln α 1 n β 1 α P ( Q(f n ) Q(f ) + β = 1/2 - Clemencon(2008) ) D(F, ψ) ln α 1 n β 1 α

Użyte jądra Liniowe K(x, x ) = x, x

Użyte jądra Liniowe K(x, x ) = x, x Wielomianowe stopnia trzeciego K(x, x ) = x, x 3

Użyte jądra Liniowe K(x, x ) = x, x Wielomianowe stopnia trzeciego K(x, x ) = x, x 3 Gaussowskie K(x, x ) = exp ( 1 ) 2 x x 2

Wytrzymałość betonu na zgniatanie Dane: 1030 obserwacji, 8 cech L(1) L(10) W(1) W(10) G(1) G(10) n=100 0,198 0,196 0,199 0,196 0,179 0,185 n=300 0,191 0,189 - - 0,165 0,179

Ceny mieszkań w Bostonie Dane: 506 obserwacji, 13 cech L(1) L(10) W(1) W(10) G(1) G(10) n=100 0,153 0,157 0,148 0,153 0,133 0,132 n=300 0,132 0,133 - - 0,107 0,123

Jakość wina czerwonego i białego Dane: 13 cech, ponad 1600 i 5000 obserwacji Czerwone L(1) L(10) W(1) W(10) G(1) G(10) n=100 0,226 0,227 0,281 0,271 0,257 0,285 n=300 0,214 0,216 - - 0,232 0,270 Białe n=100 0,265 0,266 0,292-0,282 0,305 n=300 0,253 0,249 - - 0,268 0,303

M. A. Arcones, E. Gine, U-processes indexed by Vapnik-Chervonenkis classes of functions with applications to asymptotics and bootstrap of U-statistics with estimated parameters, Stochastic Process. Appl., vol. 52, pp. 17-38, 1994. P. L. Bartlett, O. Bousquet, S. Mendelson, Local Rademacher complexities, Ann. Statist., vol. 33, pp. 1497-1537, 2005. P. L. Bartlett, M. I. Jordan, J. D. McAuliffe, Convexity, Classification, and Risk Bounds, Journal of the American Statistical Association, vol. 101, pp. 138-156, 2006. S. Clemençon, G. Lugosi, N. Vayatis, Ranking and empirical minimization of U-statistics, Ann. Statist., vol. 36, pp. 844-874, 2008. C. Cortes, V. N. Vapnik, Support vector networks, Machine Learning, vol. 20, pp. 273 297, 1995. P. Cortez, A. Cerdeira, F. Almeida, F. Matos, J. Reis, Modeling wine preferences by data mining from physicochemical properties, Decision Support Systems, vol. 47, Wojciech pp. Rejchel 547 553, Maszyny 2009. wektorów podpierajacych w regresji rangowej

E. Dimitriadou, K. Hornik, F. Leisch, D. Meyer, A. Weingessel, e1071: Misc Functions of the Department of Statistics (e1071), TU Wien, 2010. http://cran.r-project.org/package=e1071 A. Frank, A. Asuncion, UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science, 2010. V. H. de la Pena, E. Gine, Decoupling: from dependence to independence. Springer-Verlag, New York, 1999. C. Scovel, I. Steinwart, Fast rates for support vector machines using Gaussian kernels, Ann. Statist., vol. 35, pp. 575 607, 2007. V. N. Vapnik, Statistical learning theory, Wiley, New York, 1998. I. C. Yeh, Modeling of strength of high performance concrete using artificial neural networks, Cement and Concrete Research, vol. 28, pp. 1797 1808, 1998.