Logistic Regression. Machine Learning CS5824/ECE5424 Bert Huang Virginia Tech

Podobne dokumenty
tum.de/fall2018/ in2357

Linear Classification and Logistic Regression. Pascal Fua IC-CVLab

Bayesian graph convolutional neural networks

Previously on CSCI 4622

Hard-Margin Support Vector Machines

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

Maximum A Posteriori Chris Piech CS109, Stanford University

Gradient Coding using the Stochastic Block Model

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

Inverse problems - Introduction - Probabilistic approach

Horseshoe Priors for Bayesian Neural Networks

deep learning for NLP (5 lectures)

Learning to find good correspondences

reinforcement learning through the optimization lens Benjamin Recht University of California, Berkeley

SPOTKANIE 3: Regresja: Regresja liniowa

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2

Neural Networks (The Machine-Learning Kind) BCS 247 March 2019

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Klasyfikacja naiwny Bayes

TTIC 31190: Natural Language Processing

MATLAB Neural Network Toolbox przegląd

Nonlinear data assimilation for ocean applications

Wprowadzenie do sieci neuronowych i zagadnień deep learning

Wprowadzenie do uczenia maszynowego. Jakub Tomczak

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

DEFINING REGIONS THAT CONTAIN COMPLEX ASTRONOMICAL STRUCTURES

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

The Lorenz System and Chaos in Nonlinear DEs

Wrocław University of Technology. Uczenie głębokie. Maciej Zięba

Symmetry and Geometry of Generalized Higgs Sectors

Metody systemowe i decyzyjne w informatyce

Wprowadzenie do programu RapidMiner Studio 7.6, część 9 Modele liniowe Michał Bereta

Physics-Based Animation 4 Mass-spring systems

Rozpoznawanie obrazów

Machine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna

Krzysztof Trajkowski. Przegląd pakietów do optymalizacji nieliniowej

Machine Learning for Data Science (CS4786) Lecture 8. Kernel PCA & Isomap + TSNE

Predykcja i selekcja zmiennych w klasyfikacji z wieloma etykietami przy użyciu łańcuchów klasyfikatorów i sieci elastycznej

Learning about Language with Normalizing Flows Graham Neubig Language Technologies Institute, Carnegie Mellon University

Materiaªy do zaawans. ekon. Z10

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Drzewa decyzyjne. Inteligentne Obliczenia. Wydział Mechatroniki Politechniki Warszawskiej. Anna Sztyber

MONAA: a Tool for Timed Pattern Matching with Automata-Based Acceleration

Rozpoznawanie obrazów

Arrays -II. Arrays. Outline ECE Cal Poly Pomona Electrical & Computer Engineering. Introduction

WYKŁAD 2. Problem regresji - modele liniowe

3.7 Novelty & Diversity

Stability of Tikhonov Regularization Class 07, March 2003 Alex Rakhlin

archivist: Managing Data Analysis Results

Projekt: Mikro zaprogramowane na sukces!

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Klasyfikacja Support Vector Machines

Uczenie ze wzmocnieniem

ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL

Elementy inteligencji obliczeniowej

Bayesian Phylogenetics

Counting Rules. Counting operations on n objects. Sort, order matters (perms) Choose k (combinations) Put in r buckets. None Distinct.

Label-Noise Robust Generative Adversarial Networks

Supervised Hierarchical Clustering with Exponential Linkage. Nishant Yadav

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Lecture 20. Fraunhofer Diffraction - Transforms

Towards Stability Analysis of Data Transport Mechanisms: a Fluid Model and an Application

Model Perturb-and-MAP Uczenie rozkładów Gibbsa

Entropia Renyi ego, estymacja gęstości i klasyfikacja

Trening: Modyfikacja potencjału elektrycznego rejestrowanego na powierzchni skóry, a pochodzącego od aktywności neuronów kory mózgowej (protokół)

Systemy agentowe. Uczenie ze wzmocnieniem. Jędrzej Potoniec

Tuber radio BT MA407. Instrukcja obsługi User s Manual

Efficient data transmission over dynamical complex networks. Giacomo Baggio Virginia Rutten Guillaume Hennequin Sandro Zampieri

Probabilistic Methods and Statistics. Computer Science 1 st degree (1st degree / 2nd degree) General (general / practical)

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

STRATEGIA DOBORU PARAMETRÓW SIECI NEURONOWEJ W ROZPOZNAWANIU PISMA

Selekcja zmiennych w klasyfikacji z wieloma etykietami

Šukasz Zaniewicz. Support Vector Machines for Uplift Modeling. PhD dissertation. Supervisor: dr hab. in». Szymon Jaroszewicz

Z-ZIP Równania Różniczkowe. Differential Equations

Nonconvex Variance Reduced Optimization with Arbitrary Sampling

TSBB15 Computer Vision

Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

TRANSCOMP XIV INTERNATIONAL CONFERENCE COMPUTER SYSTEMS AIDED SCIENCE, INDUSTRY AND TRANSPORT

Kombinacja jądrowych estymatorów gęstości w klasyfikacji kontynuacja prac

Paired and unpaired image translation with GANs

Rozpoznawanie obrazów

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Machine learning techniques for sidechannel. Annelie Heuser

THE RATE OF GW CAPTURE OF STELLAR-MASS BHS IN NUCLEAR STAR CLUSTERS. Alexander Rasskazov & Bence Kocsis Eotvos University

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

OpenPoland.net API Documentation

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Przegląd metod optymalizacji numerycznej. Krzysztof Malczewski

Probability definition

Sztuczna inteligencja przyszłość czy. teraźniejszość? Emil Dąbrowski

Barbara Adamczyk. Dzieci ulicy. w Polsce i na świecie. Definicja. typologia etiologia

Algorytm FIREFLY. Michał Romanowicz Piotr Wasilewski

Formularz recenzji magazynu. Journal of Corporate Responsibility and Leadership Review Form

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka ADALINE.

WYKORZYSTANIE MODELU LOGITOWEGO DO ANALIZY BEZROBOCIA WŚRÓD OSÓB NIEPEŁNOSPRAWNYCH W POLSCE W 2010 ROKU

WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska

Lecture 18 Review for Exam 1

Transkrypt:

Logistic Regression Machine Learning CS5824/ECE5424 Bert Huang Virginia Tech

Outline Review conditional probability and classification Linear parameterization and logistic function Gradient descent Other optimization methods Regularization

Classification and Conditional Probability Discriminative learning: maximize p(y x) Naive Bayes: learn p(x y) and p(y) Today: parameterize p(y x) and directly learn p(y x)

Parameterizing p(y x) p(y x) :=f f : R d! [0, ] f (x) := + exp( w > x)

Parameterizing p(y x) p(y x) :=f f : R d! [0, ] f (x) := + exp( w > x)

Logistic Function (x) = + exp( x)

Logistic Function (x) = + exp( x) lim x! (x) = lim x! + exp( x) = =.0 (0) = + exp( 0) = + = 0.5 lim x! (x) = lim x! + exp( x) = 0.0

From Features to Probability f (x) := + exp( w > x)

<latexit sha_base64="dvgyh+ritwwzhcoashstxgl2os=">aaadznicjvhdihmxgms/vmr7nyvefembfg6wpmvfcehqvvxksvtrsltbdk0kwbokmg5bvbesc38kf8dn/ae/atheedqvibyghc76tl8mjsrycmpvwvbtxsbt7fvo/eu7+z29h7cgzbhjvmzqcxftyohea8eppwim5zkooxn8frdqz9/4sykru5hkfgbpgmleseoegry+jonz60f/oznb/jtesyxhwvlmd/rfvvwhnuy8hnw6udzjqgd+bads9ejcvwce+bzsiktsfflgy9woyjkxdl+d0untbcurtxeyamzdsnl4u0qvacjqjoz7gxfyeizxhiflkxw9qmwg4gjbgrlevenueuzzvm65n0pfzxcdtzy3wr8zdmjngjjlwk8zfcdjkprfzl2nzlcxf7xsvjvgkzkn6r+dsmbgrmqy4erdnwhje8xafzmg0fccabpwgpkjpdpwgxcdwxguwbyppl/duunoknpbzecvnmohacomqvxcnfvhvd3/lhyv6sofpkanphlazlkivjuimgwraln84ezbjhrrgxauxmy46/7fl62xo0fwin8hzi270sht+fnu8/ldfv42eon3uqhf6jy7re3sceoihn8gtyd9obv2o7dqer5ftw4flechwqsa/gx99hm5</latexit> Likelihood Function y 2 {, +} p w (y x) := ( ( + exp( w > x)) if y =+ ( + exp(+w > x)) if y = ( + exp( w > x)) = + exp( w > x) = + exp( w > x) + exp( w > x) + exp( w > x) = exp( w > x) + exp( w > x) = + exp( w > x) exp( w > x) =(+exp(w > x)) = exp( w > x) + exp( w > x) exp( w > x)

<latexit sha_base64="dvgyh+ritwwzhcoashstxgl2os=">aaadznicjvhdihmxgms/vmr7nyvefembfg6wpmvfcehqvvxksvtrsltbdk0kwbokmg5bvbesc38kf8dn/ae/atheedqvibyghc76tl8mjsrycmpvwvbtxsbt7fvo/eu7+z29h7cgzbhjvmzqcxftyohea8eppwim5zkooxn8frdqz9/4sykru5hkfgbpgmleseoegry+jonz60f/oznb/jtesyxhwvlmd/rfvvwhnuy8hnw6udzjqgd+bads9ejcvwce+bzsiktsfflgy9woyjkxdl+d0untbcurtxeyamzdsnl4u0qvacjqjoz7gxfyeizxhiflkxw9qmwg4gjbgrlevenueuzzvm65n0pfzxcdtzy3wr8zdmjngjjlwk8zfcdjkprfzl2nzlcxf7xsvjvgkzkn6r+dsmbgrmqy4erdnwhje8xafzmg0fccabpwgpkjpdpwgxcdwxguwbyppl/duunoknpbzecvnmohacomqvxcnfvhvd3/lhyv6sofpkanphlazlkivjuimgwraln84ezbjhrrgxauxmy46/7fl62xo0fwin8hzi270sht+fnu8/ldfv42eon3uqhf6jy7re3sceoihn8gtyd9obv2o7dqer5ftw4flechwqsa/gx99hm5</latexit> Likelihood Function y 2 {, +} p w (y x) := ( ( + exp( w > x)) if y =+ ( + exp(+w > x)) if y = =(+exp( yw > x)) ny L(w) = ( + exp( y i w > x i )) i= log L(w) = log( + exp( y i w > x i )) i=

Likelihood Function log L(w) = log( + exp( y i w > x i )) i= ŵ argmin w i= log( + exp( y i w > x i )) := nll(w) negative log likelihood r w nll = y i x i i= + exp( y i w > x i )

<latexit sha_base64="+g8etahcwk5tcp0vtdlfp8jlaxm=">aaadqxicfzhpaxnbfmcn669af6v69diyhlsssksfvrqkxsrthaytznnldjkbhti/lpm3tckwf5x49+6f4e3emyjopiskjfxbmf++n/d4m++lheawwvblk7hx89btot3t+/df/dwuxvn8ynvpafsqlxq5iwllgmu2aa4chzwgezkkthponb89mlzizx6hgwbrtjmle845sat5j2fob7olaltbw/ikpzhwpbmujiodoeul6ex+d6xgxedhulhopzeqy6wpoe7bueorjwyc57oiaecdpd8j+uay8kajgdfatr8lo62m8rsutaevxnphfbywcsqap4jv23fpwuholezy0etfjlmjtxxjhz97z4wzbfxrgjfuaouj0tqfth2mjjdbq6w2r2oqy3+hyqnzm5hjqiibkxr5hqwugdsur4/h3dakyuefoyb7b2caez9m8ataa2kzzf8l9v6cis3lvsbjnthk3ju7bsqq3ful9b4mofqkykau5iyiesqcreumcggtt3ggydccmnbuozxmvk/v8qzyu/9ojqijffyct+9kofftjvhl5vr+fnqjnqisi9bodonfoca0qrz/rd/ql/q4+bv+db8h3y9sgdq8qwsr/pwdnrytya==</latexit> <latexit sha_base64="qh792ymfy03oc8th9ca82zg9k=">aaade3icfzfnixnbeiy749e6fmx6kuxcnkfw4wkircw4eu8rbdzxcjeoadtk2nsh0n3jdkwzs/w7v/wpig30av/xs7scmlglwj65x2qqo6qtjdcyrj+6gsxll+5em3r+vanm7du3+nu3d2prqchtxiy09t5kakdumukog0smbukueknbc8pn3yj0w+ggxbywvm2qrcc7qw0n3xt59rgnxqqqs+h9vtnyqob9yntfmu8vekhf07ne7nlyimmou3rpeymm3v44cjugmyjqry+0czjsdd7he8nlbrq5zm6nordaccusci6h3o5lbwxjmzafkzeakxdjqvlktr96z0izy/3rsbt3tajiyrmfsn2mypi7i2xp/othrv6grivmz8ev0ewjopn5g7jsujr0ouw6ery4youxjfvhv0f5zizj6ee+srltf8lzvmhix3tuwxxymbvwd0dtwkv7v3beyu8sebgkaynvczsvaldv7epwdi0djngucbccixqvs2vn6vy2f+rpk/90qolk94ux48h0znb+ozp7+bu/4tcp88ih0skwfkglwih2rioplivpef5gfwifgufam+nqcgnbbmhlml4ptvgzacrq==</latexit> ŵ r w nll = argmin w i= i= log( + exp( y i w > x i )) := nll(w) + exp( y i w > x i ) r w + exp( y i w > x i ) 0 exp( y i w > x i )y i x i exp( yi w > x i )y i x i r w nll = i= + exp( y i w > x i ) exp( yi w > x i ) + + exp( yi w > x i ) = y i x i = y i x i i= + exp( y i w > x i ) i= + exp( y i w > x i ) r w nll = y i x i = ( p w (y i x i )) y i x i := g i= + exp( y i w > x i ) i=

Gradient Descent 3 2.5 w t+! w t t g t 2.5 e.g., t = t 0.5 0 t = p t 0.5 0 0.5.5 2 t = Image from Murphy Ch. 8

Gradient Descent 3 2.5 w t+! w t t g t 2.5 e.g., t = t 0.5 0 t = p t 0.5 0 0.5.5 2 t = Image from Murphy Ch. 8

Line Search t = argmin nll(w g) nll(w g)

Line Search 3 exact line searching 2.5 t = argmin nll(w g) 2.5 0.5 nll(w g) 0 0.5 0 0.5.5 2 Image from Murphy Ch. 8

Momentum Heavy ball method s t g t + t s t w t w t + t s t Momentum term retains velocity from previous steps Avoids sharp turns

Second-Order Optimization Newton s method Approximate function with quadratic and minimize quadratic exactly Requires computing Hessian (matrix of second derivatives) Various approximation methods (e.g., L-BFGS)

Regularization ny L(w) =p(w) ( + exp( y i w > x i )) posterior i= p(w) =N 0, I prior log L(w) = 2 w > w + log( + exp( y i w > x i )) neg log posterior i= (regularized nll) r w nll = w y i x i gradient + exp( y i w > x i ) i=

Summary Review conditional probability and classification Linear parameterization and logistic function Gradient descent Other optimization methods Regularization