Estymatory regresji rangowej oparte na metodzie LASSO

Podobne dokumenty
Własności estymatorów regresji porządkowej z karą LASSO

Maszyny wektorów podpierajacych w regresji rangowej

Jądrowe klasyfikatory liniowe

Estymacja gęstości prawdopodobieństwa metodą selekcji modelu

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

WYKŁAD 2. Problem regresji - modele liniowe

Stosowana Analiza Regresji

Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Prawdopodobieństwo i statystyka r.

Metody systemowe i decyzyjne w informatyce

2. Empiryczna wersja klasyfikatora bayesowskiego

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Rozpoznawanie obrazów

Rozpoznawanie obrazów

WYKŁAD 2 i 3. Podstawowe pojęcia związane z prawdopodobieństwem. Podstawy teoretyczne. autor: Maciej Zięba. Politechnika Wrocławska

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Metody systemowe i decyzyjne w informatyce

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Algorytmy MCMC (Markowowskie Monte Carlo) dla skokowych procesów Markowa

Metody systemowe i decyzyjne w informatyce

Numeryczne metody optymalizacji Optymalizacja w kierunku. informacje dodatkowe

Algorytmy MCMC i ich zastosowania statystyczne

METODY ESTYMACJI PUNKTOWEJ. nieznanym parametrem (lub wektorem parametrów). Przez X będziemy też oznaczać zmienną losową o rozkładzie

Prawdopodobieństwo i statystyka

7. Maszyny wektorów podpierajacych SVMs

O zgodności procedur jednoczesnego testowania zastosowanych do problemu selekcji zmiennych w modelu liniowym

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

Agata Boratyńska Statystyka aktuarialna... 1

Estymacja w regresji nieparametrycznej

Metoda najmniejszych kwadratów

Uogólniona Metoda Momentów

Wykład 6 Estymatory efektywne. Własności asymptotyczne estym. estymatorów

Metody eksploracji danych 2. Metody regresji. Piotr Szwed Katedra Informatyki Stosowanej AGH 2017

Estymatory kwantylowe i estymacja kwantyli

x x 1. Przedmiot identyfikacji System x (1) x (2) : x (s) a 1 a 2 : a s mierzone, a = zestaw współczynników konkretyzujacych F ()

STATYSTYKA MATEMATYCZNA

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Konferencja Statystyka Matematyczna Wisła 2013

Matematyka ubezpieczeń majątkowych r.

Redukcja wariancji w metodach Monte-Carlo

Prawdopodobieństwo i statystyka

Wprowadzenie do uczenia maszynowego. Jakub Tomczak

Parametr Λ w populacji ubezpieczonych ma rozkład dany na półosi dodatniej gęstością: 3 f

PRZEDZIAŁ UFNOŚCI DLA FRAKCJI. Ryszard Zieliński. XXXVIII Konferencja Zastosowań Matematyki Zakopane Kościelisko 8-15 września 2009

Zadanie 1. Liczba szkód N w ciągu roku z pewnego ryzyka ma rozkład geometryczny: k =

Estymacja parametru rozkładu Rayleigha i logistycznego w terminach k-tych wartości rekordowych

Składki zaufania z zastosowaniem niesymetrycznych funkcji strat

SPOTKANIE 4: Klasyfikacja: Regresja logistyczna

Statystyka i eksploracja danych

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Własności porządkowe w modelu proporcjonalnych szans

WYKŁAD 3. Klasyfikacja: modele probabilistyczne

Predykcja i selekcja zmiennych w klasyfikacji z wieloma etykietami przy użyciu łańcuchów klasyfikatorów i sieci elastycznej

Matematyka ubezpieczeń majątkowych r.

Rozpoznawanie obrazów

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni

Podstawowe modele probabilistyczne

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Ważne rozkłady i twierdzenia c.d.

Metoda największej wiarogodności

Estymatory nieobciążone

Matematyka ubezpieczeń majątkowych r.

SPOTKANIE 3: Regresja: Regresja liniowa

STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009

EGZAMIN MAGISTERSKI, czerwiec 2016 Matematyka w ekonomii i ubezpieczeniach

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Zadania z Rachunku Prawdopodobieństwa III - 1

Regresyjne metody łączenia klasyfikatorów

Monte Carlo, bootstrap, jacknife

Metody systemowe i decyzyjne w informatyce

Prawdopodobieństwo i statystyka r.



Estymacja parametrów rozkładu cechy

ROZDZIAŁ 1. Rachunek funkcyjny

Metody Ekonometryczne

Metody systemowe i decyzyjne w informatyce

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Przykład zastosowania optymalnej alokacji w estymacji frakcji







Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Zawansowane modele wyborów dyskretnych

Strategie kwantowe w teorii gier

Kryteria selekcji modelu w eksperymentalnym rozpoznawaniu sygnałów zdekomponowanych w bazach falkowych

Statystyka w przykładach

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Transkrypt:

Estymatory regresji rangowej oparte na metodzie LASSO Wojciech Rejchel UMK Toruń Wisła 2013

Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie P X, X X R m, Y, Y R

Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie P X, X X R m, Y, Y R X, X - obserwowane wektory cech Y, Y - nieznane zmienne losowe

z jest lepszy od z, jeśli y > y

z jest lepszy od z, jeśli y > y Reguła rangująca f : X X R

z jest lepszy od z, jeśli y > y Reguła rangująca f : X X R jeśli f (x, x ) > 0, to przewidujemy y > y

z jest lepszy od z, jeśli y > y Reguła rangująca f : X X R jeśli f (x, x ) > 0, to przewidujemy y > y φ : R R - funkcja straty

z jest lepszy od z, jeśli y > y Reguła rangująca f : X X R jeśli f (x, x ) > 0, to przewidujemy y > y φ : R R - funkcja straty Minimalizacja ryzyka z funkcją straty φ Q(f ) = E φ [ sign(y Y ) f (X, X ) ]

z jest lepszy od z, jeśli y > y Reguła rangująca f : X X R jeśli f (x, x ) > 0, to przewidujemy y > y φ : R R - funkcja straty Minimalizacja ryzyka z funkcją straty φ Q(f ) = E φ [ sign(y Y ) f (X, X ) ] f = arg min f F Q(f )

Z 1 = (X 1, Y 1 ),..., Z n = (X n, Y n ) - niezależne kopie Z

Z 1 = (X 1, Y 1 ),..., Z n = (X n, Y n ) - niezależne kopie Z Minimalizacja ryzyka empirycznego Q n (f ) = 1 n(n 1) 1 i j n φ [ sign(y i Y j ) f (X i, X j )]

Z 1 = (X 1, Y 1 ),..., Z n = (X n, Y n ) - niezależne kopie Z Minimalizacja ryzyka empirycznego Q n (f ) = 1 n(n 1) 1 i j n φ [ sign(y i Y j ) f (X i, X j )] ˆf = arg min f F Q n(f ), F F

0 1 funkcja straty φ(t) = I (,0) (t)

0 1 funkcja straty φ(t) = I (,0) (t) Ryzyko Q(f ) = P [ sign(y Y ) f (X, X ) < 0 ]

0 1 funkcja straty φ(t) = I (,0) (t) Ryzyko Q(f ) = P [ sign(y Y ) f (X, X ) < 0 ] Najlepsza reguła rangująca f :

0 1 funkcja straty φ(t) = I (,0) (t) Ryzyko Q(f ) = P [ sign(y Y ) f (X, X ) < 0 ] Najlepsza reguła rangująca f : jeśli P(Y > Y X, X ) 1 2, to Z jest lepszy od Z

φ(x) = max(0, 1 x) = (1 x) +

φ(x) = max(0, 1 x) = (1 x) +

Kara LASSO F = {f θ (x, x ) = θ T (x x ) : θ Θ R m}

Kara LASSO F = {f θ (x, x ) = θ T (x x ) : θ Θ R m} Q n (f θ ) = 1 n(n 1) [ 1 sign(y i Y j ) f θ (X i, X j )] + i j

Kara LASSO F = {f θ (x, x ) = θ T (x x ) : θ Θ R m} Q n (f θ ) = 1 n(n 1) ˆf = arg min θ [ 1 sign(y i Y j ) f θ (X i, X j )] + i j Q n (f θ ) + λ n m θ k k=1

Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie P X, X X R m, Y, Y R

Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie P X, X X R m, Y, Y R ψ 1,..., ψ m : X X R - funkcje bazowe

Z = (X, Y ), Z = (X, Y ) - niezależne wektory losowe o tym samym rozkładzie P X, X X R m, Y, Y R ψ 1,..., ψ m : X X R - funkcje bazowe F = { f θ (x, x ) = } m θ k ψ k (x, x ) : θ Θ R m k=1

Minimalizacja ryzyka z funkcją straty φ Q(f ) = E φ [ f (X, X ), Y, Y ] f = arg min f F Q(f )

Minimalizacja ryzyka z funkcją straty φ Q(f ) = E φ [ f (X, X ), Y, Y ] f = arg min f F Q(f ) Minimalizacja ryzyka empirycznego z karą LASSO ˆf = arg min Q n(f θ ) + λ n f θ F m θ k k=1

Minimalizacja ryzyka z funkcją straty φ Q(f ) = E φ [ f (X, X ), Y, Y ] f = arg min f F Q(f ) Minimalizacja ryzyka empirycznego z karą LASSO Q n (f θ ) = ˆf = arg min Q n(f θ ) + λ n f θ F 1 n(n 1) 1 i j n m θ k k=1 φ [ f θ (X i, X j ), Y i, Y j ]

ψ k (x, x ) = x k x k, x, x R m

ψ k (x, x ) = x k x k, x, x R m φ [ f θ (x, x ), y, y ] = [ 1 sign(y y ) f θ (x, x ) ] +

N(θ) = #{k : θ k 0}

N(θ) = #{k : θ k 0} { } arg min Q(f θ ) Q( f ) + γn(θ) f θ F

N(θ) = #{k : θ k 0} { } arg min Q(f θ ) Q( f ) + γn(θ) f θ F Tarigan, van de Geer (2006), van de Geer (2008), Bickel, Ritov, Tsybakov (2009)

Założenia funkcja straty φ jest wypukła ze względu na pierwszą zmienną

Założenia funkcja straty φ jest wypukła ze względu na pierwszą zmienną fθ F x,x f θ (x, x ) K

Założenia funkcja straty φ jest wypukła ze względu na pierwszą zmienną fθ F x,x f θ (x, x ) K 1 k m x,x ψ k (x, x ) C n

Założenia funkcja straty φ jest wypukła ze względu na pierwszą zmienną fθ F x,x f θ (x, x ) K 1 k m x,x ψ k (x, x ) C n ψ(x, x ) = [ψ 1 (x, x ),..., ψ m (x, x )] T

Założenia funkcja straty φ jest wypukła ze względu na pierwszą zmienną fθ F x,x f θ (x, x ) K 1 k m x,x ψ k (x, x ) C n ψ(x, x ) = [ψ 1 (x, x ),..., ψ m (x, x )] T Σ = E ψ(x, X )ψ T (X, X )

Założenia funkcja straty φ jest wypukła ze względu na pierwszą zmienną fθ F x,x f θ (x, x ) K 1 k m x,x ψ k (x, x ) C n ψ(x, x ) = [ψ 1 (x, x ),..., ψ m (x, x )] T Σ = E ψ(x, X )ψ T (X, X ) Najmniejsza wartość własna ρ jest dodatnia

Z prawdopodobieństwem przynajniej 1 1 m Cn Q(ˆf ) Q( f ) inf f θ F { Q(f θ ) Q( f ) + 4λ n K } N(θ) +2λ n K, ρ

Z prawdopodobieństwem przynajniej 1 1 m Cn Q(ˆf ) Q( f ) inf f θ F { Q(f θ ) Q( f ) + 4λ n K } N(θ) +2λ n K, ρ gdzie λ n = 18 2LC n log m n

Z prawdopodobieństwem przynajniej 1 1 m Cn Q(ˆf ) Q( f ) inf f θ F { Q(f θ ) Q( f ) + 4λ n K } N(θ) +2λ n K, ρ gdzie m n d dla d 1 λ n = 18 2LC n log m n

{ } f θ = arg min Q(f θ ) Q( f ) + γ n N(θ) f θ F

{ } f θ = arg min Q(f θ ) Q( f ) + γ n N(θ) f θ F P ( ) ˆθ θ 1 M(n, f θ, f ) 1...

Bickel, P. J., Ritov, Y., Tsybakov, A., B. (2009). Simultaneous analysis of Lasso and Dantzig selector. Annals of Statistics 37, 1705 1732. Tarigan, B., van de Geer, S. (2006). Classifiers of support vector machine type with l 1 penalty. Bernoulli 12, 1045 1076. Tibshirani, R. (1996). Regression shrinkage and selection via the lasso. Journal of the Royal Statistical Society: Series B 58, 267 288. van de Geer, S. (2008). High-dimensional generalized linear models and the Lasso. Annals of Statistics 36, 614 645.