1
Regularyzacja jako metoda doboru zmiennych objaśniających do modelu statystycznego. 2
Plan prezentacji 1. Wstęp 2. Część teoretyczna - Algorytm podziału i ograniczeń - Regularyzacja 3. Opis wyników badania empirycznego 4. Podsumowanie i wnioski 3
Czas szacowania modeli Liczba zmiennych objaśniających: p=200 Liczba kombinacji: 2 p 1 Czas szacowania 1 modelu: t = 0,0001 s Czas obliczeń: T 5 10 48 lat Od Big Bang minęło: ~14 10 9 lat 4
Metoda podziału i ograniczeń I 1 I 2 I 3 I 4 I 5 I 0 - pełen model Zmienne objaśniające: z 1, z 2, z 3, z 4, z 5 I n - instancja I 12 I 13 I 14 I 15 I 12 I 13 I 14 I 15 f I n - wartość funkcji celu f I 0 = B B - upper bound f I 1 B eksploruj I 1 I 132 I 134 I 135 I 132 I 134 I 135 5
Funkcja celu Regresja liniowa: RSS Regresja logistyczna: score Chi-kwadrat S = U 2 0 I 1 0 U β = I n β = E β log L β X β score β log f x 1,, x n 2 informacja Fishera 6
Wady i zalety Zalety: + szybkość działania + możliwość uzyskania określonej liczby najlepszych modeli danej klasy + brak zachłanności Wady: wykładnicza złożoność obliczeniowa możliwość zapętlenia algorytmu heurystyka 7
Regularyzacja Regularyzacja L2 regresja grzbietowa Regularyzacja L1 regresja lasso Regularyzacja elastic net 8
Idea regularyzacji Funkcja straty zależna od jakości prognoz modelu Λ β Funkcja kary na wartości parametrów 9
Regresja grzbietowa 1943 r. Andriej Tohinow 1970 r. Arthur Hoerl i Robert Kennard β MNK = X T X 1 X T y β ridge = X T X + Γ T Γ 1 X T y 10
Regresja grzbietowa = argmin β RSS 11
Regresja grzbietowa β ridge = argmin β RSS + λ 2 p j=1 β j 2 p β ridge = argmin β RSS p. w. j=1 β j 2 t2 12
Regresja lasso 13
Regularyzacja elastic net Dobór zmiennych wbudowany w proces estymacji Algorytm działa nawet wtedy, gdy liczba obserwacji jest mniejsza niż liczba predyktorów Do modeli włączane są wiązki zmiennych objaśniających 14
Regularyzacja elastic net 15
Porównanie regularyzacji β MNK = argmin β n i=1 y i β 0 p j=1 β j x ij 2 β ridge = argmin β n i=1 y i β 0 p j=1 β j x ij 2 + λ 2 p j=1 β j 2 β lasso = argmin β n i=1 y i β 0 p j=1 β j x ij 2 + λ 1 p j=1 β j β EN = argmin β n i=1 y i β 0 p j=1 β j x ij 2 + λ 1 p j=1 β j + λ 2 p j=1 β j 2 16
Regresja grzbietowa p β ridge = argmin β RSS p. w. j=1 β j 2 t2 17
Regresja lasso p β lasso = argmin β RSS p. w. j=1 β j t 1 18
Elastic net β EN = argmin β RSS + λ α p j=1 β j + 1 α p j=1 β j 2 19
Badanie empiryczne Cel Porównanie modeli zbudowanych na zmiennych otrzymanych z algorytmu podziału i ograniczeń z modelami regularyzacyjnymi. 20
Badanie empiryczne Regresja logistyczna - modele prawdopodobieństwa defaultu kredytów gotówkowych w fazie behawioralnej Około 800 tys. obserwacji 218 zmiennych objaśniających 21
40% Ewolucja ryzyka portfela 35% 30% 25% 20% 15% 10% 1980-01 1985-01 1990-01 1995-01 2000-01 2005-01 2010-01 Okno obserwacji Długoterminowa średnia w oknie obserwacji Default rate 22
Przebieg modelowania Podział zbioru na treningowy / walidacyjny w proporcji 70/30 Kategoryzacja zmiennych na podstawie entropii Obliczenie standaryzowanych logitów 23
Kryteria porównań Moc predykcyjna: indeks Giniego statystyka Hosmera-Lemeshowa statystyka Kołmogorowa-Smirnowa Brier Score Współliniowość predyktorów: Variance Inflation Factor Condition Index Czas estymacji 24
Oszacowane modele Rozmiar: od 5 do 13 predyktorów Algorytm branch and bound: 100 najlepszych zestawów zmiennych Regresja lasso: 100 modeli dla różnych wartości parametru lambda Elastic net: różne wartości lambda, różne wartości alfa dla każdej kombinacji 100 modeli 25
Oszacowane modele Branch and bound 900 modeli Regresja lasso 900 modeli Regularyzacja elastic net 14400 modeli 26
Indeks Giniego 27
Statystyka Kołmogorowa-Smirnowa 28
Statystyka Hosmera-Lemeshowa 29
Brier Score 30
Indeks Giniego Indeks Giniego na zbiorze treningowym 75% 70% 65% 60% 55% 50% 5 6 7 8 9 10 11 12 13 Liczba zmiennych objaśniających w modelu Branch Lasso Elastic net 31
Współliniowość Metoda Statystyka Liczba modeli ze współliniowością Zakres wartości Branch and bound VIF 2 1 10 Lasso VIF 900 46 1000 Elastic net VIF 900 46 4000 Branch and bound CI 0 1 7 Lasso CI 900 20 400 Elastic net CI 900 20-100 32
Czas estymacji (s) Czas estymacji (s) Porównanie czasów budowy modeli 350 300 250 0,0020 0,0018 0,0016 200 150 100 50 0 5 6 7 8 9 10 11 12 13 Liczba zmiennych objaśniających w modelu Branch Lasso Elastic net 0,0014 0,0012 0,0010 0,0008 0,0006 0,0004 33
Dodatkowe modele 12 modeli regresji grzbietowej Parametr lambda od 1 10 4 do 1 10 15 Im parametr lambda większy, tym silniejsze ograniczenie regularyzacyjne 10800 dodatkowych modeli 34
Różnica w wartości indeksu Giniego Maksymalna różnica w indeksie Giniego 0,00003 0,00002 0,00001 0-0,00001 5 6 7 8 9 10 11 12 13-0,00002-0,00003-0,00004 Zbiór treningowy Zbiór walidacyjny 35
Współczynnik korelacji Współczynnik korelacji liniowej Pearsona -0,64 5 6 7 8 9 10 11 12 13-0,66-0,68-0,7-0,72-0,74-0,76-0,78-0,8 Zbiór treningowy Zbiór walidacyjny 36
Podsumowanie i wnioski Modele branch and bound: Większa moc predykcyjna i brak współliniowości. Modele regularyzacyjne: Krótszy czas estymacji. Tradycyjna statystyka działa 37
Dziękuję za uwagę 38