Wojciech Skwirz

Podobne dokumenty
Statystyka i Analiza Danych

Konstrukcja miernika szans na bankructwo firmy

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Analiza statystyczna trudności tekstu

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Wskaźnik kondycji finansowej kredytobiorcy. Aspekty metodologiczne.

(LMP-Liniowy model prawdopodobieństwa)

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Metody selekcji cech

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Metody Ekonometryczne

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

ANALIZA REGRESJI SPSS

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Ekonometria egzamin 07/03/2018

ANALIZA WARIANCJI - PRZYPOMNIENIE

Metoda najmniejszych kwadratów

Własności statystyczne regresji liniowej. Wykład 4

Współczynniki korelacji czastkowej i wielorakiej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

Metody komputerowe statystyki Computer Methods in Statistics. Matematyka. Poziom kwalifikacji: II stopnia. Liczba godzin/tydzień: 2W, 3L

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

STATYSTYKA MATEMATYCZNA

Metody scoringowe w regresji logistycznej

ANALIZA RYNKU NIERUCHOMOŚCI PRZY ZASTOSOWANIU PROGRAMU GRETL

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Ekonometria I Weryfikacja: współliniowość i normalność. Dr Michał Gradzewicz Szkoła Główna Handlowa w Warszawie

Agnieszka Nowak Brzezińska

Badania eksperymentalne

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Współliniowość zmiennych objaśniających: test Walda i test Studenta w badaniu istotności zmiennych objaśniających - przykłady.

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Wykorzystanie informacji kredytowej w procesie oceny ryzyka ubezpieczeniowego w ubezpieczeniach komunikacyjnych

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Regresja logistyczna (LOGISTIC)

Natalia Nehrebecka Stanisław Cichocki. Wykład 13

Ekonometria. Zajęcia

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Metoda najmniejszych kwadratów

EKONOMETRIA. Prof. dr hab. Eugeniusz Gatnar.

1 Estymacja przedziałowa

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

STATYSTYKA MATEMATYCZNA

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

1.5 Problemy ze zbiorem danych

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Regresja, a współliniowość zmiennych

Analiza regresji - weryfikacja założeń

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

3. Modele tendencji czasowej w prognozowaniu

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

Drzewa decyzyjne i lasy losowe

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Wnioskowanie statystyczne. Statystyka w 5

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Metody Ilościowe w Socjologii

Budowa sztucznych sieci neuronowych do prognozowania. Przykład jednostek uczestnictwa otwartego funduszu inwestycyjnego

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

STATYSTYKA MATEMATYCZNA

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Ekonometria. Modele regresji wielorakiej - dobór zmiennych, szacowanie. Paweł Cibis pawel@cibis.pl. 1 kwietnia 2007

Wprowadzenie do analizy korelacji i regresji

Temat: Badanie niezależności dwóch cech jakościowych test chi-kwadrat

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Stanisław Cichocki. Natalia Nehrebecka

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Ekonometria egzamin wersja Informatyka i Ekonometria 29/01/08

WYKŁAD 8 ANALIZA REGRESJI

Budowa modelu i testowanie hipotez

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Przykład 1. (A. Łomnicki)

PROGNOZOWANIE PORÓWNAWCZE ENERGII PROCESOWEJ ZESTAWÓW MASZYN DO ROBÓT ZIEMNYCH JAKO CZYNNIKA RYZYKA EMISYJNOŚCI CO2

Prognozowanie na podstawie modelu ekonometrycznego

Analiza Współzależności

Analiza współzależności zjawisk

ESTYMACJA. Przedział ufności dla średniej

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

Stosowana Analiza Regresji

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Transkrypt:

1

Regularyzacja jako metoda doboru zmiennych objaśniających do modelu statystycznego. 2

Plan prezentacji 1. Wstęp 2. Część teoretyczna - Algorytm podziału i ograniczeń - Regularyzacja 3. Opis wyników badania empirycznego 4. Podsumowanie i wnioski 3

Czas szacowania modeli Liczba zmiennych objaśniających: p=200 Liczba kombinacji: 2 p 1 Czas szacowania 1 modelu: t = 0,0001 s Czas obliczeń: T 5 10 48 lat Od Big Bang minęło: ~14 10 9 lat 4

Metoda podziału i ograniczeń I 1 I 2 I 3 I 4 I 5 I 0 - pełen model Zmienne objaśniające: z 1, z 2, z 3, z 4, z 5 I n - instancja I 12 I 13 I 14 I 15 I 12 I 13 I 14 I 15 f I n - wartość funkcji celu f I 0 = B B - upper bound f I 1 B eksploruj I 1 I 132 I 134 I 135 I 132 I 134 I 135 5

Funkcja celu Regresja liniowa: RSS Regresja logistyczna: score Chi-kwadrat S = U 2 0 I 1 0 U β = I n β = E β log L β X β score β log f x 1,, x n 2 informacja Fishera 6

Wady i zalety Zalety: + szybkość działania + możliwość uzyskania określonej liczby najlepszych modeli danej klasy + brak zachłanności Wady: wykładnicza złożoność obliczeniowa możliwość zapętlenia algorytmu heurystyka 7

Regularyzacja Regularyzacja L2 regresja grzbietowa Regularyzacja L1 regresja lasso Regularyzacja elastic net 8

Idea regularyzacji Funkcja straty zależna od jakości prognoz modelu Λ β Funkcja kary na wartości parametrów 9

Regresja grzbietowa 1943 r. Andriej Tohinow 1970 r. Arthur Hoerl i Robert Kennard β MNK = X T X 1 X T y β ridge = X T X + Γ T Γ 1 X T y 10

Regresja grzbietowa = argmin β RSS 11

Regresja grzbietowa β ridge = argmin β RSS + λ 2 p j=1 β j 2 p β ridge = argmin β RSS p. w. j=1 β j 2 t2 12

Regresja lasso 13

Regularyzacja elastic net Dobór zmiennych wbudowany w proces estymacji Algorytm działa nawet wtedy, gdy liczba obserwacji jest mniejsza niż liczba predyktorów Do modeli włączane są wiązki zmiennych objaśniających 14

Regularyzacja elastic net 15

Porównanie regularyzacji β MNK = argmin β n i=1 y i β 0 p j=1 β j x ij 2 β ridge = argmin β n i=1 y i β 0 p j=1 β j x ij 2 + λ 2 p j=1 β j 2 β lasso = argmin β n i=1 y i β 0 p j=1 β j x ij 2 + λ 1 p j=1 β j β EN = argmin β n i=1 y i β 0 p j=1 β j x ij 2 + λ 1 p j=1 β j + λ 2 p j=1 β j 2 16

Regresja grzbietowa p β ridge = argmin β RSS p. w. j=1 β j 2 t2 17

Regresja lasso p β lasso = argmin β RSS p. w. j=1 β j t 1 18

Elastic net β EN = argmin β RSS + λ α p j=1 β j + 1 α p j=1 β j 2 19

Badanie empiryczne Cel Porównanie modeli zbudowanych na zmiennych otrzymanych z algorytmu podziału i ograniczeń z modelami regularyzacyjnymi. 20

Badanie empiryczne Regresja logistyczna - modele prawdopodobieństwa defaultu kredytów gotówkowych w fazie behawioralnej Około 800 tys. obserwacji 218 zmiennych objaśniających 21

40% Ewolucja ryzyka portfela 35% 30% 25% 20% 15% 10% 1980-01 1985-01 1990-01 1995-01 2000-01 2005-01 2010-01 Okno obserwacji Długoterminowa średnia w oknie obserwacji Default rate 22

Przebieg modelowania Podział zbioru na treningowy / walidacyjny w proporcji 70/30 Kategoryzacja zmiennych na podstawie entropii Obliczenie standaryzowanych logitów 23

Kryteria porównań Moc predykcyjna: indeks Giniego statystyka Hosmera-Lemeshowa statystyka Kołmogorowa-Smirnowa Brier Score Współliniowość predyktorów: Variance Inflation Factor Condition Index Czas estymacji 24

Oszacowane modele Rozmiar: od 5 do 13 predyktorów Algorytm branch and bound: 100 najlepszych zestawów zmiennych Regresja lasso: 100 modeli dla różnych wartości parametru lambda Elastic net: różne wartości lambda, różne wartości alfa dla każdej kombinacji 100 modeli 25

Oszacowane modele Branch and bound 900 modeli Regresja lasso 900 modeli Regularyzacja elastic net 14400 modeli 26

Indeks Giniego 27

Statystyka Kołmogorowa-Smirnowa 28

Statystyka Hosmera-Lemeshowa 29

Brier Score 30

Indeks Giniego Indeks Giniego na zbiorze treningowym 75% 70% 65% 60% 55% 50% 5 6 7 8 9 10 11 12 13 Liczba zmiennych objaśniających w modelu Branch Lasso Elastic net 31

Współliniowość Metoda Statystyka Liczba modeli ze współliniowością Zakres wartości Branch and bound VIF 2 1 10 Lasso VIF 900 46 1000 Elastic net VIF 900 46 4000 Branch and bound CI 0 1 7 Lasso CI 900 20 400 Elastic net CI 900 20-100 32

Czas estymacji (s) Czas estymacji (s) Porównanie czasów budowy modeli 350 300 250 0,0020 0,0018 0,0016 200 150 100 50 0 5 6 7 8 9 10 11 12 13 Liczba zmiennych objaśniających w modelu Branch Lasso Elastic net 0,0014 0,0012 0,0010 0,0008 0,0006 0,0004 33

Dodatkowe modele 12 modeli regresji grzbietowej Parametr lambda od 1 10 4 do 1 10 15 Im parametr lambda większy, tym silniejsze ograniczenie regularyzacyjne 10800 dodatkowych modeli 34

Różnica w wartości indeksu Giniego Maksymalna różnica w indeksie Giniego 0,00003 0,00002 0,00001 0-0,00001 5 6 7 8 9 10 11 12 13-0,00002-0,00003-0,00004 Zbiór treningowy Zbiór walidacyjny 35

Współczynnik korelacji Współczynnik korelacji liniowej Pearsona -0,64 5 6 7 8 9 10 11 12 13-0,66-0,68-0,7-0,72-0,74-0,76-0,78-0,8 Zbiór treningowy Zbiór walidacyjny 36

Podsumowanie i wnioski Modele branch and bound: Większa moc predykcyjna i brak współliniowości. Modele regularyzacyjne: Krótszy czas estymacji. Tradycyjna statystyka działa 37

Dziękuję za uwagę 38