Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Podobne dokumenty
ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Metoda najmniejszych kwadratów

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Analiza statystyczna trudności tekstu

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

1.1 Klasyczny Model Regresji Liniowej

Stosowana Analiza Regresji

Metoda największej wiarygodności

Metody Ekonometryczne

Analiza składowych głównych. Wprowadzenie

Rozpoznawanie obrazów

STATYSTYKA MATEMATYCZNA

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Ważne rozkłady i twierdzenia c.d.

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Statystyczna analiza danych 1

Metody systemowe i decyzyjne w informatyce

Statystyczna analiza danych (molekularnych) modele liniowe

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Komputerowa analiza danych doświadczalnych

Natalia Neherbecka. 11 czerwca 2010

Prawdopodobieństwo i statystyka

Metoda największej wiarygodności

Redukcja wariancji w metodach Monte-Carlo

Komputerowa analiza danych doświadczalnych

METODY STATYSTYCZNE W BIOLOGII

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Monte Carlo, bootstrap, jacknife

Statystyka i eksploracja danych

Opis wykonanych badań naukowych oraz uzyskanych wyników

Wybór modelu i ocena jakości klasyfikatora

STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR

Elementy statystyki wielowymiarowej

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Stosowana Analiza Regresji

Analizowane modele. Dwa modele: y = X 1 β 1 + u (1) y = X 1 β 1 + X 2 β 2 + ε (2) Będziemy analizować dwie sytuacje:

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Estymacja w regresji nieparametrycznej

Hierarchiczna analiza skupień

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Statystyczna analiza danych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Wprowadzenie do analizy korelacji i regresji

Prawdopodobieństwo i statystyka r.

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Metoda najmniejszych kwadratów

Statystyka w przykładach

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Mikroekonometria 3. Mikołaj Czajkowski Wiktor Budziński

Metody probabilistyczne

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Wprowadzenie. Data Science Uczenie się pod nadzorem

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

PDF created with FinePrint pdffactory Pro trial version

Statystyka Matematyczna Anna Janicka

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Metody klasyfikacji dla nielicznej próbki wektorów o wielkim wymiarze

Prawdopodobieństwo i statystyka

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Estymatory nieobciążone

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Metody Ekonometryczne

Metody probabilistyczne

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Mikroekonometria 4. Mikołaj Czajkowski Wiktor Budziński

Testowanie hipotez statystycznych

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Zawansowane modele wyborów dyskretnych

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

O ŚREDNIEJ STATYSTYCZNEJ

Stosowana Analiza Regresji

Matematyka ubezpieczeń majątkowych r.

WYKŁAD 2. Problem regresji - modele liniowe

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Spis treści 3 SPIS TREŚCI

Testowanie hipotez statystycznych cd.

Analiza składowych głównych

Zmienne zależne i niezależne

Transkrypt:

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu iowym, scenariusz p bliskie lub większe od n Przemyslaw.Biecek@gmail.com, MIM Uniwersytet Warszawski Plan prezentacji: 1 Motywacja; 2 Błąd predykcji a różne metody estymacji współczynników w modelu iowym; 3 Co nam daje wyjście poza iowy predyktor; 4 Komitet predyktorów i bootstrapowy estymator błędu predykcji; 5 Podsumowanie. 1 / 16

Motywacja Przeprowadzono badania mikromacierzowe na szeroką skalę. Rozważmy badanie, którego celem jest umożliwienie predykcji wartości hodowlanej osobników, np. mleczności bydła. Dla 2000 osobników wyznaczono ich wartość hodowlaną (zmienna objaśniana Y ) oraz zebrano informację o genotypach w p = 10 pozycjach (zmienne objaśniające X ). Zakładamy, że zależność pomiędzy zmiennymi objaśniającymi a zmienną objaśnianą można opisać modelem iowym, tz. Y = X β + ε, gdzie ε N(0, σ 2 ). Nie znamy ani β, ani σ 2. Cel: Na podstawie zebranych danych poproszono nas o zbudowanie możliwie dobrego predyktora ˆf (x, X, Y ) wartości hodowlanej. 2 / 16

Podejście I - estymujemy wszystkie efekty w modelu Zbudujmy predyktor w oparciu o model iowy tz. ˆf (x, X, Y ) = X ˆβ. Współczynniki ˆβ wyznaczmy korzystając z estymatorów BLUE dla modelu iowego, czyli ˆβ = (X T X ) X T Y, gdzie A oznacza uogólnioną odwrotność Moore-Penrose a macierzy A. Jak wiadomo tak wyznaczone współczynniki minimalizują błąd dopasowania RSS = (Y X ˆβ ) T (Y X ˆβ ). Nas jednak interesuje błąd predykcji! Można go różnie definiować. My przyjmiemy następującą definicję PE(X, Y, ˆf (.)) = x i X(x iβ ˆf (x i, X, Y )) 2 = X β X ˆβ 2. 3 / 16

Podejście I - estymujemy wszystkie efekty w modelu Symulacyjnie sprawdzimy jak dla rozważanych parametrów (p=10, n=2000) zachowuje się błąd predykcji dla predyktora opartego o model iowy ˆf (x, X, Y ) = X ˆβ. Do porównania, jako erencyjny predyktor zastosujemy predyktor będący zwykłą średnią arytmetyczną (tzw. model zerowy) ˆf (x, X, Y ) = X. Schemat symulacji: Wykonując N = 0 powtórzeń losujemy macierze X (kolumny losujemy niezależnie) i badamy rozkład rzeczywistego błędu predykcji PE w zależności od stosunku szumu do sygnału. Szumem określamy E[ε T ε] a sygnałem E[(X β) T (X β)] (macierz X jest generowana losowo, β jest nieznane ustalone). Współczynnik sygnału do szumu wyznaczany jest jako s/n = E[(X β)t (X β)]. E[ε T ε] 4 / 16

Podejście I - estymujemy wszystkie efekty w modelu, wyniki signal/noise = 9.4 signal/noise = 1.6 signal/noise = 0.83 signal/noise = 0.48 signal/noise = 0.27 sredni blad predykcji 20 40 120 40 70 90 110 120 130 150 200 150 200 250 300 350 400 Jak widzimy im większy udział szumu tym gorsze właściwości predykcyjne predyktora iowego (to zachowanie intuicyjne). Jednocześnie z zaskoczeniem obserwujemy, że dla dużego szumu błąd predykcji dla modelu iowego przewyższa błąd predykcji dla naiwnego predyktora - średniej!!! Czyżby dla niskiego sygnału najlepszym predyktorem była zwykła średnia z obserwacji? 5 / 16

Podejście II - estymujemy efekty w optymalnym modelu Estymacja wszystkich efektów w tak dużym modelu oczwiście niesie ze sobą problemy. Jak pamiętamy ˆβ N (β, (X T X ) σ 2 ). Więc dla macierzy X T X bliskiej osobliwej wariancje są bardzo duże. Stąd prawdopodobnie problemy, które zaobserwowaliśmy. Dlatego też często do predykcji wykorzystuje się model tylko z wybranymi kolumnami X odpowiadającymi najbardziej istotnie różnym od zera wartościom ˆβ (w rzeczywistości wszystkie β są różne od 0). Zbudujemy predyktor oparty na modelu iowym, ale z podzbiorem tych kolumn macierzy X, które wybierze kryterium AIC lub BIC. Predyktorem opartym o kryterium AIC jest ˆf AIC (x, X, Y ) = X ˆβ AIC, ˆβ i gdzie ˆβ AIC są współczynnikami wyestymowanymi w modelu wybranym przez kryterium AIC. Podobnie konstruujemy predyktor ˆf AIC (x, X, Y ). Kryterium AIC jest uznawane za kryterium o dobrych właściwościach predykcyjnych!!! 6 / 16

Podejście II - estymujemy efekty w optymalnym modelu, wyniki signal/noise = 9.4 signal/noise = 1.6 signal/noise = 0.83 signal/noise = 0.48 signal/noise = 0.27 sredni blad predykcji 20 40 40 120 140 150 200 150 200 250 300 350 400 aic bic aic bic aic bic aic bic aic bic W rozpatrywanym scenariuszu, błąd predykcji przy modelu wybranym przez AIC lub BIC jest podobny do błędu predykcji pełnego modelu. Dla niskiego sygnału błąd predyktora opartego o kryterium AIC czy BIC również przekracza błąd predykcji dla predyktora równemu średniej! 7 / 16

Podejście III - regularyzujemy model Kolejna próba zbudowania dobrego predyktora oparta będzie o model regularyzowany. W sytuacji gdy p > n częstym rozwiązaniem jest regularyzacja modelu prowadząca do wprowadzenia obciążenia, które jednak znacznie redukuje wariancję estymatora ˆβ. Najprostszą i najstarszą techniką regularyzacji modelu iowego jest regresja grzbietowa (równoważna dodaniu wartości λ do przekątnej macierzy X T X ). Również dobre recenzje zbierają jej różnorodne odmiany lub uogólnienia, takie jak regresja czy ogólniejsza rodzina: sieci elastyczne. Wszystkie te metody są równoważne z minimalizacją błędu RSS z dodatkową karą za wielkość współczynników ˆβ, przy czym wielkość ˆβ może być mierzona w normie L 1, L 2 lub mieszanej. Rozważmy więc trzy kolejne predyktory, odpowiadające estymacji współczynników modelu iowego z użyciem metod: regresja grzbietow,, sieci elastyczne (α = 0.5). 8 / 16

Podejście III - regularyzujemy model, wyniki signal/noise = 9.4 signal/noise = 1.6 signal/noise = 0.83 signal/noise = 0.48 signal/noise = 0.27 sredni blad predykcji 40 20 120 40 120 200 150 400 350 300 250 200 150 50 W zaprezentowanym scenariuszu regularyzacja zmniejsza błąd predykcji, jeżeli porównywać go do zwykłej regresji iowej w modelu pełnym. Znacznie dłużej (nwet dla s/n=0.8) udaje się otrzymać wyniki niegorsze niż predyktor oparty na samej średniej. Niestety dla małych wartości s/n nawet regularyzowany model iowy nie daje zadowalających wyników. Błąd predykcji jest większy niż błąd predykcji dla samej średniej. 9 / 16

Podejśce IV - szukamy predyktorów poza modelem iowym Rozważmy predykor oparty o metodę k-sąsiadów. Będziemy uśredniać Y nie po wszystkich obserwacjach, ale po k najbliższych obserwacjach. Wartość ˆf (x, X, Y ) wyznaczmy zgodnie z następujących schematem: 1 Znajdujemy k punktów ze zbioru X, których odległość d(x, X i) jest najmniejsza. Jeżeli x jest z X to usuwamy go, by nie pomagać. Oznaczmy zbiór tych k-najbliższych sąsiadów przez X. 2 Wyznaczmy predyktor jako średnią wartość zmiennej Y dla obserwacji ze zbioru X ˆf (x, X, Y )) = 1 #X i:x i X Y i. 3 Odległość d(x, y) możemy wybrać dowolnie, wybierzmy ważoną odległość euklidesową. Za wagi wybierzmy wartości współczynników β. Podsumowując p d(x, X i) = ˆβ j (x j X ij) 2. j=1 10 / 16

Metoda k-sąsiadów, wyniki signal/noise = 9.4 signal/noise = 1.6 signal/noise = 0.83 signal/noise = 0.48 signal/noise = 0.27 120 130 400 sredni blad predykcji 40 20 40 120 110 90 70 200 150 350 300 250 200 150 50 0 0 0 0 0 Predyktor oparty o metodę k-sąsiadów pozwala na uzyskanie błędu predykcji niegorszego niż predyktor erencyjny (sama średnia) dla małych wartości signal/noise, a dla średnich wartości s/n znacznie lepszego niż pozostałe metody. Dla dużych wartości s/n ta metoda radzi sobie jednak źle. Błędy predykcji nawet jeżeli są mniejsze od błędu predykcji samej średniej to i tak są wysokie. Jak się jednak okaże, dla określonych β i skorelowanych kolumn X błąd predykcji metody k-sąsiadów jest kilkukrotnie mniejszy od błędu predykcji metody erencyjnej. 11 / 16

Komitet predyktorów Zauwazyliśmy, że dla różnych wartości stosunku sygnału do szumu, oraz różnych parametrów modelu inna metoda konstrukcji predyktora charakteryzuje się najmniejszym będem predykcji. Naturalnym pomysłem jest próba użycia predyktora wybranego z u predyktorów jako najlepszego dla zadanej macierzy X i Y. Jak wybierać? Do wyboru kondydata wykorzystamy metodę bootstrapu parametrycznego do oceny błędu predykcji. Schemat tej metody można opisać następująco: 1 Wyznaczamy ˆβ korzystając z dowolnej metody estymacji (oznaczmy β := ˆβ), 2 Generujemy B = replikacji zbioru danych, każda replikacja generowana jest z modelu Y = X β + ε, gdzie ε N(0, ˆσ 2 ), 3 Dla wszystkich B replikacji wyznaczamy predyktor każdą z rozważanych metod oraz liczymy błąd predkcji (dla zadanej macierzy X, ale w punkcie ˆβ, który niestety może być daleko od β), 4 Wybieramy metodę o najmniejszym błędzie predykcji na próbach bootstrapowych i używamy jej do wykonania predykcji na oryginalnej próbie. 12 / 16

Komitet predyktorów, wyniki signal/noise = 9.4 signal/noise = 1.6 signal/noise = 0.83 signal/noise = 0.48 signal/noise = 0.27 140 sredni blad predykcji 40 20 40 120 200 0 150 350 300 250 200 150 50 0 0 0 0 Predyktor oparty na komitecie omawianych predyktorów i na bootstrapowym estymatorze błędu predykcji ma porównywalny błąd predykcji co lokalnie najlepszy z rozważanych predyktorów. Więc, nawet jeżeli błąd predykcji jest badany w punkcie β a nie β, to wciąż może być z powodzeniem wykorzystywany do wyboru predyktora. 13 / 16

Co się dzieje jeżeli generowane są skorelowane X W omawianym scenariuszu wartości macierzy X losowane były niezależnie, a wartości współczynników β wszystkie były równe określonej wartości różnej od zera (prawdziwym modelem był model pełny). Okazuje się, że zarówno w sytuacji gdy w prawdziwym modelu coraz więcej współczynników β i jest równa zero, jak i w sytuacji gdy kolumny generowane są z zadaną korelacją, w obu przypadkach otrzymujemy podobny ranking ze względu na błąd predykcji. Jednak różnice pomiędzy najlepszym predyktorem a predyktorem iowym stają się coraz większe, coraz częściej najlepsze wyniki uzyskuje się przy użyciu metody k-sąsiadów. 14 / 16

Komitet predyktorów, wyniki signal/noise = 9.4 signal/noise = 1.6 signal/noise = 0.83 signal/noise = 0.48 signal/noise = 0.27 sredni blad predykcji 4 3 2 1 0 3.5 3.0 2.5 2.0 1.5 1.0 3.5 3.0 2.5 2.0 1.5 0 6 5 4 3 2 1 12 10 8 6 4 2 0 0 0 0 W badanym scenariuszu kolumny macierzy X są skorelowane z macierzą kowariancji równą ρ = 0.9 poza przekątną i 1 na przekątnej a wektor β w prawdziwym modelu ma wiele współczynników równych 0. Analizując wyniki obserwujemy znacznie lepsze zachowanie metody k-sąsiadów dla małych wartości s/n oraz bardzo dobre zachowanie metody opartej o predyktorów dla rozważanych wartości s/n. 15 / 16

Podsumowanie Trzy najważniejsze wnioski, które warto zabrać do domu: 1 Jeżeli stosunek sygnału do szumu jest niski (co jest bardzo częste np. dla cech o słabym podłożu genetycznym takich jak: łatwość uzależniania się, łatwość tycia, ryzyko chorób typu schizofrenia itp), to predykcja z użyciem niepustego modelu iowego może dawać gorsze wyniki niż predykcja równa średniej z próby Ȳ, 2 Ta obserwacja zachowuje się dla różnych metod generowania macierzy X, oraz dla wielu różnych przebadanych wartości wektora β. Obserwacja ta przenosi sie również na przypadki gdy p > n i p >> n. 3 Użycie bootstrapowego estymatora błędu predykcji (dla danego X ale w β zamiast w nieznanym β) pozwala na skonstruowanie u predyktorów o równie dobrych właściwościach predykcyjnych co najlepszy z elementów u. 16 / 16