O zgodności procedur jednoczesnego testowania zastosowanych do problemu selekcji zmiennych w modelu liniowym

Podobne dokumenty
Asymptotyczna kontrola FDR dla zaleznych testowań wielu hipotez statystycznych. Konrad Furmańczyk Wydzia Zastosowań Informatyki i Matematyki SGGW

1 Rozk ad normalny. Szczególnym przypadkiem jest standardowy rozk ad normalny N (0; 1), wartości

Pochodne cz ¾astkowe i ich zastosowanie.

1 Praktyczne metody wyznaczania podstawowych miar bez zastosowania komputerów

Wprowadzenie do równań ró znicowych i ró zniczkowych.

Wyznaczniki, macierz odwrotna, równania macierzowe

Wyk ad II. Stacjonarne szeregi czasowe.

Ekstrema funkcji wielu zmiennych.

Funkcje dwóch zmiennych

Normy wektorów i macierzy

Rozdzia l 11. Przestrzenie Euklidesowe Definicja, iloczyn skalarny i norma. iloczynem skalarnym.

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

1 Analiza wariancji H 1 : 1 6= 2 _ 1 6= 3 _ 1 6= 4 _ 2 6= 3 _ 2 6= 4 _ 3 6= 4

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

Testowanie hipotez statystycznych

Ocena ryzyka kredytowego

1 Regresja liniowa cz. I

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

1 Testy statystyczne. 2 Rodzaje testów

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych

Weryfikacja hipotez statystycznych

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Własności estymatorów regresji porządkowej z karą LASSO

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Estymatory regresji rangowej oparte na metodzie LASSO

Równania ró znicowe wg A. Ostoja - Ostaszewski "Matematyka w ekonomii. Modele i metody".

Podstawowe działania w rachunku macierzowym

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński

Wykład 12 Testowanie hipotez dla współczynnika korelacji

(wymiar macierzy trójk¹tnej jest równy liczbie elementów na g³ównej przek¹tnej). Z twierdzen 1 > 0. Zatem dla zale noœci

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Własności statystyczne regresji liniowej. Wykład 4

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Podsadny þ jest winien. róúzne. W prawodawstwie wielu krajów przyjmuje sie, þ úze pierwszy bład þ jest bardziej dotkliwy - sady þ skazujaþ

Proste Procesy Stochastyczne i ich zastosowania.

1 Wieloczynnikowa analiza wariancji

Statystyka w analizie i planowaniu eksperymentu

Odporność statystyk według Ryszarda Zielińskiego a porządki stochastyczne

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Statystyka w analizie i planowaniu eksperymentu

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Monte Carlo, bootstrap, jacknife

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Pierwiastki aproksymatywne. niecharakterystyczne. S. Brzostowski

Wyk lad 14 Formy kwadratowe I

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

1 Macierze i wyznaczniki

Wyk lad 7 Metoda eliminacji Gaussa. Wzory Cramera

1 Praktyczne metody wyznaczania podstawowych miar przy zastosowaniu programu EXCEL

Maszyny wektorów podpierajacych w regresji rangowej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

ZASADA SZUFLADKOWA DIRICHLETA

Estymatory kwantylowe i estymacja kwantyli

MATEMATYKA 4 INSTYTUT MEDICUS FUNKCJA KWADRATOWA. Kurs przygotowawczy na studia medyczne. Rok szkolny 2010/2011. tel

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

1 Rekodowanie w podgrupach i obliczanie wartości w podgrupach

Wyk lad 3 Wyznaczniki

Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków

Statystyka w analizie i planowaniu eksperymentu

Ekonometryczne modele nieliniowe

Rozdzia l 10. Formy dwuliniowe i kwadratowe Formy dwuliniowe Definicja i przyk lady

Wielokryterialne harmonogramowanie portfela projektów. Bogumiła Krzeszowska Katedra Badań Operacyjnych

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Ekonometria I Weryfikacja: współliniowość i normalność. Dr Michał Gradzewicz Szkoła Główna Handlowa w Warszawie

1 Próba a populacja. Nasze rozwa zania zaczniemy od przedyskutowania podstawowych poj ¾eć statystycznych,

Jan Olek. Uniwersytet Stefana Kardynała Wyszyńskiego. Procesy z Opóźnieniem. J. Olek. Równanie logistyczne. Założenia

Natalia Neherbecka. 11 czerwca 2010

1 Poj ¾ecie szeregu czasowego

1 Testy statystyczne. 2 Rodzaje testów

Wyk lad 11 Przekszta lcenia liniowe a macierze

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Jądrowe klasyfikatory liniowe

O ŚREDNIEJ STATYSTYCZNEJ

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka matematyczna. Wykład VI. Zesty zgodności

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Stosowana Analiza Regresji

Testowanie hipotez statystycznych.

Uogólniona Metoda Momentów

(α + β) a = α a + β a α (a + b) = α a + α b (α β) a = α (β a). Definicja 4.1 Zbiór X z dzia laniami o wyżej wymienionych w lasnościach

UWAGI O TESTACH JARQUE A-BERA

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

STATYSTYKA

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

IV. UK ADY RÓWNAÑ LINIOWYCH

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

Współliniowość zmiennych objaśniających: test Walda i test Studenta w badaniu istotności zmiennych objaśniających - przykłady.

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Egzamin z ekonometrii wersja IiE, MSEMAT

Wyk ady z algorytmów genetycznych Cz¾eść 2: Model algorytmu genetycznego przy dowolnej reprezentacji rozwi azań ¾

Analiza danych ilościowych i jakościowych

Teoretyczne podstawy algorytmów komputerowego modelowania procesów Markowa

Transkrypt:

O zgodności procedur jednoczesnego testowania zastosowanych do problemu selekcji zmiennych w modelu liniowym Konrad Furmańczyk Katedra Zastosowań Matematyki SGGW Wis a 2010

Plan referatu 1. Modele liniowe 2. Wybór zmiennych jako problem multitestowania 3. Warunki zgodności selekcji zmiennych

Niech Y = X + ", (1) gdzie j 6= 0 dla j 2 I 0 oraz j = 0 dla j 2 I 1, I 1 := f1; :::; pgni 0 ( ji 0 j = p 0 ), Y = (Y 1 ; :::; Y n ) T, X - macierz nielosowych elementów x ij, 1 i n; 1 j p, = 1 ; :::; p - wektor parametrów modelu. Rozpatrujemy nast ¾epuj ¾ace modele: M1 " = (" 1 ; :::; " n ) T i.i.d. z rozk adu N(0; ), gdzie jest znane; M2 " = (" 1 ; :::; " n ) T i.i.d. z rozk adu N(0; ), gdzie jest nieznane; M3 " = (" 1 ; :::; " n ) T jest wektorem o zale znych wspó rz ¾ednych.

Zak adamy, ze liczba zmiennych objaśniaj ¾acych p mo ze rosn ¾ać wraz z n, ale liczba istotnych zmiennych w modelu p 0 jest niezale zna od n. Niech ^i = MNK( i ) dla modelu (1). B ¾edziemy przyjmowali, ze modelu M1 se ^i p = mii oraz se ^i = S p mii w modelach M2-M3, gdzie m ii jest elementem diagonalnym macierzy X T X 1 oraz S jest zgodnym estymatorem. Rozwa zamy problem testowania (selekcji zmiennych) h 0 ) H i : i = 0 lub H 0 i : i 6= 0 dla i = 1; :::; p na podstawie statystyki testowej t ni = ^i =se ^i.

B ¾edziemy zak adali tak jak ([2]), ze p-wartości dla pojedynczych hipotez s ¾a postaci p i (t ni ) = 2 (1 (jt ni j)), gdzie jest dystrybuant ¾a ze standardowego rozk adu normalnego.

Procedura stepdown Niech p 1 ; :::; p p -p-wartości dla pojedynczych testów, niech p (1) ::: p (p) -uporz ¾adkowane p-wartości, H (1) ; :::; H (p) odpowiednie hipotezy zerowe. Niech 1 ::: p. Jeśli p (1) > 1, to nie odrzucamy zadnej hipotezy. W przeciwnym przypadku gdy h 1 ) p (1) 1 ; :::; p (r) r, odrzucamy H (1) ; :::; H (r), gdzie r jest najwi ¾eksze spe niaj ¾ace h 1 ).

Zgodność procedury wyboru zmiennych P(^I n = I 0 )! 1 przy n! 1, gdzie ^I n to zbiór odrzuconych hipotez H i, zaś I 0 to zbiór fa szywych hipotez H i (odpowiadaj ¾ace istotnym parametrom j 6= 0). atwo zauwa zyć, ze procedura wyboru zmiennych jest zgodna gdy P (R = p 0 ; V = 0)! 1 przy n! 1, gdzie R- liczba odrzuconych hipotez w problemie testowania h 0 ), V - liczba fa szywie odzrzuconych hipotez.

Oczywiście procedura selekcji jest zgodna gdy P (V 1)! 0 P (R 6= p 0 )! 0 przy n! 1. Zapisuj ¾ac to w terminach hipotezy stepdown otrzymujemy nast ¾epuj ¾ace warunki zgodności: i 1 ) P 0 @ X j2i 1 I n pj j o 1 1 A! 0 i 2 ) p 0 X j=1 P n p (j) > j o +P n p(p0 +1) p 0 +1o! 0 przy n! 1.

Rozwa zmy nast ¾epuj ¾ace warunki: a 1 ) p max j! 0 j2f1;:::;pg a 2 ) p max j2i 0 (1 F j ( j ))! 0 przy n! 1, gdzie F j - dystrybuanta dla p-wartości odpowiadaj ¾aca fa szywym hipotezom zerowym. Stwierdzenie ([5]) Warunki a 1 )-a 2 ) implikuj ¾a zgodność procedury selekcji modelu liniowego.

B ¾edziemy sprawdzali warunek a 2 ). Rozwa zmy warunki: a 3 ) p max j2i 0 log 2 j! = o(n 2 ), a 4 ) przy n! 1. m 1 log n

Zgodność w modelu M1 Oczywiście 1 F j ( j ) = 1 (1 = o(1). 1 (1! j 2 ) j p m jj j 2 ) j p m jj Na mocy warunków a 3 )-a 4 ), wi ¾ec otrzymujemy warunek a 2 ).!

Zgodność w modelach M2 i M3 Rozwa zmy warunek a 5 ) kg ni k 1 = O (c n ) dla pewnego c n! 0, gdzie G ni jest dystrybuant ¾a zmiennej losowej ~t ni = ^ i i p m ii.

Wtedy 1 F j j Gnj Cj;n j Gnj Cj;n j, gdzie j = j p m jj, C j;n = 2 1 (1 Korzystaj ¾ac z warunków a 3 ) a 5 ) j 2 ). 1 F j j = O c n + C j;n j C j;n j + o(1). Rozumuj ¾ac jak w modelu M1 C j;n j st ¾ad dostajemy warunek a 2 ). C j;n j = o(1),

Uwagi do warunku a 5 ) W przypadku modelu M2 mo zna pokazać, ze c n = q max h kk 1kn ( [2]) przy za o zeniu E j" 1 j 3 < 1 oraz q max h kk! 0 1kn gdy n! 1, gdzie h kk jest elementem diagonalnym macierzy X X T X 1 X T.

Uwagi do warunku a 5 ) w modelu M3 Niech oraz r := q max h kk, 1kn a 6 ) r = O n 1=2.

Rozpatrzmy nast ¾epuj ¾acy model zale zności b ¾edów losowych: (LP) (" i ) jest procesem liniowym gdzie " i = X r2z b r i r, X r2z jb r j < 1 (2) oraz ci ¾ag innowacji ( i ) jest ściśle stacjonarnym ci ¾agiem ró znic martynga owych wzgl ¾edem ltracji (F i ) i2z z L 3 spe niaj ¾acym warunek 1X n=1 1 n 1=2 gdzie 2 := E 2 0. E 2 n j F 0 2 3=2 < 1,

Niech a 1;n ; :::; a n;n b ¾edzie i-tym wierszem macierzy X T X 1 X T Rozwa zmy nast ¾epuj ¾acy warunek: (d) ci ¾ag a k;n jest niemalej ¾acy oraz P 1i=1 b i a i;n 6= 0. Lemat ([5]) Jeśli (" i ) spe nia warunek (LP) oraz spe nione s ¾a warunki a 6 ), (d), to zachodzi warunek a 5 ) dla c n = n 1=4q log n.

Komentarz do warunków a 1 ), a 3 ) Uwaga Gdy p = O (n ) dla pewnego 0 < < 1, wtedy spe nione s ¾a warunki a 1 ), a 3 ) dla a) procedury Holma j = q n p + 1 j, b) uogólnionej procedury Holma ( [6]) j = ([j] + 1) q n p + [j] + 1 dla pewnego 0 < < 1, j

c) dla procedury Benjamini-Yekuteliego( [1]) j = jq n p P p i=1 1=i, gdzie q n n dla pewnego >, oraz dla procedury Bonferonniego j = q n p, gdzie q n n dla pewnego > 0.

References [1] Benjamini, Y. and Yekutieli, D. (2001). The control of the false discovery rate in multiple testing under dependency. Ann. Statist. 29, 1165-1188. [2] Bunea, F., Wegkamp, M.H. and Auguste, A. (2006). Consistent variable selection in high dimensional regression via multiple testing. Journal of Statistical Planning and Inference 136, 12, 4349-4364. [3] Caraux, G. and Gascuel, O. (1992). Bounds on distribution functions of order statistics for dependent variates. Statist. Probab. Lett. 14, 103-105. [4] Dedecker, J. and Merlevede, F. (2010). Rates of convergence in the central limit theorem for linear statistics of martingale di erences. http://perso-math.univmlv.fr/users/merlevede. orence/linearraterevisedversion.pdf

[5] Furmańczyk, K, (2010). The stepdown procedures with application to consistent variable selection in linear regression. Preprint [6] Lehmann, E.L. and Romano, J.P. (2005). Generalizations of the familywise error rate. Ann. Statist. 28, 1-25.