Metody statystyczne w lokalizacji genów Instytut Matematyki Uniwersytet Wrocławski Zakopane, 06/09/2016
Plan Lokalizacja genów
Plan Lokalizacja genów Wielokrotne testowanie
Plan Lokalizacja genów Wielokrotne testowanie Kryteria wyboru modelu
Plan Lokalizacja genów Wielokrotne testowanie Kryteria wyboru modelu Zmodyfikowane wersje Bayesowskiego Kryterium Informacyjnego
Plan Lokalizacja genów Wielokrotne testowanie Kryteria wyboru modelu Zmodyfikowane wersje Bayesowskiego Kryterium Informacyjnego (Sorted L-one penalized estimation)
Plan Lokalizacja genów Wielokrotne testowanie Kryteria wyboru modelu Zmodyfikowane wersje Bayesowskiego Kryterium Informacyjnego (Sorted L-one penalized estimation) Symulacje komputerowe
Struktura DNA
Zmienność genetyczna w populacjach ludzkich Około 99,9% informacji genetycznej jest dokładnie taka sama u wszystkich ludzi Polimorfizm to różnica w strukturze DNA, która wystȩpuje u co najmniej 1% populacji Polimorfizm Pojedynczego Nukelotydu (Single Nucleotide Polymorphism, SNP) - polimorfizm w pojedynczej bazie nukleotydowej: Typowy SNP: pozycja w której - 85% populacji ma Cytozynȩ (C) - 15% ma Tyminȩ (T) Zwykle w danym lokusie wystȩpujȩ tylko dwie formy SNPa trzy genotypy : AA, Aa, aa
Główny cel GŁÓWNY CEL: identyfikacja mutacji które wpływaja na badana cechȩ
Główny cel GŁÓWNY CEL: identyfikacja mutacji które wpływaja na badana cechȩ Przykład - identyfikacja pacjentów korzystnie reaguja cych na terapiȩ
Główny cel GŁÓWNY CEL: identyfikacja mutacji które wpływaja na badana cechȩ Przykład - identyfikacja pacjentów korzystnie reaguja cych na terapiȩ Y - cecha ilościowa
Główny cel GŁÓWNY CEL: identyfikacja mutacji które wpływaja na badana cechȩ Przykład - identyfikacja pacjentów korzystnie reaguja cych na terapiȩ Y - cecha ilościowa Przykłady: zmiana ciśnienia krwi, poziomu cholesterolu
Struktura danych Y = (Y 1,, Y n ) T - wektor wartości cechy dla n pacjentów
Struktura danych Y = (Y 1,, Y n ) T - wektor wartości cechy dla n pacjentów T = (T 1,, T n ) T, T i {0, 1} - wskaźnik terapii
Struktura danych Y = (Y 1,, Y n ) T - wektor wartości cechy dla n pacjentów T = (T 1,, T n ) T, T i {0, 1} - wskaźnik terapii G n m - macierz genotypów
Struktura danych Y = (Y 1,, Y n ) T - wektor wartości cechy dla n pacjentów T = (T 1,, T n ) T, T i {0, 1} - wskaźnik terapii G n m - macierz genotypów Zwykle n k 100 lub k 1000, m k 100, 000
Struktura danych Y = (Y 1,, Y n ) T - wektor wartości cechy dla n pacjentów T = (T 1,, T n ) T, T i {0, 1} - wskaźnik terapii G n m - macierz genotypów Zwykle n k 100 lub k 1000, m k 100, 000 Typowe kodowanie oddziaływań addytywnych 0 gdy G ij = AA Z ij = 1 gdy G ij = Aa 2 gdy G ij = aa
Fikcyjny przykład - obniżenie cśnienia krwi Trait 80 100 120 140 160 0 1 Treatment
Grupa kontrolna Mean Trait Value 130 140 150 0 1 2 genotypes
Grupa zabiegowa Mean Trait Value 120 140 0 1 2 genotypes
Wpływ leku Difference in Mean Trait values 30 20 10 0 10 0 1 2 genotypes
Gene-Treatment Interaction mean_trait 80 100 120 140 0 1 2 genotypes
Model statystyczny m m Y i = β 0 + β 1 T i + ν j Z ij + γ j Z ij T i + ϵ i, ϵ i N(0, σϵ 2 ) j=1 j=1
Model statystyczny m m Y i = β 0 + β 1 T i + ν j Z ij + γ j Z ij T i + ϵ i, ϵ i N(0, σϵ 2 ) j=1 j=1 Y n 1 = X n p β p 1 + ϵ n 1
Model statystyczny m m Y i = β 0 + β 1 T i + ν j Z ij + γ j Z ij T i + ϵ i, ϵ i N(0, σϵ 2 ) j=1 j=1 Y n 1 = X n p β p 1 + ϵ n 1 p = m + 2, X = [1 T Z ZT ], β = [β 0, β 1, ν, γ] T
Model statystyczny m m Y i = β 0 + β 1 T i + ν j Z ij + γ j Z ij T i + ϵ i, ϵ i N(0, σϵ 2 ) j=1 j=1 Y n 1 = X n p β p 1 + ϵ n 1 p = m + 2, X = [1 T Z ZT ], β = [β 0, β 1, ν, γ] T a) Identyfikacja istotnych genów - wybór modelu statystycznego b) Predykcja: przewidywanie indywidualnej odpowiedzi na terapȩ
Indywidualne testy Prosta regresja liniowa Y i = β 0 + β j X ij + ϵ i, ϵ i N(0, σ 2 ϵ )
Indywidualne testy Prosta regresja liniowa Y i = β 0 + β j X ij + ϵ i, ϵ i N(0, σ 2 ϵ ) ˆβ j : estymator liczony metoda najmniejszych kwadratów β j ˆβ j N(β j, σ 2 j )
Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0
Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c
Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c)
Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c) c = Φ 1 ( 1 α 2 )
Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c) c = Φ 1 ( 1 α 2 H 0 przyjȩta H 0 odrzucona H 0 prawdziwa U V p 0 H 0 fałszywa T S p 1 W R p )
Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c) c = Φ 1 ( 1 α 2 H 0 przyjȩta H 0 odrzucona H 0 prawdziwa U V p 0 H 0 fałszywa T S p 1 W R p F W ER = P (V > 0), F DR = E ( ) V R 1 )
Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c) c = Φ 1 ( 1 α 2 H 0 przyjȩta H 0 odrzucona H 0 prawdziwa U V p 0 H 0 fałszywa T S p 1 W R p F W ER = P (V > 0), F DR = E ( ) V R 1 E(V ) = αp 0 )
Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c) c = Φ 1 ( 1 α 2 H 0 przyjȩta H 0 odrzucona H 0 prawdziwa U V p 0 H 0 fałszywa T S p 1 W R p F W ER = P (V > 0), F DR = E ( ) V R 1 E(V ) = αp 0 α = 005, p 0 = 2000 E(V ) = 100 )
Procedury wielokrotnego testowania Korekta Bonferroniego: Stosujemy poziom istotności α p
Procedury wielokrotnego testowania Korekta Bonferroniego: Stosujemy poziom istotności α p p 0 p 0 F W ER = P { z j > c} P ({ z j > c} = p 0 α/p < α j=1 j=1
Procedury wielokrotnego testowania Korekta Bonferroniego: Stosujemy poziom istotności α p p 0 p 0 F W ER = P { z j > c} P ({ z j > c} = p 0 α/p < α j=1 j=1 ) Odrzucamy H 0j gdy z j Φ (1 1 α 2p = 2 log p(1 + o p )
Procedury wielokrotnego testowania Korekta Bonferroniego: Stosujemy poziom istotności α p p 0 p 0 F W ER = P { z j > c} P ({ z j > c} = p 0 α/p < α j=1 j=1 ) Odrzucamy H 0j gdy z j Φ (1 1 α 2p = 2 log p(1 + o p ) Procedura Benjaminiego-Hochberga (1) z (1) z (2) z (p) (2) Ustal najwiȩksze j takie, że Nazwij ten indeks j SU z (j) Φ 1 (1 α j ), α j = α j 2p, (1) (3) Odrzuć H (j) wtedy i tylko wtedu gdy j j SU
Korekta Bonferroniego y * 0 1 2 3 4 Sorted y Bonferroni level 0 10 20 30 40 50 k
Korekta Benjaminiego-Hochberga y * 0 1 2 3 4 Sorted y BH level 0 10 20 30 40 50 k
Kontrola FDR (Benjamini,Hochberg, JRSSB 1995) Jeżeli z 1,, z p sa niezależne to BH kontroluje FDR na poziomie
Kontrola FDR (Benjamini,Hochberg, JRSSB 1995) Jeżeli z 1,, z p sa niezależne to BH kontroluje FDR na poziomie [ ] V FDR = E = α p 0 R 1 p (2)
Kontrola FDR (Benjamini,Hochberg, JRSSB 1995) Jeżeli z 1,, z p sa niezależne to BH kontroluje FDR na poziomie [ ] V FDR = E = α p 0 R 1 p (2) (Benjamini, Yekutieli, Ann Statist 2001) Jeżeli statystyki testowe sa "dodatnio skorelowane"to BH kontroluje FDR na poziomie α p 0 p Niezależnie od stopnia i rodzaju zależności miȩdzy statystykami testowymi FDR jest kontrolowane jeżeli z (j) porównujemy z ) Φ (1 1 jα 2p p i=1 1 i
Asymptotyczna optymalność gdy testy sa niezależne τ = p p 0 p - procent hipotez alternatywnych (rzadkość) τ 0 gdy p
Asymptotyczna optymalność gdy testy sa niezależne τ = p p 0 p - procent hipotez alternatywnych (rzadkość) τ 0 gdy p Abramovich, Benjamini, Donoho and Johnstone, AnnStatist 2006 - estymacja β z wykorzystaniem BH jest asymptotycznie optymalna (minimalizacja ˆβ β )
Asymptotyczna optymalność gdy testy sa niezależne τ = p p 0 p - procent hipotez alternatywnych (rzadkość) τ 0 gdy p Abramovich, Benjamini, Donoho and Johnstone, AnnStatist 2006 - estymacja β z wykorzystaniem BH jest asymptotycznie optymalna (minimalizacja ˆβ β ) Bogdan, Chakrabarti, Frommlet, Ghosh, AnnStatist 2011 - minimalizacja średniego kosztu, γ 0 - koszt błȩdu I rodzaju (fałszywego odkrycia), γ A - koszt błȩdu II rodzaju (pominiȩcie istotnego składnika)
Asymptotyczna optymalność gdy testy sa niezależne τ = p p 0 p - procent hipotez alternatywnych (rzadkość) τ 0 gdy p Abramovich, Benjamini, Donoho and Johnstone, AnnStatist 2006 - estymacja β z wykorzystaniem BH jest asymptotycznie optymalna (minimalizacja ˆβ β ) Bogdan, Chakrabarti, Frommlet, Ghosh, AnnStatist 2011 - minimalizacja średniego kosztu, γ 0 - koszt błȩdu I rodzaju (fałszywego odkrycia), γ A - koszt błȩdu II rodzaju (pominiȩcie istotnego składnika) Korekta Bonferroniego jest asymptotycznie optymalna gdy τ 1 p (p p 0 = const,ekstremalna rzadkość)
Asymptotyczna optymalność gdy testy sa niezależne τ = p p 0 p - procent hipotez alternatywnych (rzadkość) τ 0 gdy p Abramovich, Benjamini, Donoho and Johnstone, AnnStatist 2006 - estymacja β z wykorzystaniem BH jest asymptotycznie optymalna (minimalizacja ˆβ β ) Bogdan, Chakrabarti, Frommlet, Ghosh, AnnStatist 2011 - minimalizacja średniego kosztu, γ 0 - koszt błȩdu I rodzaju (fałszywego odkrycia), γ A - koszt błȩdu II rodzaju (pominiȩcie istotnego składnika) Korekta Bonferroniego jest asymptotycznie optymalna gdy τ 1 p (p p 0 = const,ekstremalna rzadkość) BH jest asymptotycznie optymalna gdy τ 0 i τp C (0, ]
Badania symulacyjne (Frommlet, Ruhaltinger, Twarog and Bogdan, 2011, CSDA) Próba POPRES rzeczywistych genomów z dbgap 309790 SNPów dla 649 osobników pochodzenia europejskiego
Badania symulacyjne (Frommlet, Ruhaltinger, Twarog and Bogdan, 2011, CSDA) Próba POPRES rzeczywistych genomów z dbgap 309790 SNPów dla 649 osobników pochodzenia europejskiego k = 40 przyczynowych niezależnych SNPów
Badania symulacyjne (Frommlet, Ruhaltinger, Twarog and Bogdan, 2011, CSDA) Próba POPRES rzeczywistych genomów z dbgap 309790 SNPów dla 649 osobników pochodzenia europejskiego k = 40 przyczynowych niezależnych SNPów 1000 replikacji z modelu addytywnego M Y = X M β M + ϵ, ϵ i (0, 1)
Badania symulacyjne (Frommlet, Ruhaltinger, Twarog and Bogdan, 2011, CSDA) Próba POPRES rzeczywistych genomów z dbgap 309790 SNPów dla 649 osobników pochodzenia europejskiego k = 40 przyczynowych niezależnych SNPów 1000 replikacji z modelu addytywnego M Y = X M β M + ϵ, ϵ i (0, 1) β j równomiernie rozłożone na odcinku [027, 066]
Power 1 09 08 mbic2 mbic1 BH Bonf Power 07 06 05 04 03 02 01 0 0005 001 0015 002 0025 003 0035 004 Heritability
Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx
Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx Y = β 0 + k i=1 β ix i + ϵ
Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx Y = β 0 + k i=1 β ix i + ϵ Ĉov(Y, X 1 ) = β 1 ˆV arx1 + k i=2 β iĉov(x 1, X i ) + Ĉov(X 1, ϵ)
Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx Y = β 0 + k i=1 β ix i + ϵ Ĉov(Y, X 1 ) = β 1 ˆV arx1 + k i=2 β iĉov(x 1, X i ) + Ĉov(X 1, ϵ) Załóżmy, że dla i > 1, Ĉov(X 1, X i ) N(0, σ 2 c )
Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx Y = β 0 + k i=1 β ix i + ϵ Ĉov(Y, X 1 ) = β 1 ˆV arx1 + k i=2 β iĉov(x 1, X i ) + Ĉov(X 1, ϵ) Załóżmy, że dla i > 1, Ĉov(X 1, X i ) N(0, σ 2 c ) E k i=2 β iĉov(x 1, X i ) = 0
Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx Y = β 0 + k i=1 β ix i + ϵ Ĉov(Y, X 1 ) = β 1 ˆV arx1 + k i=2 β iĉov(x 1, X i ) + Ĉov(X 1, ϵ) Załóżmy, że dla i > 1, Ĉov(X 1, X i ) N(0, σ 2 c ) E k i=2 β iĉov(x 1, X i ) = 0 V ar( k i=2 β iĉov(x 1, X i )) k i=2 β2 i σ2 c
Informacyjne kryteria wyboru modelu (1) Cel: Estymacja β w modelu Y = X n p β + ϵ, ϵ N(0, σ 2 I n n ), p >> n
Informacyjne kryteria wyboru modelu (1) Cel: Estymacja β w modelu Y = X n p β + ϵ, ϵ N(0, σ 2 I n n ), p >> n Zadanie wykonalne przy założeniu,że liczba niezerowych elementów β 0 = k << n (założenie rzadkości)
Informacyjne kryteria wyboru modelu (1) Cel: Estymacja β w modelu Y = X n p β + ϵ, ϵ N(0, σ 2 I n n ), p >> n Zadanie wykonalne przy założeniu,że liczba niezerowych elementów β 0 = k << n (założenie rzadkości) Kryteria wyboru modelu: minimalizujemy Y Xβ 2 + pen(k)
Informacyjne kryteria wyboru modelu (2) Bayesowskie Kryterium Informacyjne, BIC : pen(k) = σ 2 k log n
Informacyjne kryteria wyboru modelu (2) Bayesowskie Kryterium Informacyjne, BIC : pen(k) = σ 2 k log n BIC nie jest zgodne gdy p n (Bogdan et al (2008, QREI))
Informacyjne kryteria wyboru modelu (2) Bayesowskie Kryterium Informacyjne, BIC : pen(k) = σ 2 k log n BIC nie jest zgodne gdy p n (Bogdan et al (2008, QREI)) Risk Inflation Criterion [RIC, Foster and George (1994)] pen(k) = 2σ 2 k log p - "korekta Bonferroniego"
Informacyjne kryteria wyboru modelu (2) Bayesowskie Kryterium Informacyjne, BIC : pen(k) = σ 2 k log n BIC nie jest zgodne gdy p n (Bogdan et al (2008, QREI)) Risk Inflation Criterion [RIC, Foster and George (1994)] pen(k) = 2σ 2 k log p - "korekta Bonferroniego" BHRIC (Abramovich et al (2006), Foster and Stine (1999), Birge and Massart (2001)) pen(k) = 2σ 2 k i=1 log(p/i) - "korekta BH"
Informacyjne kryteria wyboru modelu (2) Bayesowskie Kryterium Informacyjne, BIC : pen(k) = σ 2 k log n BIC nie jest zgodne gdy p n (Bogdan et al (2008, QREI)) Risk Inflation Criterion [RIC, Foster and George (1994)] pen(k) = 2σ 2 k log p - "korekta Bonferroniego" BHRIC (Abramovich et al (2006), Foster and Stine (1999), Birge and Massart (2001)) pen(k) = 2σ 2 k i=1 log(p/i) - "korekta BH" Bogdan et al (Genetics, 2004), Żak-Szatkowska and Bogdan (CSDA,2011) mbic1, mbic2 - RIC i mric + kara σ 2 k log n
Wypukła relaksacja - LASSO, (Tibshirani, JRSSB 1995) LASSO to rozwia zanie problemu optymalizacji wypukłej { 1 argmin b y Xb 2 2 2 + λ L b 1 }, (LASSO) gdzie λ L > 0 jest parametrem wygładzaja cym
Wypukła relaksacja - LASSO, (Tibshirani, JRSSB 1995) LASSO to rozwia zanie problemu optymalizacji wypukłej { 1 argmin b y Xb 2 2 2 + λ L b 1 }, (LASSO) gdzie λ L > 0 jest parametrem wygładzaja cym Trudność - wybór λ L
Wypukła relaksacja - LASSO, (Tibshirani, JRSSB 1995) LASSO to rozwia zanie problemu optymalizacji wypukłej { 1 argmin b y Xb 2 2 2 + λ L b 1 }, (LASSO) gdzie λ L > 0 jest parametrem wygładzaja cym Trudność - wybór λ L λ L = 2 log p n - korekta Bonferroniego
Wypukła relaksacja - LASSO, (Tibshirani, JRSSB 1995) LASSO to rozwia zanie problemu optymalizacji wypukłej { 1 argmin b y Xb 2 2 2 + λ L b 1 }, (LASSO) gdzie λ L > 0 jest parametrem wygładzaja cym Trudność - wybór λ L 2 log p n λ L = - korekta Bonferroniego walidacja krzyżowa - optymalizacja własności predykcyjnych
(Sorted L-One Penalized Estimation, Bogdan, van den Berg, Sabatti, Su and Candés (AOAS, 2015)) to rozwia zanie problemu wypukłego 1 argmin b y Xb p 2 2 2 + σ λ i b (i), i=1 () gdzie b (1) b (p) i λ 1 λ p 0
Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p
Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi
Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi Interesuja ce własności predykcyjne
Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi Interesuja ce własności predykcyjne Ogólnodostȩpne pakiety na CRAN
Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi Interesuja ce własności predykcyjne Ogólnodostȩpne pakiety na CRAN i) - Bogdan et al 2015, autor E Patterson
Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi Interesuja ce własności predykcyjne Ogólnodostȩpne pakiety na CRAN i) - Bogdan et al 2015, autor E Patterson ii) grp - grupowe (wybór grup predykatorów), [Brzyski et al (arxiv, 2015)], autor - A Gossman
Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi Interesuja ce własności predykcyjne Ogólnodostȩpne pakiety na CRAN i) - Bogdan et al 2015, autor E Patterson ii) grp - grupowe (wybór grup predykatorów), [Brzyski et al (arxiv, 2015)], autor - A Gossman iii) gene - aplikacja do badań asocjacyjnych, [Brzyski et al (przyjȩte do druku w Genetics)], autor - P Sobczyk
Symulacje w kontekście genetycznym n = p = 5000, niezależne SNPy
Symulacje w kontekście genetycznym n = p = 5000, niezależne SNPy Scenariusz 1: Y = Xβ + z - idealny model
Symulacje w kontekście genetycznym n = p = 5000, niezależne SNPy Scenariusz 1: Y = Xβ + z - idealny model Scenariusz 2: Nieliniowość - efekty dominancji: z ij = { 1 for aa, AA 1 for aa, (3) y = [X, Z][β X, β Z] + ϵ Szukamy tylko efektów addytywnych
Symulacje w kontekście genetycznym n = p = 5000, niezależne SNPy Scenariusz 1: Y = Xβ + z - idealny model Scenariusz 2: Nieliniowość - efekty dominancji: z ij = { 1 for aa, AA 1 for aa, (3) y = [X, Z][β X, β Z] + ϵ Szukamy tylko efektów addytywnych Scenariusze 3 i 4: Błȩdy z rozkładu Laplace a lub z pewnym odsetkiem obserwacji odstaja cych
Model idealny λ(i) 36 38 40 42 44 (a) 0 10 20 30 40 50 i λ G q=005 λ MC q=005 FDR 000 002 004 006 008 010 (b) λ G λ MC Marginal tests 0 10 20 30 40 50 number of relevant features Power 03 04 05 06 07 08 09 (c) λ G λ MC Marginal tests 0 10 20 30 40 50 number of relevant features
Odstȩpstwa od założeń λ G Marginal tests FDR 000 004 008 Nonlinearity Laplace errors Outliers FDR 000 004 008 0 10 20 30 40 50 0 10 20 30 40 50 number of relevant features number of relevant features Power 03 05 07 09 Nonlinearity Laplace errors Outliers Power 03 05 07 09 0 10 20 30 40 50 number of relevant features 0 10 20 30 40 50 number of relevant features
Własności predykcyjne 1 Su and Candes (Ann Statist, 2016) - asymptotyczna optymalność gdy zmienne sa ortogonalne lub niezależne gausowskie 2 Nowak and Figuereido (AISTATS, 2016) - skupianie skorelowanych predykatorów i optymalna predykcja dla skorelowanych gaussowskich planów eksperymentu
Własności predykcyjne FDR 0 20 40 60 80 100 (a) 0 10 20 30 40 50 number of relevant features Power 40 50 60 70 80 90 100 (b) 0 10 20 30 40 50 number of relevant features percentage mse of µ 40 50 60 70 80 90 100 (c) debiased, q=01 LASSO, cv LASSO debiased, α=01 0 10 20 30 40 50 number of relevant features
Predykcja - ukryte zmienne X n p = F n 20 C 20 p + ϵ 1 Y = F β + ϵ Tablica : Procentowy bła d predykcji p n adaptive lasso q = 01 1000 1000 0209 0257 2000 2000 0251 0242 2000 2000 0346 0240
Analiza danych rzeczywistych rs2303790 rs5883 FullBH UnivBH BICf BICb g mc LASSObonf LASSOcv rs7946766 rs2575875 rs2066715 v_c9_107555091 rs611229 rs5801 rs12314392 rs11988 rs62136410 v_c16_57095439 rs509360 rs149470424 v_c2_44223117 v_c1_109817524 rs5802 No Yes No Yes No Yes No Yes No Yes No Yes No Yes No Yes Selection
Współpracownicy 1 Polska - M Żak-Szatkowska, P Biecek (UW), D Brzyski (UJ), P Sobczyk (PWr), P Szulc (PWr) 2 Vienna University, Medical University of Vienna - A Futschik, A Baierl, F Frommlet, F Koenig 3 TU Muenchen - C Czado, V Erhart 4 Stanford - EJ Candes, C Sabatti, W Su, E Van den Berg, E Patterson, C Peterson 5 Tulane University - A Gossman