Metody statystyczne w lokalizacji genów

Podobne dokumenty
Testowanie hipotez statystycznych

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Metody oparte na logicznej regresji. zastosowaniu do wykrywania interakcji SNPów

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Elementy statystyki STA - Wykład 5

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Testowanie hipotez statystycznych.

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

PRACE NAUKOWE Akademii im. Jana Długosza w Częstochowie Informatyka, Inżynieria Bezpieczeństwa

Stosowana Analiza Regresji

Testowanie hipotez statystycznych.

Statystyczna analiza danych

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Metody Ekonometryczne

Budowa modelu i testowanie hipotez

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Statystyka Matematyczna Anna Janicka

Stosowana Analiza Regresji

Własności statystyczne regresji liniowej. Wykład 4

Statystyka Matematyczna Anna Janicka

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Testy adaptacyjne dla problemu k prób

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Weryfikacja hipotez statystycznych

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Testowanie hipotez statystycznych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Uogólniona Metoda Momentów

Dane zgrupowane: każda obserwacja należy do jednej grupy i jest tylko jeden czynnik grupujący

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Testowanie hipotez statystycznych.

Opis wykonanych badań naukowych oraz uzyskanych wyników

Testowanie hipotez statystycznych

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.

Testowanie hipotez statystycznych

Statystyka matematyczna dla leśników

Testowanie hipotez statystycznych

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Zagadnienie testowania zbioru hipotez (wielokrotne testowanie hip

Testowanie hipotez statystycznych

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

EGZAMIN MAGISTERSKI, r Matematyka w ekonomii i ubezpieczeniach

Prawdopodobieństwo i statystyka

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Badanie zgodności z określonym rozkładem. F jest dowolnym rozkładem prawdopodobieństwa. Test chi kwadrat zgodności. F jest rozkładem ciągłym

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Testowanie zbioru hipotez z zadaną relacją hierarchii wraz z przykładami zastosowań w genetyce

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

1. Analiza asocjacyjna. Cechy ciągłe. Cechy binarne. Analiza sprzężeń. Runs of homozygosity. Signatures of selection

Ekonometria dla IiE i MSEMat Z12

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Statystyczna analiza danych

Metody systemowe i decyzyjne w informatyce

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Ekonometria egzamin wersja Informatyka i Ekonometria 26/06/08

Metoda najmniejszych kwadratów

Analiza regresji - weryfikacja założeń

Statystyczna analiza danych (molekularnych) modele liniowe

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Konferencja Statystyka Matematyczna Wisła 2013

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

MODELE LINIOWE. Dr Wioleta Drobik

166 Wstęp do statystyki matematycznej

Rozpoznawanie obrazów

Metody systemowe i decyzyjne w informatyce

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

STATYSTYKA MATEMATYCZNA

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Prawdopodobieństwo i rozkład normalny cd.

Test dwustronny: H 0 : p= 1 2

Natalia Neherbecka. 11 czerwca 2010

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

1.1 Klasyczny Model Regresji Liniowej

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

Analiza danych ilościowych i jakościowych

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Spis treści 3 SPIS TREŚCI

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Hipotezy statystyczne

Ekonometria. Metodologia budowy modelu. Jerzy Mycielski. Luty, 2011 WNE, UW. Jerzy Mycielski (WNE, UW) Ekonometria Luty, / 18

Wojciech Skwirz

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

METODY STATYSTYCZNE W BIOLOGII

Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni

Wykład 5 Teoria eksperymentu

Metody Statystyczne. Metody Statystyczne. #8 Błąd I i II rodzaju powtórzenie. Dwuczynnikowa analiza wariancji

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Transkrypt:

Metody statystyczne w lokalizacji genów Instytut Matematyki Uniwersytet Wrocławski Zakopane, 06/09/2016

Plan Lokalizacja genów

Plan Lokalizacja genów Wielokrotne testowanie

Plan Lokalizacja genów Wielokrotne testowanie Kryteria wyboru modelu

Plan Lokalizacja genów Wielokrotne testowanie Kryteria wyboru modelu Zmodyfikowane wersje Bayesowskiego Kryterium Informacyjnego

Plan Lokalizacja genów Wielokrotne testowanie Kryteria wyboru modelu Zmodyfikowane wersje Bayesowskiego Kryterium Informacyjnego (Sorted L-one penalized estimation)

Plan Lokalizacja genów Wielokrotne testowanie Kryteria wyboru modelu Zmodyfikowane wersje Bayesowskiego Kryterium Informacyjnego (Sorted L-one penalized estimation) Symulacje komputerowe

Struktura DNA

Zmienność genetyczna w populacjach ludzkich Około 99,9% informacji genetycznej jest dokładnie taka sama u wszystkich ludzi Polimorfizm to różnica w strukturze DNA, która wystȩpuje u co najmniej 1% populacji Polimorfizm Pojedynczego Nukelotydu (Single Nucleotide Polymorphism, SNP) - polimorfizm w pojedynczej bazie nukleotydowej: Typowy SNP: pozycja w której - 85% populacji ma Cytozynȩ (C) - 15% ma Tyminȩ (T) Zwykle w danym lokusie wystȩpujȩ tylko dwie formy SNPa trzy genotypy : AA, Aa, aa

Główny cel GŁÓWNY CEL: identyfikacja mutacji które wpływaja na badana cechȩ

Główny cel GŁÓWNY CEL: identyfikacja mutacji które wpływaja na badana cechȩ Przykład - identyfikacja pacjentów korzystnie reaguja cych na terapiȩ

Główny cel GŁÓWNY CEL: identyfikacja mutacji które wpływaja na badana cechȩ Przykład - identyfikacja pacjentów korzystnie reaguja cych na terapiȩ Y - cecha ilościowa

Główny cel GŁÓWNY CEL: identyfikacja mutacji które wpływaja na badana cechȩ Przykład - identyfikacja pacjentów korzystnie reaguja cych na terapiȩ Y - cecha ilościowa Przykłady: zmiana ciśnienia krwi, poziomu cholesterolu

Struktura danych Y = (Y 1,, Y n ) T - wektor wartości cechy dla n pacjentów

Struktura danych Y = (Y 1,, Y n ) T - wektor wartości cechy dla n pacjentów T = (T 1,, T n ) T, T i {0, 1} - wskaźnik terapii

Struktura danych Y = (Y 1,, Y n ) T - wektor wartości cechy dla n pacjentów T = (T 1,, T n ) T, T i {0, 1} - wskaźnik terapii G n m - macierz genotypów

Struktura danych Y = (Y 1,, Y n ) T - wektor wartości cechy dla n pacjentów T = (T 1,, T n ) T, T i {0, 1} - wskaźnik terapii G n m - macierz genotypów Zwykle n k 100 lub k 1000, m k 100, 000

Struktura danych Y = (Y 1,, Y n ) T - wektor wartości cechy dla n pacjentów T = (T 1,, T n ) T, T i {0, 1} - wskaźnik terapii G n m - macierz genotypów Zwykle n k 100 lub k 1000, m k 100, 000 Typowe kodowanie oddziaływań addytywnych 0 gdy G ij = AA Z ij = 1 gdy G ij = Aa 2 gdy G ij = aa

Fikcyjny przykład - obniżenie cśnienia krwi Trait 80 100 120 140 160 0 1 Treatment

Grupa kontrolna Mean Trait Value 130 140 150 0 1 2 genotypes

Grupa zabiegowa Mean Trait Value 120 140 0 1 2 genotypes

Wpływ leku Difference in Mean Trait values 30 20 10 0 10 0 1 2 genotypes

Gene-Treatment Interaction mean_trait 80 100 120 140 0 1 2 genotypes

Model statystyczny m m Y i = β 0 + β 1 T i + ν j Z ij + γ j Z ij T i + ϵ i, ϵ i N(0, σϵ 2 ) j=1 j=1

Model statystyczny m m Y i = β 0 + β 1 T i + ν j Z ij + γ j Z ij T i + ϵ i, ϵ i N(0, σϵ 2 ) j=1 j=1 Y n 1 = X n p β p 1 + ϵ n 1

Model statystyczny m m Y i = β 0 + β 1 T i + ν j Z ij + γ j Z ij T i + ϵ i, ϵ i N(0, σϵ 2 ) j=1 j=1 Y n 1 = X n p β p 1 + ϵ n 1 p = m + 2, X = [1 T Z ZT ], β = [β 0, β 1, ν, γ] T

Model statystyczny m m Y i = β 0 + β 1 T i + ν j Z ij + γ j Z ij T i + ϵ i, ϵ i N(0, σϵ 2 ) j=1 j=1 Y n 1 = X n p β p 1 + ϵ n 1 p = m + 2, X = [1 T Z ZT ], β = [β 0, β 1, ν, γ] T a) Identyfikacja istotnych genów - wybór modelu statystycznego b) Predykcja: przewidywanie indywidualnej odpowiedzi na terapȩ

Indywidualne testy Prosta regresja liniowa Y i = β 0 + β j X ij + ϵ i, ϵ i N(0, σ 2 ϵ )

Indywidualne testy Prosta regresja liniowa Y i = β 0 + β j X ij + ϵ i, ϵ i N(0, σ 2 ϵ ) ˆβ j : estymator liczony metoda najmniejszych kwadratów β j ˆβ j N(β j, σ 2 j )

Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0

Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c

Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c)

Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c) c = Φ 1 ( 1 α 2 )

Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c) c = Φ 1 ( 1 α 2 H 0 przyjȩta H 0 odrzucona H 0 prawdziwa U V p 0 H 0 fałszywa T S p 1 W R p )

Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c) c = Φ 1 ( 1 α 2 H 0 przyjȩta H 0 odrzucona H 0 prawdziwa U V p 0 H 0 fałszywa T S p 1 W R p F W ER = P (V > 0), F DR = E ( ) V R 1 )

Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c) c = Φ 1 ( 1 α 2 H 0 przyjȩta H 0 odrzucona H 0 prawdziwa U V p 0 H 0 fałszywa T S p 1 W R p F W ER = P (V > 0), F DR = E ( ) V R 1 E(V ) = αp 0 )

Wielokrotne testowanie (1) H 0j : β j = 0 vs β j 0 Odrzucamy H 0j gdy z j = ˆβ j σ j > c Poziom istotności: α = P H0j ( z j > c) c = Φ 1 ( 1 α 2 H 0 przyjȩta H 0 odrzucona H 0 prawdziwa U V p 0 H 0 fałszywa T S p 1 W R p F W ER = P (V > 0), F DR = E ( ) V R 1 E(V ) = αp 0 α = 005, p 0 = 2000 E(V ) = 100 )

Procedury wielokrotnego testowania Korekta Bonferroniego: Stosujemy poziom istotności α p

Procedury wielokrotnego testowania Korekta Bonferroniego: Stosujemy poziom istotności α p p 0 p 0 F W ER = P { z j > c} P ({ z j > c} = p 0 α/p < α j=1 j=1

Procedury wielokrotnego testowania Korekta Bonferroniego: Stosujemy poziom istotności α p p 0 p 0 F W ER = P { z j > c} P ({ z j > c} = p 0 α/p < α j=1 j=1 ) Odrzucamy H 0j gdy z j Φ (1 1 α 2p = 2 log p(1 + o p )

Procedury wielokrotnego testowania Korekta Bonferroniego: Stosujemy poziom istotności α p p 0 p 0 F W ER = P { z j > c} P ({ z j > c} = p 0 α/p < α j=1 j=1 ) Odrzucamy H 0j gdy z j Φ (1 1 α 2p = 2 log p(1 + o p ) Procedura Benjaminiego-Hochberga (1) z (1) z (2) z (p) (2) Ustal najwiȩksze j takie, że Nazwij ten indeks j SU z (j) Φ 1 (1 α j ), α j = α j 2p, (1) (3) Odrzuć H (j) wtedy i tylko wtedu gdy j j SU

Korekta Bonferroniego y * 0 1 2 3 4 Sorted y Bonferroni level 0 10 20 30 40 50 k

Korekta Benjaminiego-Hochberga y * 0 1 2 3 4 Sorted y BH level 0 10 20 30 40 50 k

Kontrola FDR (Benjamini,Hochberg, JRSSB 1995) Jeżeli z 1,, z p sa niezależne to BH kontroluje FDR na poziomie

Kontrola FDR (Benjamini,Hochberg, JRSSB 1995) Jeżeli z 1,, z p sa niezależne to BH kontroluje FDR na poziomie [ ] V FDR = E = α p 0 R 1 p (2)

Kontrola FDR (Benjamini,Hochberg, JRSSB 1995) Jeżeli z 1,, z p sa niezależne to BH kontroluje FDR na poziomie [ ] V FDR = E = α p 0 R 1 p (2) (Benjamini, Yekutieli, Ann Statist 2001) Jeżeli statystyki testowe sa "dodatnio skorelowane"to BH kontroluje FDR na poziomie α p 0 p Niezależnie od stopnia i rodzaju zależności miȩdzy statystykami testowymi FDR jest kontrolowane jeżeli z (j) porównujemy z ) Φ (1 1 jα 2p p i=1 1 i

Asymptotyczna optymalność gdy testy sa niezależne τ = p p 0 p - procent hipotez alternatywnych (rzadkość) τ 0 gdy p

Asymptotyczna optymalność gdy testy sa niezależne τ = p p 0 p - procent hipotez alternatywnych (rzadkość) τ 0 gdy p Abramovich, Benjamini, Donoho and Johnstone, AnnStatist 2006 - estymacja β z wykorzystaniem BH jest asymptotycznie optymalna (minimalizacja ˆβ β )

Asymptotyczna optymalność gdy testy sa niezależne τ = p p 0 p - procent hipotez alternatywnych (rzadkość) τ 0 gdy p Abramovich, Benjamini, Donoho and Johnstone, AnnStatist 2006 - estymacja β z wykorzystaniem BH jest asymptotycznie optymalna (minimalizacja ˆβ β ) Bogdan, Chakrabarti, Frommlet, Ghosh, AnnStatist 2011 - minimalizacja średniego kosztu, γ 0 - koszt błȩdu I rodzaju (fałszywego odkrycia), γ A - koszt błȩdu II rodzaju (pominiȩcie istotnego składnika)

Asymptotyczna optymalność gdy testy sa niezależne τ = p p 0 p - procent hipotez alternatywnych (rzadkość) τ 0 gdy p Abramovich, Benjamini, Donoho and Johnstone, AnnStatist 2006 - estymacja β z wykorzystaniem BH jest asymptotycznie optymalna (minimalizacja ˆβ β ) Bogdan, Chakrabarti, Frommlet, Ghosh, AnnStatist 2011 - minimalizacja średniego kosztu, γ 0 - koszt błȩdu I rodzaju (fałszywego odkrycia), γ A - koszt błȩdu II rodzaju (pominiȩcie istotnego składnika) Korekta Bonferroniego jest asymptotycznie optymalna gdy τ 1 p (p p 0 = const,ekstremalna rzadkość)

Asymptotyczna optymalność gdy testy sa niezależne τ = p p 0 p - procent hipotez alternatywnych (rzadkość) τ 0 gdy p Abramovich, Benjamini, Donoho and Johnstone, AnnStatist 2006 - estymacja β z wykorzystaniem BH jest asymptotycznie optymalna (minimalizacja ˆβ β ) Bogdan, Chakrabarti, Frommlet, Ghosh, AnnStatist 2011 - minimalizacja średniego kosztu, γ 0 - koszt błȩdu I rodzaju (fałszywego odkrycia), γ A - koszt błȩdu II rodzaju (pominiȩcie istotnego składnika) Korekta Bonferroniego jest asymptotycznie optymalna gdy τ 1 p (p p 0 = const,ekstremalna rzadkość) BH jest asymptotycznie optymalna gdy τ 0 i τp C (0, ]

Badania symulacyjne (Frommlet, Ruhaltinger, Twarog and Bogdan, 2011, CSDA) Próba POPRES rzeczywistych genomów z dbgap 309790 SNPów dla 649 osobników pochodzenia europejskiego

Badania symulacyjne (Frommlet, Ruhaltinger, Twarog and Bogdan, 2011, CSDA) Próba POPRES rzeczywistych genomów z dbgap 309790 SNPów dla 649 osobników pochodzenia europejskiego k = 40 przyczynowych niezależnych SNPów

Badania symulacyjne (Frommlet, Ruhaltinger, Twarog and Bogdan, 2011, CSDA) Próba POPRES rzeczywistych genomów z dbgap 309790 SNPów dla 649 osobników pochodzenia europejskiego k = 40 przyczynowych niezależnych SNPów 1000 replikacji z modelu addytywnego M Y = X M β M + ϵ, ϵ i (0, 1)

Badania symulacyjne (Frommlet, Ruhaltinger, Twarog and Bogdan, 2011, CSDA) Próba POPRES rzeczywistych genomów z dbgap 309790 SNPów dla 649 osobników pochodzenia europejskiego k = 40 przyczynowych niezależnych SNPów 1000 replikacji z modelu addytywnego M Y = X M β M + ϵ, ϵ i (0, 1) β j równomiernie rozłożone na odcinku [027, 066]

Power 1 09 08 mbic2 mbic1 BH Bonf Power 07 06 05 04 03 02 01 0 0005 001 0015 002 0025 003 0035 004 Heritability

Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx

Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx Y = β 0 + k i=1 β ix i + ϵ

Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx Y = β 0 + k i=1 β ix i + ϵ Ĉov(Y, X 1 ) = β 1 ˆV arx1 + k i=2 β iĉov(x 1, X i ) + Ĉov(X 1, ϵ)

Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx Y = β 0 + k i=1 β ix i + ϵ Ĉov(Y, X 1 ) = β 1 ˆV arx1 + k i=2 β iĉov(x 1, X i ) + Ĉov(X 1, ϵ) Załóżmy, że dla i > 1, Ĉov(X 1, X i ) N(0, σ 2 c )

Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx Y = β 0 + k i=1 β ix i + ϵ Ĉov(Y, X 1 ) = β 1 ˆV arx1 + k i=2 β iĉov(x 1, X i ) + Ĉov(X 1, ϵ) Załóżmy, że dla i > 1, Ĉov(X 1, X i ) N(0, σ 2 c ) E k i=2 β iĉov(x 1, X i ) = 0

Problem z testami pojedynczymi ˆβ X Ĉov(Y,X) ˆV arx Y = β 0 + k i=1 β ix i + ϵ Ĉov(Y, X 1 ) = β 1 ˆV arx1 + k i=2 β iĉov(x 1, X i ) + Ĉov(X 1, ϵ) Załóżmy, że dla i > 1, Ĉov(X 1, X i ) N(0, σ 2 c ) E k i=2 β iĉov(x 1, X i ) = 0 V ar( k i=2 β iĉov(x 1, X i )) k i=2 β2 i σ2 c

Informacyjne kryteria wyboru modelu (1) Cel: Estymacja β w modelu Y = X n p β + ϵ, ϵ N(0, σ 2 I n n ), p >> n

Informacyjne kryteria wyboru modelu (1) Cel: Estymacja β w modelu Y = X n p β + ϵ, ϵ N(0, σ 2 I n n ), p >> n Zadanie wykonalne przy założeniu,że liczba niezerowych elementów β 0 = k << n (założenie rzadkości)

Informacyjne kryteria wyboru modelu (1) Cel: Estymacja β w modelu Y = X n p β + ϵ, ϵ N(0, σ 2 I n n ), p >> n Zadanie wykonalne przy założeniu,że liczba niezerowych elementów β 0 = k << n (założenie rzadkości) Kryteria wyboru modelu: minimalizujemy Y Xβ 2 + pen(k)

Informacyjne kryteria wyboru modelu (2) Bayesowskie Kryterium Informacyjne, BIC : pen(k) = σ 2 k log n

Informacyjne kryteria wyboru modelu (2) Bayesowskie Kryterium Informacyjne, BIC : pen(k) = σ 2 k log n BIC nie jest zgodne gdy p n (Bogdan et al (2008, QREI))

Informacyjne kryteria wyboru modelu (2) Bayesowskie Kryterium Informacyjne, BIC : pen(k) = σ 2 k log n BIC nie jest zgodne gdy p n (Bogdan et al (2008, QREI)) Risk Inflation Criterion [RIC, Foster and George (1994)] pen(k) = 2σ 2 k log p - "korekta Bonferroniego"

Informacyjne kryteria wyboru modelu (2) Bayesowskie Kryterium Informacyjne, BIC : pen(k) = σ 2 k log n BIC nie jest zgodne gdy p n (Bogdan et al (2008, QREI)) Risk Inflation Criterion [RIC, Foster and George (1994)] pen(k) = 2σ 2 k log p - "korekta Bonferroniego" BHRIC (Abramovich et al (2006), Foster and Stine (1999), Birge and Massart (2001)) pen(k) = 2σ 2 k i=1 log(p/i) - "korekta BH"

Informacyjne kryteria wyboru modelu (2) Bayesowskie Kryterium Informacyjne, BIC : pen(k) = σ 2 k log n BIC nie jest zgodne gdy p n (Bogdan et al (2008, QREI)) Risk Inflation Criterion [RIC, Foster and George (1994)] pen(k) = 2σ 2 k log p - "korekta Bonferroniego" BHRIC (Abramovich et al (2006), Foster and Stine (1999), Birge and Massart (2001)) pen(k) = 2σ 2 k i=1 log(p/i) - "korekta BH" Bogdan et al (Genetics, 2004), Żak-Szatkowska and Bogdan (CSDA,2011) mbic1, mbic2 - RIC i mric + kara σ 2 k log n

Wypukła relaksacja - LASSO, (Tibshirani, JRSSB 1995) LASSO to rozwia zanie problemu optymalizacji wypukłej { 1 argmin b y Xb 2 2 2 + λ L b 1 }, (LASSO) gdzie λ L > 0 jest parametrem wygładzaja cym

Wypukła relaksacja - LASSO, (Tibshirani, JRSSB 1995) LASSO to rozwia zanie problemu optymalizacji wypukłej { 1 argmin b y Xb 2 2 2 + λ L b 1 }, (LASSO) gdzie λ L > 0 jest parametrem wygładzaja cym Trudność - wybór λ L

Wypukła relaksacja - LASSO, (Tibshirani, JRSSB 1995) LASSO to rozwia zanie problemu optymalizacji wypukłej { 1 argmin b y Xb 2 2 2 + λ L b 1 }, (LASSO) gdzie λ L > 0 jest parametrem wygładzaja cym Trudność - wybór λ L λ L = 2 log p n - korekta Bonferroniego

Wypukła relaksacja - LASSO, (Tibshirani, JRSSB 1995) LASSO to rozwia zanie problemu optymalizacji wypukłej { 1 argmin b y Xb 2 2 2 + λ L b 1 }, (LASSO) gdzie λ L > 0 jest parametrem wygładzaja cym Trudność - wybór λ L 2 log p n λ L = - korekta Bonferroniego walidacja krzyżowa - optymalizacja własności predykcyjnych

(Sorted L-One Penalized Estimation, Bogdan, van den Berg, Sabatti, Su and Candés (AOAS, 2015)) to rozwia zanie problemu wypukłego 1 argmin b y Xb p 2 2 2 + σ λ i b (i), i=1 () gdzie b (1) b (p) i λ 1 λ p 0

Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p

Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi

Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi Interesuja ce własności predykcyjne

Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi Interesuja ce własności predykcyjne Ogólnodostȩpne pakiety na CRAN

Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi Interesuja ce własności predykcyjne Ogólnodostȩpne pakiety na CRAN i) - Bogdan et al 2015, autor E Patterson

Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi Interesuja ce własności predykcyjne Ogólnodostȩpne pakiety na CRAN i) - Bogdan et al 2015, autor E Patterson ii) grp - grupowe (wybór grup predykatorów), [Brzyski et al (arxiv, 2015)], autor - A Gossman

Kontrola FDR Gdy X i X j = 0 dla i j, to cia g λ i := Φ 1 (1 i q ) 2p pozwala na kontrolȩ FDR na poziomie qp 0 /p Heurystyczne procedury wyboru cia gu λ kontroluja cego FDR gdy regresory sa niezależnymi zmiennymi losowymi Interesuja ce własności predykcyjne Ogólnodostȩpne pakiety na CRAN i) - Bogdan et al 2015, autor E Patterson ii) grp - grupowe (wybór grup predykatorów), [Brzyski et al (arxiv, 2015)], autor - A Gossman iii) gene - aplikacja do badań asocjacyjnych, [Brzyski et al (przyjȩte do druku w Genetics)], autor - P Sobczyk

Symulacje w kontekście genetycznym n = p = 5000, niezależne SNPy

Symulacje w kontekście genetycznym n = p = 5000, niezależne SNPy Scenariusz 1: Y = Xβ + z - idealny model

Symulacje w kontekście genetycznym n = p = 5000, niezależne SNPy Scenariusz 1: Y = Xβ + z - idealny model Scenariusz 2: Nieliniowość - efekty dominancji: z ij = { 1 for aa, AA 1 for aa, (3) y = [X, Z][β X, β Z] + ϵ Szukamy tylko efektów addytywnych

Symulacje w kontekście genetycznym n = p = 5000, niezależne SNPy Scenariusz 1: Y = Xβ + z - idealny model Scenariusz 2: Nieliniowość - efekty dominancji: z ij = { 1 for aa, AA 1 for aa, (3) y = [X, Z][β X, β Z] + ϵ Szukamy tylko efektów addytywnych Scenariusze 3 i 4: Błȩdy z rozkładu Laplace a lub z pewnym odsetkiem obserwacji odstaja cych

Model idealny λ(i) 36 38 40 42 44 (a) 0 10 20 30 40 50 i λ G q=005 λ MC q=005 FDR 000 002 004 006 008 010 (b) λ G λ MC Marginal tests 0 10 20 30 40 50 number of relevant features Power 03 04 05 06 07 08 09 (c) λ G λ MC Marginal tests 0 10 20 30 40 50 number of relevant features

Odstȩpstwa od założeń λ G Marginal tests FDR 000 004 008 Nonlinearity Laplace errors Outliers FDR 000 004 008 0 10 20 30 40 50 0 10 20 30 40 50 number of relevant features number of relevant features Power 03 05 07 09 Nonlinearity Laplace errors Outliers Power 03 05 07 09 0 10 20 30 40 50 number of relevant features 0 10 20 30 40 50 number of relevant features

Własności predykcyjne 1 Su and Candes (Ann Statist, 2016) - asymptotyczna optymalność gdy zmienne sa ortogonalne lub niezależne gausowskie 2 Nowak and Figuereido (AISTATS, 2016) - skupianie skorelowanych predykatorów i optymalna predykcja dla skorelowanych gaussowskich planów eksperymentu

Własności predykcyjne FDR 0 20 40 60 80 100 (a) 0 10 20 30 40 50 number of relevant features Power 40 50 60 70 80 90 100 (b) 0 10 20 30 40 50 number of relevant features percentage mse of µ 40 50 60 70 80 90 100 (c) debiased, q=01 LASSO, cv LASSO debiased, α=01 0 10 20 30 40 50 number of relevant features

Predykcja - ukryte zmienne X n p = F n 20 C 20 p + ϵ 1 Y = F β + ϵ Tablica : Procentowy bła d predykcji p n adaptive lasso q = 01 1000 1000 0209 0257 2000 2000 0251 0242 2000 2000 0346 0240

Analiza danych rzeczywistych rs2303790 rs5883 FullBH UnivBH BICf BICb g mc LASSObonf LASSOcv rs7946766 rs2575875 rs2066715 v_c9_107555091 rs611229 rs5801 rs12314392 rs11988 rs62136410 v_c16_57095439 rs509360 rs149470424 v_c2_44223117 v_c1_109817524 rs5802 No Yes No Yes No Yes No Yes No Yes No Yes No Yes No Yes Selection

Współpracownicy 1 Polska - M Żak-Szatkowska, P Biecek (UW), D Brzyski (UJ), P Sobczyk (PWr), P Szulc (PWr) 2 Vienna University, Medical University of Vienna - A Futschik, A Baierl, F Frommlet, F Koenig 3 TU Muenchen - C Czado, V Erhart 4 Stanford - EJ Candes, C Sabatti, W Su, E Van den Berg, E Patterson, C Peterson 5 Tulane University - A Gossman