Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Podobne dokumenty
Metody oparte na logicznej regresji. zastosowaniu do wykrywania interakcji SNPów

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Prawdopodobieństwo i statystyka

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Testowanie hipotez statystycznych.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Metody systemowe i decyzyjne w informatyce

Testowanie hipotez statystycznych.

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

Hipotezy proste. (1 + a)x a, dla 0 < x < 1, 0, poza tym.

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Statystyka Matematyczna Anna Janicka

Metoda najmniejszych kwadratów

Stosowana Analiza Regresji

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

STATYSTYKA MATEMATYCZNA WYKŁAD 5. 2 listopada 2009

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Testowanie hipotez statystycznych

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Weryfikacja hipotez statystycznych

Metody systemowe i decyzyjne w informatyce

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Testowanie hipotez statystycznych

Wykład 12 Testowanie hipotez dla współczynnika korelacji

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

STATYSTYKA MATEMATYCZNA WYKŁAD grudnia 2009

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Metody systemowe i decyzyjne w informatyce

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Monte Carlo, bootstrap, jacknife

Weryfikacja hipotez statystycznych

O ŚREDNIEJ STATYSTYCZNEJ

Kolokwium ze statystyki matematycznej

Jądrowe klasyfikatory liniowe

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Statystyczna analiza danych (molekularnych) modele liniowe

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

0.1 Modele Dynamiczne

0.1 Modele Dynamiczne

Wykład 5 Teoria eksperymentu

Stosowana Analiza Regresji

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

MODELE I METODY STATYSTYKI MATEMATYCZNEJ

Statystyka w przykładach

STATYSTYKA MATEMATYCZNA WYKŁAD października 2009

Elementy statystyki STA - Wykład 5

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Rozpoznawanie obrazów

Metoda największej wiarogodności

Własności statystyczne regresji liniowej. Wykład 4

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Testy post-hoc. Wrocław, 6 czerwca 2016

Ekonometria. Metodologia budowy modelu. Jerzy Mycielski. Luty, 2011 WNE, UW. Jerzy Mycielski (WNE, UW) Ekonometria Luty, / 18

Regresyjne metody łączenia klasyfikatorów

Metody Ekonometryczne

Rozpoznawanie obrazów

Testowanie hipotez statystycznych.

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

Przyczynowość Kointegracja. Kointegracja. Kointegracja

1 Gaussowskie zmienne losowe

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

Algorytmy MCMC i ich zastosowania statystyczne

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Testowanie hipotez statystycznych

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE

Czasowy wymiar danych

Statystyka matematyczna. Wykład VI. Zesty zgodności

Matematyczne metody w naukach biomedycznych: regresja i analiza wariancji.

Gdy n jest duże, statystyka ta (zwana statystyką chikwadrat), przy założeniu prawdziwości hipotezy H 0, ma w przybliżeniu rozkład χ 2 (k 1).

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 13 i 14 - Statystyka bayesowska

Metoda momentów i kwantyli próbkowych. Wrocław, 7 listopada 2014

Wyk lad 9 Baza i wymiar przestrzeni liniowej

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Testowanie hipotez statystycznych

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

Optymalizacja ciągła

Wprowadzenie Model ARMA Sezonowość Prognozowanie Model regresji z błędami ARMA. Modele ARMA

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 11 i 12 - Weryfikacja hipotez statystycznych

Statystyka. Wykład 2. Krzysztof Topolski. Wrocław, 11 października 2012

Wykład 3 Momenty zmiennych losowych.

Prawdopodobieństwo i rozkład normalny cd.

Wykład 3 Momenty zmiennych losowych.

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 9. TESTOWANIE HIPOTEZ STATYSTYCZNYCH cd.

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Dane zgrupowane: każda obserwacja należy do jednej grupy i jest tylko jeden czynnik grupujący

Estymacja parametrów rozkładu cechy

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Transkrypt:

Porównanie modeli logicznej regresji z klasycznymi modelami regresji liniowej i logistycznej Instytut Matematyczny, Uniwersytet Wrocławski Małgorzata Bogdan Instytut Matematyki i Informatyki, Politechnika Wrocławska Wisła, 8.12.2010

1 2 3 Testy chi-kwadrat Testy Z 4

Niech Y = (Y 1,..., Y n ) T - n wymiarowy wektor cechy gęstość Y i względem pewnej σ skończonej miary ν { } θi y i ψ(θ i ) f (y i, θ i, φ) = exp h(y i, φ), φ θ i Θ = { θ R : 0 < } h(y, φ)e θy/φ dν(y) < µ(θ i ) := E(Y i )

Niech X i = (1, X i1,..., X im ) wektor m wartości zmiennych objaśniających µ(θ) = (µ(θ 1 ),..., µ(θ n )), wektor wartości oczekiwanych cechy g(µ(θ i )) = X i β, g różniczkowalna, monotoniczna β = (β 0, β 1,..., β m ) T wektor nieznanych parametrów. µ(θ i ) g(z) = µ 1 (z) Regresja Regresja logistyczna log-liniowa exp{θ i } 1+exp{θ ( i }) exp{θ i } log log(z) z 1 z

Regresja logiczna Niech X 1, X 2,..., X m będą zmiennymi binarnymi. wyrażeniem logicznym jest każda kombinacja zmiennych X i, uzyskana przez zastosowanie operatorów logicznych (AND), (OR) oraz C (NOT) Model regresji logicznej Dopasowujemy model regresji g(e[y ]) = β 0 + t β j L j, gdzie L j są wyrażeniami logicznymi otrzymanymi ze zmiennych binarnych X i, i = 1, 2,..., m. Rozmiar modelu to liczba zmiennych binarnych X j, j = 1, 2,..., m w modelu. j=1

Przykład: X = (X 1, X 2,..., X m ) - macierz zmiennych binarnych; Model regresji logicznej: g(e(y )) = β X 1 (X 2 X 3 ) Klasyczny model regresji liniowej: g(e(y )) = β 1 X 1 + γ (2,3) X 2 X 3 + γ (1,2,3) X 1 X 2 X 3 β 1 = γ (2,3) = β, γ (1,2,3) = β Mniejsza liczba parametrów do estymacji Mniejsza liczba stopni swobody w klasycznych testach

Rozważana sytuacja Model: m add Ŷ i = β 0 + β j X ij + γ (j,k) X ij X ik + ε i j=1 (j,k) I ε i N (0, σ 2 ) I = {(j, k) : j, k = 1, 2,..., m add }, m add liczba możliwych efektów głównych. Klasyczna Regresja regresja liniowa logiczna L.ef. głównych m add m ( 2 m L.ef. interakcji m 2) 2 (2m ) 2 Liczba testów k LIN = m + ( ) m 2 k LOG = 2m + 2 (2m ) 2 Gdy m = 200, k LIN = 20100, k LOG = 160000.

FWER - całkowite p-stwo błędu I rodzaju Gdy FWER = 0.05, poziomy istotności dla pojedynczego testu: Efekt główny Efekt Interakcji Regresja liniowa 0.000125 1.256281 10 6 Regresja logiczna 6.25 10 5 1.566416 10 7 Zwiększony problem wielokrotnego testowania Większa kara na wymiar modelu

Testy chi-kwadrat Testy Z

Testy chi-kwadrat Testy Z m add Ŷ i = β 0 + β j X ij + γ (j,k) X ij X ik + ε i j=1 (j,k) I θ = (β 1, β 2,..., β madd, γ (1,2),..., γ (madd 1,m add )) = (θ 1, θ 2,..., θ K ) R K Tylko jeden istotny efekt w prawdziwym modelu Testujemy : H 0,j : θ j = 0 przy H 1,j : θ j 0, j = 1, 2,..., K Y N n (Xζ, σ 2 I), gdzie ζ = (β 0, θ j ) R t R 2 H 0,j : Aζ = 0 przy H 1,j : Aζ 0, j = 1, 2,..., K A znana macierz (t k) t, rzędu (t k) Tutaj t = 2, k = 1, A = (0, 1).

Testy chi-kwadrat Testy Z TWIERDZENIE Dla testowania Aζ = 0 w modelu liniowym F = ˆζ A (A(X X) 1 A ) 1 A ˆζ (t k) ˆσ 2 F (t k,n t) gdzie ˆζ i ˆσ2 są estymatorami NW ζ i σ 2 odpowiednio. ( ζ A (A(X X) 1 A ) 1 Aζ σ 2 ), Gdy σ jest znane, statystyką testową dla testowania Aζ = 0 jest χ 2 = ˆζ A (A(X X) 1 A ) 1 A ˆζ σ 2 χ 2 t k ( ζ A (A(X X) 1 A ) 1 Aζ σ 2 ),

Testy chi-kwadrat Testy Z Prawdziwy model: Y i = β(x C i,1 X C i,2) + ɛ i, i {1, 2,..., n}, ɛ i N (0, 1). p = P(X i,j = 1) = 0.5, n = 200, σ 2 = 1.0 Hipoteza Model Parametr DF DF niecentralności χ 2 (df ) F df1,df 2 np 2 (1 p) 2 γ 2 (1,2) H 0 : γ (1,2) = 0 Ŷ i = β 0 + β 1X i,1 + β 2X i,2+ σ 2 df = 1 df 1 = 1 H 1 : γ (1,2) 0 +γ (1,2) X i,1 X i,2 + ɛ i df 2 = n 4 np(1 p)(2 3p p H 0 : θ = 0 Ŷ i = β 0 + β 1X i,1 + β 2 ) 2X i,2+ σ 2 df = 3 df 1 = 3 H 1 : θ 0 +γ (1,2) X i,1x i,2 + ɛ i df 2 = n 4

Testy chi-kwadrat Testy Z

Testy chi-kwadrat Testy Z Prawdziwy model : Y i = β(x C i,1 X C i,2) + ɛ i, i {1, 2,..., n}, ɛ i N (0, 1). Niech Y (1) = Y W 1, Y (2) = Y W 2, W 1, W 2 określone, rozłączne warunki µ 1 = E(Y (1) ), µ 2 = E(Y (2) ) Testujemy : H 0 : µ 1 = µ 2 przy H 1 : µ 1 µ 2. Z = Y 1 Y 2. σ 2 1 n 1 + σ2 2 n 2

Testy chi-kwadrat Testy Z Moc : p = 0.5, n = 200, σ = 1.0 β(z) = P H1 ( Z > z 1 α 2 ) Warunki Poziom ist. Kwantyl (µ 1 µ 2) σ (α) z 1 2 1 α/2 n + σ2 2 1 n 2 W 1 = {X i,1 X i,2 = 0} 1.256281 10 6 βp(1 p) n(1 p 4.846548 2 ) 2β 1 2(1 p)p3 +σ 2 (1+p) 2 W 2 = {X i,1 X i,2 = 1} W 1 = {X C i,1 X C i,2 = 0} 1.566416 10 7 5.244577 W 2 = {X C i,1 X C i,2 = 1} W 1 = {X C i,1 = 0} 6.25 10 5 4.003168 W 2 = {X C i,1 = 1} β(1 p) np(2 p) σ β(1 p) np(1 p) σ

Testy chi-kwadrat Testy Z

Prawdziwy model: Y i = β (X C i,1 X C i,2 ) + ε i, ε i N (0, σ 2 ), Model testowany : Ŷ i = β 0 + γ (1,2) X i,1 X i,2 + ε i, ε i N (0, σ 2 ). Testujemy H 0 : γ (1,2) = 0 przy H 1 : γ (1,2) 0 V = lin(1, X 1 X 2 ), W = lin(1) X V = (1, X 1 X 2 ), X W = 1 dim(v ) = t = 2, dim(w ) = k = 1 Statystyka testowa: F = (n t) P V W Y 2 (t k) P V Y 2 = P V W ˆµ 2 (t k) ˆσ 2

ζ = (β 0, γ (1,2) ), ˆµ = X V ˆζ, A = (0, 1) Macierz bazowa dla V W : C = X V (X V X V ) 1 A P V W ˆµ = C(C C) 1 C ˆµ P V W ˆµ 2 = ˆζA (A(X V X V ) 1 A ) 1 A ˆζ F = P V W ˆµ 2 (t k) ˆσ = ˆζ A (A(X X) 1 A ) 1 A ˆζ 2 (t k) ˆσ 2

Niech a = P V (Y Y ) 2 (Y Y ) 2 E- macierz jedynek n n. Wtedy P W = X W (X W X W ) 1 X W = 1 n E. P W Y = 1 n EY = Y, Y = (Y, Y,..., Y ) a = P V (Y Y ) 2 = P V W Y 2 (Y Y ) 2 P W Y 2 F = (n 2) P V W Y 2 P V Y 2 = (n 2) a P W Y 2 P V Y 2

Min Max średnia β 0 50 a 0.09939975 0.48338378 0.4565 Moc 0 1 0.9613

Dziękuję!

Literatura Plan [1]Ruczinski I., Kooperberg C., LeBlanc M., Logic regression, J. Comput. Graphical Statist. 12 (3),(2003),474-511, [2]Kooperberg C., Ruczinski I., Identifying Interacting SNPs Using Monte Carlo Logic Regression, Genetic Epidemiology 28, 157-170 (2005) [3]Scott J.G. and Berger J.O.,(2010) Bayes and empirical-bayes multiplicity adjustment in the variable-selection problem., Duke University Department of Statistical Science. [4]Holmes,C.C and Denison D.G.T, Classification with Bayesian MARS, Mach. Learn.50(2003), 159-173