Rozdział 1 Wybrane zagadnienia ze statystyki 1.1 Model mieszany Przykład Obserwujemy wzrost odległości ortodontycznej w wieku {8, 10, 12, 14} lat dla 16- chłopców i 11 -dziewcząt Model statystyczny. Dane są dwa ciągi zmiennych losowych Y i1 (t k ) = β i,1,0 + β i,1,1 t k + ε ik1, Y j2 (t k ) = β j,2,0 + β j,2,1 t k + ε jk2 gdzie t k {8, 10, 12, 14} oznacza wiek, próba dla chłopców i = 1,... n 1 (16), próba dla dziewczat j = 1,... n 2 (11). Ponadto błędy ε zarówno pomiedzy chlopcami a dziewczętami oraz w kolejnych latach są niezależne o jednakowym rozkładzie N(0, σ ε ). Parametry β i,1,0 oraz wzrostu β i,1,1 sa swoiste dla i-tego chłopca zas dla j-tej dziewczynki β j,2,0 oraz wzrostu β j,2,1. Zakladamy, ze maja one dwuwymiarowy rozklad normalny, czyli (β i,1,0, β i,1,1 ) N(µ 1, Σ) (β j,2,0, β j,2,1 ) N(µ 2, Σ) z niestrukturalną dwuwymiarową macierzą korelacji Σ wspólna dla obu populacji, zaś µ 1 jest swoiste dla chlopcow zas µ 2 dla dziewczat. Poniższy program estymuje metodą ML wszystkie 8 parametrów modelu, ; 1
by person sex age; ods exclude Dimensions NObs IterHistory ConvergenceStatus LRT; class person sex _age_; random intercept age /type=un subject=person(sex); estimate Difference in intercepts sex 1-1; estimate Difference in slopes age*sex 1-1; Zatem µ 1 = (16.34, 0.78), µ 2 = (17.37, 0.47) [ ] 4.55 0.19 Σ =, σ 0.19 0.02 ɛ = 1.72. Zauwazmy, ze parametry µ 1 oraz µ 2 sa istotnie rozne od zera. Dopasowanie modelu AIC=443. Jest zupelnie naturalne pytanie czy jesli macierz kowariancji bedzie odmienna dla chlopcow czy dziewczynek czy dopasowanie modelu bedzie lepsze. Pytanie to rozwiazemy za pomoca kodu ; by person sex age; class person sex; random intercept age / type=un subject=person(sex) group=sex; estimate Difference in intercepts sex 1-1; estimate Difference in slopes age*sex 1-1; Zauwazmy, 1. model ma o trzy parametry wiecej bo sa dwie macierze kowariancji. Z tym, ze jedna jest dziwna. 2. szacowane parametry wartosci oczekiwanych sa identyczne. 3. AIC=441.7 Poniewaz AIC jest mniejsze zatem naturalnie wydaje sie aby dwa te modele odseparowac i rozpatrywac je oddzielenie, czyli bledy ɛ maja rozklad specyficzny 2
dla chlopcow N(0, σ ch ) oraz dla dziewczat N(0, σ d ) Zauwazmy, ze wowczas AIC badanego modelu jest suma AIC poszczegolnych skladnikow. (UDOWODNIC TEN PROSTY FAKT!) W odseparownych modelach nie ma sensu rozpatrywania wektorow gaussowskich dwuwymiarowych. Zatem Y i1 (t k ) = β 1,0 + β i,1,1 t k + ɛ ik1, Y j2 (t k ) = β 2,0 + β j,2,1 t k + ɛ jk2 gdzie ɛ ik1 N(0, σ ch ), ɛ jk2 N(0, σ d ). Teraz β 1,0 oraz β 2,0 to sa parametry stale i swoiste dla chlopcow i odpowiednio dla dziewczat zas Model ma 8 parametrow β i,1,1 N(µ 1, σ 1 ), β j,2,1 N(µ 2, σ 2 ) ; proc sort data=dental_data(where=(gender=2)) out=example2_2_1; by person sex age; class person sex; random age / type=un subject=person(sex) group=sex; AIC=280.5+146.8=427.3 zatem jest najlepsze. Parametry sa istotne. 1.2 RM-MANOVA Mozna problem opisu danych zaatakowac za pomoca testu RM-Manova. Model ten rozni sie od modelu dwu poziomowej ANOVA - two way ANOVA, gdyz jednym z wyznacznikow jest czas, zas dane sa pobierane od tej samej osoby. W ANOVA proba bylaby zlozona z czlopcow i dzieczynek w roznym wieku. Ponadto inne sa zalozenia modelowe (slabsze). Mamy dane pochodzace z jednowymiarowych rozkladow normalnych. Zatem dla chlopcow i = 1,... n 1 (16), zas Y i1 N(µ 1, Σ), µ 1 = (µ 11, µ 12, µ 13, µ 14 ) Y j2 N(µ 2, Σ), µ 2 = (µ 21, µ 22, µ 23, µ 24 ) 3
dla dziewczat j = 1,... n 2 (11). Niech macierz [ µ11 µ B = 12 µ 13 µ 14 µ 21 µ 22 µ 23 µ 24 ]. Testy dotyczace braku wplywu wieku (ilosci lat) czy plci maja postac H 0 : CBU = [0], gdzie [0] oznacza odpowiednia macierz zerowa, zas macierze C i U to macierze kontrastu. Struktura testu jest nieco inna niż zadawane pytanie. Przeanalizujmy problem. Mianowicie brak wpływu wieku to zaś U = Zatem nasza hipoteza ma postać C = [1, 1], 1 0 0 0 1 0 0 0 1 1 1 1. H 0 : istnieje a 0, µ 1 + µ 2 = a (1, 1, 1, 1). Zauważmy, ze obie populacje laczymy, czyli badamy jedną populację dzieci: chłopców i dziewcząt. Jest to słabsza postac testu niż badanie oddzielnie dwu hipotez odzielnie dla chłopców odzielnie dla dziewcząt Brak zależności od płci, H 0 : istnieje a 1 0, µ 1 = a 1 (1, 1, 1, 1). H 0 : istnieje a 2 0, µ 2 = a 2 (1, 1, 1, 1). H 0 : 4 µ 1i = i=1 4 µ 2j. W tym przypadku macierz C = [1 1] zaś U = [1 1 1 1]. Brak interacji wiek*plec to C = [1 1] zaś 1 0 0 U = 0 1 0 0 0 1. 1 1 1. Zatem nasza hipoteza ma postać j=1 H 0 : istnieje a, µ 1 µ 2 = a (1, 1, 1, 1). Rozwiązanie wykona poniższy program. Testy sa podpisane i jak widac majż jednakowa moc. Sż jeszcze podawane testy jednowymiarowe. 4
/* dalej */ by sex person; /*---------------------------*/ /*--- Code for Output 2.1 ---*/ /*---------------------------*/ proc transpose data=example2_2_1 out=dental prefix=y; by sex person; var y; proc report data=dental split = nowindows spacing=1; column sex person ( age y1 y2 y3 y4); define sex /group sex ; define person /display person ; define y1 /display 8 ; define y2 /display 10 ; define y3 /display 12 ; define y4 /display 14 ; title; format y1--y4 4.1; /*dane mamy zapisane w tabelce*/ ods select ClassLevels Nobs RepeatedLevelInfo Multstat ModelANOVA ; proc glm data=dental ; class sex; model y1 y2 y3 y4=sex/nouni; repeated age 4 (8 10 12 14); manova; Powyzsze hipotezy pozwalaja nam zapisac powyzszy model w postaci regresji. Jednoczesnie mozemy wyznaczyc AKAIKE uruchamiajac program. 5
by sex person; ods exclude Dimensions NObs IterHistory ConvergenceStatus LRT; class person sex _age_; repeated _age_ / type=un subject=person(sex) r; estimate Difference in intercepts sex 1-1; estimate Difference in slopes age*sex 1-1; 1.3 LARS Least Angle Regression Metoda LARS jest w pewnym sensie uogólnieniem metody LASSO. Polega ona na sekwencyjnym dodawaniu do modelu kolejnych zmiennych objaśniających (predyktory) (covariates), których liczba wynosi m. Niech x 1,..., x m będą wektorami odpowiadającymi kolejnym zmiennych np. (wiek,czas reakcji, itp.). Wymiar wektora wynosi n i odpowiada wielkości próby, czyli x j = (x 1j,..., x nj ), gdzie oznacza transpozycje. zakładamy, że wektory x 1,..., x m są liniowo niezależne. Zakładamy, że zmienne są wystandaryzowane, czyli odpowiedzi y = (y 1,..., y n ) zaś dla wszystkich j = 1,..., m n y j = 0, j=1 n x ij = 0, i=1 n x 2 ij = 0 i=1 Przejście do zmiennych niewystandaryzowanych program SAS robi automatycznie. Każdy kandydat β = ( β 1,..., β m ) na współczynniki regresyjne zadaje prognozę µ = m x j βj = X β, j=1 6
gdzie macierz X = X n m = [x 1 x m ]. Mając prognozę definiujemy rezydua jako y X β. Aktualne korelacje rezyduów do predyktorów określa równanie ĉ = c( µ) = X (y µ). (1.1) Ogólnie algorytm działa w następujący sposób. Niech zbiór A oznacza zbiór indeksów predyktorów wziętych do regresji, tzw. zbiór indeksów aktywnych w modelu po k krokach. Zatem β = β A jest różny od zera tylko dla k współrzędnych. Indeksy współrzędnych odpowiadają zbiorowi A. Zbiór predyktorów oraz β zostały tak dobrane, że dla korelacji (1.1) ĉ = c( µ A ) = X (y µ A ) (prognozę oznaczamy przez µ A ) Ĉ = max{ ĉ j }, j A = {j : ĉ j = Ĉ}. Następnie prognoza jest uaktualniana o nowy kierunek u A dla γ µ(γ) = µ A γu A. Jak dobiera się wektor u A? Po pierwsze u A = 1. Ten wektor tworzy równe kąty (mniejsze niż π) ze wszystkimi wektorami macierzy X A = [ sign(ĉ j )x j ] j A. Zatem ponieważ wektory x j sa unormowane wektor a = X u A, jest wektorem o indentycznych a = (a,..., a) dodatnich współrzędnych. Zatem korelacje predyktorów z nowymi rezyduami są równe c j (γ) = x j(y µ(γ)) = x j(y µ A ) γx ju A = ĉ j γa (1.2) i obniżają się w identyczny sposób. Parametr γ dobieramy tak any jedna z korelacji predyktora zrównała się z korelacjami (1.2) wszystkich predyktorów ze zbioru A. 7