Osiem historyjek o modelach liniowych i mieszanych

Podobne dokumenty
Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Nowa oferta edukacyjna Uniwersytetu Wrocławskiego odpowiedzią na współczesne potrzeby rynku pracy i gospodarki opartej na wiedzy

Modelowanie danych hodowlanych

Zastosowanie uogólnionych modeli liniowych i uogólnionych mieszanych modeli liniowych do analizy danych dotyczacych występowania zębiniaków

STATYSTYKA MATEMATYCZNA WYKŁAD listopada 2009

Stosowana Analiza Regresji

Uogolnione modele liniowe

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Ekonometria. Modelowanie zmiennej jakościowej. Jakub Mućk. Katedra Ekonomii Ilościowej

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Dane zgrupowane: każda obserwacja należy do jednej grupy i jest tylko jeden czynnik grupujący

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Testowanie hipotez statystycznych.

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Weryfikacja hipotez statystycznych

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Statystyka i Analiza Danych

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

PDF created with FinePrint pdffactory Pro trial version

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Testowanie hipotez statystycznych.

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Regresja liniowa w R Piotr J. Sobczyk

Modele zapisane w przestrzeni stanów

Metody Statystyczne. Metody Statystyczne.

Metody systemowe i decyzyjne w informatyce

Prawdopodobieństwo i statystyka

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Statystyczna analiza danych (molekularnych) modele liniowe

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Ćwiczenie 5 PROGNOZOWANIE

Metody Statystyczne. Metody Statystyczne. #8 Błąd I i II rodzaju powtórzenie. Dwuczynnikowa analiza wariancji

Regresja i Korelacja

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

Metody systemowe i decyzyjne w informatyce

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Zależność. przyczynowo-skutkowa, symptomatyczna, pozorna (iluzoryczna),

Stanisław Cichocki. Natalia Nehrebecka. Zajęcia 15-16

STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE

Matematyka ubezpieczeń majątkowych r.

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

Natalia Neherbecka. 11 czerwca 2010

Metoda najmniejszych kwadratów

Wprowadzenie do analizy korelacji i regresji

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

Stosowana Analiza Regresji

S t a t y s t y k a, część 3. Michał Żmihorski

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Centralne twierdzenie graniczne

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

Analiza wariancji i kowariancji

1 Modele ADL - interpretacja współczynników

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Statystyczna analiza danych

Prawdopodobieństwo i statystyka r.

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

CECHY ILOŚCIOWE PARAMETRY GENETYCZNE

Ćwiczenia IV

Rozdział 8. Regresja. Definiowanie modelu

Testowanie hipotez statystycznych

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Szeregi czasowe, analiza zależności krótkoi długozasięgowych

Autor: Dariusz Piwczyński 1 Ćwiczenie. Analiza zmienności złożona. Testy wielokrotnych porównań

Elementy statystyki STA - Wykład 5

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

STATYSTYKA POWTORZENIE. Dr Wioleta Drobik-Czwarno

Metody matematyczne w analizie danych eksperymentalnych - sygnały, cz. 2

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Zawansowane modele wyborów dyskretnych

Statystyka. Wykład 9. Magdalena Alama-Bućko. 24 kwietnia Magdalena Alama-Bućko Statystyka 24 kwietnia / 34

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Stopę zbieżności ciagu zmiennych losowych a n, takiego, że E (a n ) < oznaczamy jako a n = o p (1) prawdopodobieństwa szybciej niż n α.

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni

Statystyka. Wykład 8. Magdalena Alama-Bućko. 10 kwietnia Magdalena Alama-Bućko Statystyka 10 kwietnia / 31

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 4 - zagadnienie estymacji, metody wyznaczania estymatorów

Transkrypt:

Osiem historyjek o modelach liniowych i mieszanych Przemyslaw.Biecek@gmail.com, MIM Uniwersytet Warszawski Plan prezentacji 1 politechnika, czyli ANOVA jednokierunkowa, testy post-hoc i analiza kontrastów, 2 mleko i krowy, czyli model mieszany z jednym efektem losowym, 3 mieszkania, czyli regresja prosta, 4 studium snu, czyli model mieszany z jedną zmienna grupującą, 5 mleko i byki, czyli model mieszany z zadaną struktura korelacji, 6 miasta, czyli model mieszany dla danych przestrzennych, 7 węzły chłonne, czyli model hierarchiczny vs. crossed, 8 przeżycia 5-letnie, czyli regresja logistyczna i efekty losowe. 1 / 35

Funkcje o których będziemy mówić # z pakietu stats lm(formula, data, subset, weights, contrasts=null,...) # z pakietu nlme lme(fixed, data, random, correlation, weights, contrasts=null,...) # z pakietu MASS glmmpql(fixed, random, family, data, correlation, weights, verbos=true,...) # z pakietu lme4 lmer(formula, data, REML=TRUE, start=null, verbose=false, weights, contrasts=null,...) glmer(formula, data, family=gaussian, start=null, verbose=false, weights, contrasts=null,...) nlmer(formula, data, start=null, verbose=false, weights, contrasts=null,...) 2 / 35

Oceny na politechnice i dane o szczepieniach ANOVA jednokierunkowa W jednokierunkowej ANOVA porównujemy średnie wartości pewnej cechy ilościowej w rozbiciu na grupy określone przez zmienną jakościową. Przyjmujemy, że poziomy zmiennej jakościowej są charakterystyczne dla całej populacji, a nie tylko dla próby. y i = μ + μ g(i) + ε i ε N (0, σ0) 2 Interesujące nas zagadnienia to: estymacja efektu grupy, test na istotność różnicy średnich, testy post-hoc, testy okreslonych kontrastów. 3 / 35

Oceny na politechnice i dane o szczepieniach ANOVA jednokierunkowa > library(pbimisc) > data(ocenystudentow) > summary(ocenystudentow) student przedmiot wydzial S1 : 3 Algebra :150 ELKA:150 S10 : 3 Analiza I :150 IS :150 S100 : 3 Analiza II:150 IZ :150 S101 : 3 S102 : 3 S103 : 3 (Other):432 wykladowca oceny Alicja (Brzytwa) Fiolkowska :75 Min. :41.00 Bartek (Blizniak) Nowak :75 1st Qu.:61.00 Jurek (Killer) Kowalski :75 Median :67.00 Krzysiek (Kosa) Kwiatkowski :75 Mean :66.31 Mariusz (Rozniczka) Wisniewski:75 3rd Qu.:71.00 Marta (Niezle) Ziolko :75 Max. :94.00 4 / 35

Oceny na politechnice i dane o szczepieniach ANOVA jednokierunkowa 40 50 60 70 80 90 IZ IS IZ ELKA IS ELKA 95% family wise confidence level ELKA IS IZ 5 0 5 Differences in mean levels of wydzial Używamy funkcji lm(stats), HSD.test(agricolae), TukeyHSD(stats) do określenia efektu wydziału. 5 / 35

Oceny na politechnice i dane o szczepieniach ANOVA jednokierunkowa > library(pbimisc) > data(szczepienia) > summary(szczepienia) czas.reakcji l.szczepien Min. : 39.50 0:20 1st Qu.: 77.30 1:20 Median : 99.25 2:20 Mean : 97.89 3:20 3rd Qu.:117.70 4:20 Max. :154.70 > boxplot(czas.reakcji~l.szczepien, data=szczepienia) 6 / 35

Oceny na politechnice i dane o szczepieniach ANOVA jednokierunkowa czas reakcji 60 80 100 120 140 160 180 0 1 2 3 4 liczba szczepien 7 / 35

Mleczność krów Model mieszany z jednym efektem losowym W model mieszanym z jednym czynnikiem losowym interesować nas będzie zróżnicowanie w wartościach średnich pewnej cechy ilościowej w rozbiciu na grupy określone przez zmienną jakościową. Poziomy zmiennej jakościowej nie musza byc reprezentatywne dla całej populacji, mogą być zależne od próby. y i = μ + a g(i) + ε i ε N (0, σ0) 2 a N (0, σa) 2 Interesujące nas zagadnienia to: estymacja zmienności w wartościach średnich, test na istotność średniej, test na istotność czynnika losowego. 8 / 35

Mleczność krów Estymacja / predykcja Parametrami modelu są μ, σ 2 0 i σ2 a, te wartości możemy estymować. Efekty losowych (a i ) to zmienne losowe, nie estymujemy ich ale prognozujemy ich wartości uzywając wyestymowanych współczynników modelu, np. używjąc równań Henderson (Henderson 1984). Dla modelu y = X β + Zγ + ε ewktor efektów stałych i losowych możemy wyznaczyć rozwiązując układ równań [ X T X X T ] [ ] [ ] Z ˆβ X Z T X Z T Z + ˆσ e 2Ĝ = T y ˆγ Z T y 9 / 35

Mleczność krów Model mieszany z jednym efektem losowym > library(pbimisc) > library(lattice) > library(rcolorbrewer) > library(lme4) > > data(mlecznosckrow) > > summary(mlecznosckrow) krowa pomiar krowaa : 4 Min. :19.40 krowab : 4 1st Qu.:24.65 krowac : 4 Median :27.30 krowad : 4 Mean :27.02 krowae : 4 3rd Qu.:29.95 krowaf : 4 Max. :32.00 (Other):16 > dotplot(krowa~pomiar, data=mlecznosckrow, xlab="mlecznosc [kg/dzien]") 10 / 35

Mleczność krów Model mieszany z jednym efektem losowym 11 / 35

Mleczność krów Model mieszany z jednym efektem losowym krowai krowaj krowah krowac krowag krowad krowab krowaf krowaa krowae 20 25 30 mlecznosc [kg/dzien] 12 / 35

Mleczność krów Model mieszany z jednym efektem losowym lm(pomiar~krowa) lm(pomiar~krowa 1) nlme(pomiar~(1 krowa) 13 / 35

Ceny mieszkań Regresja prosta W prostym modelu regresji liniowej interesować nas będzie zależność pewnej cechy ilościowej od innej cechy ilościowej. y i = μ + βx i + ε i ε N (0, σ0) 2 Interesujące nas zagadnienia to: estymacja parametrów modelu μ, β, test na istotność tych współczynników modelu, diagnostyka reszt z modelu, badanie jakości dopasowania modelu. 14 / 35

Ceny mieszkań Regresja prosta > library(pbimisc) > > data(mieszkania) > > summary(mieszkania) cena pokoi powierzchnia dzielnica Min. : 83280 Min. :1.00 Min. :17.00 Biskupin :65 1st Qu.:143304 1st Qu.:2.00 1st Qu.:31.15 Krzyki :79 Median :174935 Median :3.00 Median :43.70 Srodmiescie:56 Mean :175934 Mean :2.55 Mean :46.20 3rd Qu.:208741 3rd Qu.:3.00 3rd Qu.:61.40 Max. :295762 Max. :4.00 Max. :87.70 typ.budynku kamienica :61 niski blok:63 wiezowiec :76 > plot(cena~powierzchnia, data=mieszkania, xlab="powierzchnia [m2]") 15 / 35

Ceny mieszkań Regresja prosta 20 30 40 50 60 70 80 90 100000 150000 200000 250000 300000 powierzchnia cena 16 / 35

Studium braku snu Model mieszany z jedną zmienną grupującą W modelu miszanym z jedną zmienna grupującą (model losowych współczynników) interesować zmienność współczynników regresji liniowej w grupach wyznaczonych przez inna zmianną jakościową. Poziomy tej zmiennej jakościowej nie muszą charakteryzować całej populacji. Interesujące nas zagadnienia to: y i = μ + βx i + (m g(i) + b g(i) x i +) + ε i, ε N (0, σ 2 0), (m g(i), b g(i) ) N (0, Σ). estymacja parametrów modelu μ, β i Σ, test na istotność współczynników modelu, diagnostyka modelu. 17 / 35

Studium braku snu Model mieszany z jedną zmienna grupującą > library(lme4) > data(sleepstudy) > summary(sleepstudy) Reaction Days Subject Min. :194.3 Min. :0.0 308 : 10 1st Qu.:255.4 1st Qu.:2.0 309 : 10 Median :288.7 Median :4.5 310 : 10 Mean :298.5 Mean :4.5 330 : 10 3rd Qu.:336.8 3rd Qu.:7.0 331 : 10 Max. :466.4 Max. :9.0 332 : 10 (Other):120 > > xyplot(reaction ~ Days Subject, sleepstudy, + type = c("g","p","r"), index = function(x,y) coef(lm(y ~ x))[1], + xlab = "Liczba dni z ograniczona iloscia snu", + ylab = "Sredni czas reakcji (ms)", aspect = "xy") 18 / 35

Studium braku snu Model mieszany z jedną zmienna grupującą Sredni czas reakcji (ms) 450 400 350 300 250 200 450 400 350 300 250 200 372 308 310 0 2 4 6 8 333 371 309 352 369 370 0 2 4 6 8 331 351 349 330 335 350 0 2 4 6 8 337 332 334 450 400 350 300 250 200 0 2 4 6 8 0 2 4 6 8 0 2 4 6 8 Liczba dni z ograniczona iloscia snu 19 / 35

Studium braku snu Model mieszany z jedną zmienna grupującą lmer(reaction ~ Days + (Days Subject)) 20 / 35

Mleczność byków Znana struktura korelacji W model mieszanym z jednym czynnikiem losowym efekty losowe nie musza byc iid (poprzednio to zakładaliśmy). W pewnych sytuacjach nie dość, że wiemy, że efekty losowe nie są iid, to znamy ich macierz korelacji (podobnie może być dla realizacji ε). y i = μ + a g(i) + ε i ε N (0, σ0) 2 a N (0, σa) 2 Cor(a i, a j ) = ρ(i, j) Interesujące nas zagadnienia to: estymacja prametrów modelu, w tym σa, 2 predykcja efektw losowych, testy. 21 / 35

Mleczność byków Zadana struktura korelacji 22 / 35

Mleczność byków Znana struktura korelacji Model poligeniczny opisuje wpływ małych genów mających niewielki addytywny wpływ na badaną cechę. Estymacja wpływu każdego z tych genów przy obecnych rozmiarach próby jest niemożliwa, chcemy jednak uwzględnić te efekty w przeprowadzanych analizach. Jeżeli więc model opisujący wpływ genów na ceche jest postaci Y i = μ + l x i,l β l + a i + ε i gdzie i to numer osobnika, β l oznacza efekt lty efekt stały (np. QTL), a i odpowiada wpływowi poligenicznemu, ε i to szum środowiskowy iid. o rozkładzie normalnym. Korelację pomiędzy osonikami można wyznaczyc z macierzy pokrewieństwa, nie wdając się w szcezgóły dla populacji outbred przy założeniu równowadze Hardyego-Weinberga można policzyć ją ze wzoru Cov(a i, a j ) = 2Φ i,j σ 2 a + Δ i,j 7 σ2 d gdzie Φ i,j to współczynnik pokrewieństwa pomiędzy osobnikami i i j, a Δ i,j 7 to skondensowany współczynnik Jacquarda (jeżeli nie ma inbredu to i,j 23 / 35

Mleczność byków Zadana struktura korelacji library(kinship) library(mass) id = c(1,2,3,4,5,6,7,8,9,10,11) dadid = c(0,1,0,1,1,3,3,5,7,3,9) momid = c(0,0,0,0,0,2,4,0,6,8,10) sex = c(1,2,1,2,1,2,1,2,1,2,1) families <- makefamid(id,dadid,momid) (kmatrix <- makekinship(families,id,dadid,momid)) heatmap(as.matrix(kmatrix), symm=t) dieta mleko = rnorm(11) = mvrnorm(1, dieta, kmatrix) byki <- data.frame(mleko, dieta, id) %(model <- lmekin(mleko~dieta, data=byki, random=~1 id, varlist=list(kmatrix))) 24 / 35

Zarobki/ceny mieszkań/temperatura a rozmieszczenie przestrzenne Zależność przestrzenna W wielu zagadnieniach możemy uznać, że efekty losowe nei sa iid lub, że ε nie sa iid. Dla wielu zagadnień możemy wyliczyć lub oszacować macierz korelacji pomiędzy efektami losowymi. Przykładowe odstępstwa od iid to zależności typu AR, ARMA itp. Ciekawą klasą są zależności wynikające z rozmieszczenia przestrzennego obiektów. Pytaniem jest jak zamienić informację o zależności przestrzennej na macierz korelacji. Jest wiele modeli na to,np. dwa popularniejsze to: model wykładniczy ρ(s, r) = 1 exp( s/p), model Gaussowski ρ(s, r) = 1 exp( (s/p) 2 ) 25 / 35

Zarobki/ceny mieszkań/temperatura a rozmieszczenie przestrzenne Zależność przestrzenna > library(maps) > library(mass) > library(nlme) > > data(world.cities) > > (dane = world.cities[world.cities[,2]=="poland",] ) name country.etc pop lat long capital 936 Aleksandrow Kujawski Poland 12214 52.88 18.70 0 937 Aleksandrow Lodzki Poland 20311 51.82 19.30 0 1455 Andrychow Poland 21880 49.86 19.34 0 2375 Augustow Poland 29780 53.84 23.00 0 3436 Barlinek Poland 14365 53.00 15.20 0 3503 Bartoszyce Poland 25629 54.25 20.81 0 3802 Bedzin Poland 57952 50.34 19.13 0 > > map("world", "Poland") > map.cities(country = "Poland", capitals = 0, cex=dane[,3]) 26 / 35

Zarobki/ceny mieszkań/temperatura a rozmieszczenie przestrzenne Zależność przestrzenna > summary(dane) miasto kraj pop x Bialystok : 1 Length:23 Min. : 157981 Min. :49.82 Bielsko-Biala: 1 Class :character 1st Qu.: 202401 1st Qu.:50.30 Bydgoszcz : 1 Mode :character Median : 253850 Median :51.24 Bytom : 1 Mean : 391722 Mean :51.68 Cracow : 1 3rd Qu.: 437747 3rd Qu.:53.07 Czestochowa : 1 Max. :1634441 Max. :54.52 (Other) :17 y stolica zarobki Min. :14.53 Min. :0.00000 Min. :-1.526983 1st Qu.:18.62 1st Qu.:0.00000 1st Qu.:-0.832104 Median :19.05 Median :0.00000 Median : 0.101643 Mean :19.37 Mean :0.04348 Mean : 0.002358 3rd Qu.:20.57 3rd Qu.:0.00000 3rd Qu.: 0.482895 Max. :23.16 Max. :1.00000 Max. : 2.158704 > cs1exp <- corexp( 1, form = ~ x + y) > cs1exp <- Initialize( cs1exp, dane) > mkor = cormatrix( cs1exp ) > mkor[1:10,1:10] Bialystok Bielsko-Biala Bydgoszcz Bytom Bialystok 1.000000000 0.005075057 0.00579918 0.006195357 Bielsko-Biala 0.005075057 1.000000000 0.03142976 0.578001507 Bydgoszcz 0.005799180 0.031429762 1.00000000 0.054337437 Bytom 0.006195357 0.578001507 0.05433744 1.000000000 Cracow 0.011778950 0.390191998 0.02655567 0.336447988 Czestochowa 0.009513121 0.370379522 0.07675038 0.600554459 Gdansk 0.009262773 0.010478019 0.24886044 0.017969498 Gdynia 0.007976277 0.008838143 0.22459593 0.015187564 Gliwice 0.004954557 0.537901060 0.05577283 0.784028034 Katowice 0.006452980 0.643378847 0.04816606 0.867511332 27 / 35

Zarobki/ceny mieszkań/temperatura a rozmieszczenie przestrzenne Zależność przestrzenna 28 / 35

Efekty nested vs. crossed Model hierarchiczny i efekty zagnieżdżone Jeżeli w modelu wystąpują dwie zmienne grupujące, poziomy tyzch zmiennych moga być w relacji crossed lub nested. y i = μ + a g1(i) + b g2(i) + ε i ε N (0, σ0) 2 a N (0, σa) 2 b N (0, σb) 2 Cor(a i, a j ) = ρ(i, j) 29 / 35

Efekty nested vs. crossed Model hierarchiczny i efekty zagnieżdżone > library(nlme) > data(pixel) > summary(pixel) Dog Side day pixel 1 :14 L:51 Min. : 0.00 Min. :1034 2 :14 R:51 1st Qu.: 4.00 1st Qu.:1054 3 :14 Median : 6.00 Median :1088 4 :14 Mean : 7.49 Mean :1087 5 :10 3rd Qu.:10.00 3rd Qu.:1110 6 :10 Max. :21.00 Max. :1161 (Other):26 > class(pixel) [1] "nmgroupeddata" "groupeddata" "data.frame" > plot(pixel) 30 / 35

Efekty nested vs. crossed Model hierarchiczny i efekty zagnieżdżone 1150 1100 1050 5/R 0 510 20 5/L 7/L 0 510 20 7/R 10/R 0 510 20 10/L 9/L 8/R 8/L 6/R 6/L 4/L 4/R Pixel intensity 1/R 1/L 2/R 2/L 3/L 3/R 9/R 1150 1100 1050 1150 1100 1050 0 510 20 0 510 20 0 510 20 Time post injection (days) 0 510 20 31 / 35

Analiza przeżyć 5-letnich Regresja logistyczna i efekty losowe Efekty losowe można wprowadzac też do innych zadań regresji, np. do regresli nieliniowej lub do uogólionych modeli liniowych (mieszanych). W tym przypadku model ma postać np. y i F (θ i ) θ i = μ + a g1(i) + ε i ε N (0, σ 2 0) a N (0, σ 2 a) 32 / 35

Analiza przeżyć 5-letnich Regresja logistyczna i efekty losowe > library(pbimisc) > library(yaletoolkit) > data(przezycia) > summary(przezycia) przezycia terapia wiek lekarz Min. :0.0 BCT:25 Min. : 16.40 A:10 1st Qu.:0.0 Opt:25 1st Qu.: 45.77 B:10 Median :0.0 Median : 55.55 C:10 Mean :0.2 Mean : 56.38 D:10 3rd Qu.:0.0 3rd Qu.: 70.92 E:10 Max. :1.0 Max. :101.50 > gpairs(przezycia) 33 / 35

Analiza przeżyć 5-letnich Regresja logistyczna i efekty losowe 0 5 10 15 20 25 0 2 4 6 8 10 factor(przezycia) 0 1 0.0 0.2 0.4 0.6 0.8 1.0 BCT Opt A B C D E 20 40 60 80 100 wiek 34 / 35

Analiza przeżyć 5-letnich Literatura Practical Regression and Anova using R, Faraway. Extending the Linear Model with R, Faraway. Linear Mixed Models, Fox. SAS for Mixed Models, Littell, Milliken, Stroup, Wolfinger, Schabenberger. Generalized, Linear, and Mixed Models, McCulloch, Charles, Searle. Mixed-Effects Models in S and S-PLUS Pinheiro, Bates. Computing Gaussian Likelihoods and their Derivatives for General Linear Mixed Models Wolfinger, Tobias, Sall. lme for SAS PROC MIXED Users Bates, Pinheiro, Jose. 35 / 35