Ogólny model liniowy

Transkrypt

1 Ogólny model liniowy

2 Twórcy Autor statystyki testowej Wyprowadził wzór na gęstość rozkładu statystyki testowej Ronald Aylmer Fisher ( ) angielski genetyk George W. Snedecor ( ) amerykański matematyk

3 Ogólny model liniowy GLM jest zbiorem testów, w których zakłada się: 1. dane pochodzą z rozkładów normalnych o takiej samej wariancji przesunięte co najwyżej względem siebie 2. Dla pary zmiennych ciągłych to w obrębie jednej grupy danych ich przesunięcie względem siebie jest liniowe. 3. Statystyka testowa polega na porównywaniu sum kwadratów odchyleń średnich grupowych od wielkości wyliczanej poprzez równanie modelu do sum kwadratów odchyleń danych od średnich grupowych.

4 Statystyka testowa jednoczynnikowej analizy wariancji Programy pokazujące działanie testu gdy nie jest spełniona i gdy jest spełniona hipoteza zerowa

5 Regresja i korelacja Po odpowiednich przekształceniach (n 2) R 2 F 2 1 R Najczęściej stosowany test na sprawdzenie czy zależność Y od X istotnie różni się od 0.

6 Niepokojąco mocne założenia 1. Normalność rozkładu - Można się odwoływać do mocnego prawa wielkich liczb. - Można się odwoływać do prawa Lindenberga-Levy ego. 2. Jednakowość (jednorodność) wariancji - W przyrodzie częściej obserwuje się zjawisko wzrostu wariancji przy wzroście wartości oczekiwanej. 3. Liniowość współzależności - Nie ma żadnego modelu pokazującego, że liniowość jest lepsza od jakiejś innej krzywej. - Można stosować tu filozoficzne kryteria prostoty.

7 Błędy popełniane przy użyciu testów W połowie XX wieku pojawił się pomysł testowania testów stosowanych do analizy tego samego zagadnienia Zdefiniowano: Błąd I rodzaju wykazywanie istotności tam gdzie nie powinna być wykazywana Błąd II rodzaju nie wykazywanie istotności tam gdzie ona występuje Jerzy Spława- Neyman Uznano, że ten test jest lepszy, który minimalizuje te oba błędy. Wykazano, że testy GLM są bardzo odporne na: nienormalność rozkładu (byle nie bardziej skośnych od rozkładu wykładniczego), różnice wariancji (nawet gdy wykazujemy istotne różnice między wariancjami), nieliniowość zależnościach (byle kierunkowych) Częstość popełniania błędów I i II rodzaju po zmianach założeń nie odbiega od częstości popełniania takich błędów gdy dane spełniają założenia testów ANOVA

8 Założenie normalności Obowiązująca zasada sprawdź czy twoje dane maja rozkład normalny (najlepiej za pomocą testu Shapiro Wilka) i w każdej populacji/grupie osobno jeżeli wynik testu jest nieistotny (p>0.05) stosuj testy parametryczne, (np. GLM,Studenta) jeżeli wynik testu jest istotny (p 0.05) stosuj testy nieparametryczne (np. Wilkoxona) Matematyczna reguła przy małej próbie rzadziej uzyskujemy istotny (p<0.05) wynik w teście Shapiro- Wilka, ale częściej się mylimy się wykonując test parametryczny niż test nieparametryczny przy dużej próbie częściej uzyskujemy istotny (p<0.05) wynik w teście Shapiro- Wilka, ale rzadziej się mylimy się wykonując test parametryczny niż test nieparametryczny Obowiązująca zasada nie ma uzasadnienia matematycznego i prowadzi do błędów

9 Popularność Najpopularniejsze testy wykonywane do tej pory w biologii

10 Model statystyczny Model statystyczny jest eksperymentem fizycznym (obecnie komputerowym) polegającym na losowaniu próby z rozkładu w różnych układach. Model nie jest hipotezą zerową. W przypadku jednoczynnikowej analizy wariancji jest to ogół eksperymentów polegających na losowaniu prób (o dowolnej liczności) z rozkładów normalnych dowolnie przesuniętych względem siebie. Model można utożsamić z algorytmem jakiegoś programu (funkcji w R) losującego liczby z rozkładu. modelanova=function(k, n, mi, sig) { x=null for (i in 1:k){ for (j in 1:n[i]) x=c(x,rnorm(1,mi[i],sig)) } x }

11 Model statystyczny W przypadku analizy regresji jest to ogół eksperymentów polegających na losowaniu próby złożonej z par liczb (x,y) gdzie x jest losowane z rozkładu normalnego N(, 1 ) a y jest losowane z rozkładu normalnego N(ax+b, 1 ). modelregr=function(n, mi, sig1, sig2, a, b) { z=null x=rnorm(n,mi,sig1) y=null for (i in 1:n){y=c(y,rnorm(1,a*x[i]+b,sig2))} matrix(cbind(x,y),,2) }

12 Model - nomenklatura N zmienna losowa o rozkładzie normalnym standaryzowanym Jeżeli będą losowane liczby z rozkładu normalnego standaryzowanego, mnożone przez stałą s i do wyniku dodawane m, to otrzymane liczby pochodzić będą z rozkładu normalnego o wartości oczekiwanej m o odchyleniu standardowym s. U oznacza zmienna losowa o rozkładzie normalnym standaryzowanym N(0,1) Zapis X= + U oznacza zmienną X o rozkładzie normalnym N(, ) Ogólny zapis modelu dla jednoczynnikowej analizy wariancji X i U dla i=1,2,,k Ogólny zapis modelu dla regresji X 1 U Y ax b 2 U

13 Hipoteza zerowa i hipotezy alternatywne W jednoczynnikowej analizie wariancji prawie zawsze hipoteza zerowa brzmi: 1 = 2 =. = k Możliwe hipotezy alternatywne: Nieprawda, że 1 = 2 =. = k 1 2 = 3 =. = k 1 = 2 3 =. = k 1 2 lub 1 3 lub. lub 1 k KONTRASTY Zaprzeczenie logiczne każdej hipotezy alternatywnej formułuje hipotezę zerową

14 Wykonanie jednoczynnikowej Anovy w R Porównujemy następujące średnie: > lm(y~as.factor(x)) Call: lm(formula = y ~ as.factor(x)) Coefficients: (Intercept) as.factor(x)1 as.factor(x) > lm(y~as.factor(x)) Call: aov(formula = y ~ as.factor(x)) Terms: as.factor(x) Residuals Sum of Squares Deg. of Freedom 2 47 Residual standard error: Estimated effects may be unbalanced

15 Wykonanie jednoczynnikowej Anovy w R Porównujemy następujące średnie: > anova(lm(y~as.factor(x))) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) as.factor(x) e-05 *** Residuals Signif. codes: 0 *** ** 0.01 * > anova(aov(y~as.factor(x))) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) as.factor(x) e-05 *** Residuals Signif. codes: 0 *** ** 0.01 *

16 Wykonanie jednoczynnikowej Anovy w R > summary(lm(y~as.factor(x))) Call: lm(formula = y ~ as.factor(x), data = zz) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) as.factor(x) * as.factor(x) e-06 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 47 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 2 and 47 DF, p-value: 4.87e-05 > summary(aov(y~as.factor(x))) Df Sum Sq Mean Sq F value Pr(>F) as.factor(x) e-05 *** Residuals Signif. codes: 0 *** ** 0.01 *

17 Dwuczynnikowa analiza wariancji

18 Ocena pierwszej zmiennej ciągłej 1 zmienna dyskretna A B 2 zmienna dyskretna a b c Możliwe do wykonania testy: 1. Połączenie danych A z B i sprawdzenie czy jest istotna różnica między średnimi w grupach a, b i c 2. Połączenie danych a, b i c i sprawdzenie czy jest istotna różnica między średnimi w grupach A, B. Błąd pseudoreplikacji dane w każdej grupie połączonych danych nie są całkowicie niezależne od siebie

19 Ocena pierwszej zmiennej ciągłej 1 zmienna dyskretna A B 2 zmienna dyskretna a b c Możliwe do wykonania testy: 1. Sprawdzenie czy jest istotna różnica między średnimi w grupach a, b i c w grupie A i w grupie B. 2. Sprawdzenie czy jest istotna różnica między średnimi w grupach A, B w grupach a, b i c osobno. 5 testów wykonanych na tych samych danych możliwość uzyskania przypadkowej istotności.

20 Ocena pierwszej zmiennej ciągłej 1 zmienna dyskretna A B 2 zmienna dyskretna a b c Możliwe do wykonania testy: 1. Sprawdzenie jednym testem czy są różnice między aa, ab, ba, bb, ca, cb i zastosowanie testów post-choć albo kontrastów Porównywanie wielkości osobnika w grupach Ab z Bc, Aa z Bb itd. nie ma merytorycznego sensu. Uzyskanie dużej istotnej różnicy zupełnie nie moglibyśmy zinterpretować. Potrzebne nam są czyste odpowiedzi: Czy wielkość osobnika zależy od 1 zmiennej dyskretnej? Czy wielkość osobnika zależy od 2 zmiennej dyskretnej?

21 Pomysł Ronalda Fishera 1. Dane należące do zmiennej ciągłej X zależą od zmiennych dyskretnych płeć =(A, B) i sezon =(a, b, c) 2. Gdy pytamy się czy X zależy od sezonu : Wyliczamy najpierw średnią X 1* dla płci = A i X 2* dla płci = B Dla każdej wartości x zmiennej X wyliczamy x- X 1* (dla x o płci = A) albo x- X 2* (dla x o płci = B) Zapisujemy te dane pod nazwą X el_płeć. Wykonujemy jednoczynnikową analizę wariancji sprawdzającą czy X eld zależy od sezonu. 3. Gdy pytamy się czy X zależy od płci : Wyliczamy najpierw średnią X *1 dla sezonu = a, X *2 dla sezonu = b i X *3 dla sezonu = c Dla każdej wartości x zmiennej X wyliczamy x- X *1 (gdy x jest z sezonu = a) albo x- X *2 (gdy x z sezonu = b) albo x- X *3 (gdy x jest sezonu = c) Zapisujemy te dane pod nazwą X el_sezon. Wykonujemy jednoczynnikową analizę wariancji sprawdzającą czy X ele zależy od płci.

22 Pomysł Ronalda Fishera A B sezon = a A B sezon = b A B sezon = c 0

23 Pomysł Ronalda Fishera A B sezon = a A B Wpływ sezonu wyeliminowany sezon = b A B Wykonanie jednoczynnikowej analizy wariancji sezon = c 0

24 Pomysł Ronalda Fishera sezon = a lub b lub c A B Wpływ sezonu wyeliminowany Wykonanie jednoczynnikowej analizy wariancji 0 Połączenie danych i wykonanie dla nich jednoczynnikowej analizy wariancji

25 Model Model dwuczynnikowej analizy wariancji bez interakcji X i,* *, j U Wielkość generalna Poprawka związana z działaniem na X zmiennej D i,* 0 Poprawka związana z działaniem na X zmiennej D i *, j 0 j Model dwuczynnikowej analizy wariancji (z interakcją) X i, * *,j i, j U i i,j 0 j i,j 0 dla każdego j dla każdego i Poprawka na nieaddytywne oddziaływania na X zmiennych D i C

26 Model 2-Anova bez interakcji model2anova=function(k1, k2, n, mi, mi1, mi2, sig) { x=null for (i1 in 1:k1){ for (i2 in 1:k2){ for (j in 1:n[i1,i2]) x=c(x,rnorm(1,mi+mi1[i1]+mi2[i2],sig)) }} x }

27 Model 2-Anova z interakcją model2anovaint=function(k1, k2, n, mi, mi1, mi2, mi12, sig) { x=null for (i2 in 1:k2){ for (i1 in 1:k1){ for (j in 1:n[i1,i2]) x=c(x,rnorm(1,mi+mi1[i1]+mi2[i2]+mi12[i1,i2],sig)) } } x }

28 Dwuczynnikowa analiza wariancji - interakcje całkowity brak interakcji interakcja

29 Obowiązująca zasada Problem z istotną interakcją Istotna interakcja powoduje, że wyniki uzyskane dla efektów głównych są nieinterpretowalne sprawdź czy interakcja jest istotna (p-wartość<0.05) jeżeli jest istotna podziel dane na grupy wyróżnione przez jedną ze zmiennych i wykonaj test jednoczynnikowej ANOVA dla drugiej zmiennej. jeżeli jest nieistotna zacytuj w pracy wyniki efektów głównych Matematyczna reguła przy małej próbie rzadziej istotne interakcje, ale cytując wyniki dla efektów głównych popełniamy mniej błędów niż cytując wyniki wielu testów wynikających z podziału materiału najczęściej nieistotnych przy dużej próbie częściej uzyskujemy istotną interakcję, ale też wtedy najczęściej uzyskujemy istotne wyniki w testach zrobionych dla podzielonego materiału i w dodatku różnić się będą one interpretacją Obowiązująca zasada ma uzasadnienie matematyczne

30 Hipotezy zerowe 1. 1,* = 2,* = = k1,* =0 2. *,1 = *,2 = = *,k2 =0 3. Wszystkie i,j =0 dla i=1,2,,k 1, j=1,2,,k 2 Testowane równolegle do siebie. Oceniane jest prawdopodobieństwo zachodzenia hipotez alternatywnych dla każdej hipotezy osobno. Mnogość hipotez alternatywnych. KONTRASTY Dla biologów najważniejszy jest test GLM bez kontrastów.

31 Problem z wyliczaniem sum kwadratów odchyleń w układzie niezbalansowanym

32 Układ zbalansowany Czynnik 1 A B Z a... n n n b... Czynnik 2 n n n z n n... n Układ zbalansowany układ w którym liczby pomiarów obiektów dla każdej wartości 1 i 2 zmiennej dyskretnej są takie same

33 Tabela dwuczynnikowej analizy wariancji z interakcją

34 Problemy matematyczne W układzie zbalansowanym mamy: SS m,1 SS m,2 SS int SS w SS c Jest spełniony warunek, że po odjęciu średnich odpowiednich dla 1 zmiennej dyskretnej można robić jednoczynnikową analizę wariancji względem drugiej zmiennej dyskretnej i tylko p odczytywać z innego rozkładu F. W układzie niezbalansowanym mamy: SS m,1 SS m,2 SS int SS w SS c Przeszacowywanie wartości F? Ale którego?

35 Poprawianie testu dwuczynnikowej ANOVA Szukanie takiej reguły rozdzielania sum kwadratów między znane źródła zmienności aby po dodaniu czynników lub ich redukcji obowiązywała ta sama reguła rozdzielania sum kwadratów. Uogólnienie zjawiska obowiązującego dla układu zbalansowanego, że sumy kwadratów dla dodanego czynnika wylicza się tak jakby odjęto od danych średnie wynikłe z grupowania przez inne czynniki i wykonano na różnicach test jednoczynnikowej analizy wariancji. Pojawił się test GLM reguły zapisane w rachunku macierzowym Sprawdzenie doświadczalne, że błędy I rodzaju (uzyskiwanie istotności przy braku różnic między średnimi) oraz błędy II rodzaju (nie uzyskiwanie istotności gdy jest różnica między średnimi) są najmniejsze gdy stosowany jest test GLM

36 Problem z nadmiarem testów Nie istnieje jeden test GLM. Prawidłowe rozdzielanie sum kwadratów odchyleń między różne hipotezy (model uproszczony vs. model) można robić na wiele sposobów. I typ wyliczania sum kwadratów II typ wyliczania sum kwadratów III typ wyliczania sum kwadratów Drobne różnice w postawieniu hipotezy zerowej versus hipoteza alternatywna i niuanse interpretacyjne implikują koniecznością stosowania różnych testów. Biolodzy szukają testu odpowiadającego sposobowi rozumowania zaproponowanego prze Fishera: - III typ wyliczania sum kwadratów odchyleń. - Na ogół bez kontrastów (testy z kontrastami są opisywane post-hoc )

37 GLM GLM GLM ANOVA Problem z nadmiarem testów GLM Źródło St. sw. ANOVA Suma kw. Średnia kwadratów Wartość F Pr. > F SEZON PLEC SEZON*PLEC Źródło St. sw. Typ I Suma kw. Średnia kwadratów Wartość F Pr. > F SEZON PLEC SEZON*PLEC Źródło St. sw. Typ II Suma kw. Średnia kwadratów Wartość F Pr. > F SEZON PLEC SEZON*PLEC Źródło St. sw. Typ III Suma kw. Średnia kwadratów Wartość F Pr. > F SEZON PLEC SEZON*PLEC

38 GLM GLM GLM ANOVA Problem z nadmiarem testów GLM Źródło St. sw. ANOVA Suma kw. Średnia kwadratów Wartość F Pr. > F PLEC SEZON SEZON*PLEC Źródło St. sw. Typ I Suma kw. Średnia kwadratów Wartość F Pr. > F PLEC SEZON SEZON*PLEC Źródło St. sw. Typ II Suma kw. Średnia kwadratów Wartość F Pr. > F PLEC SEZON SEZON*PLEC Źródło St. sw. Typ III Suma kw. Średnia kwadratów Wartość F Pr. > F PLEC SEZON SEZON*PLEC

39 Problem z nadmiarem testów GLM > anova(aov(ciezar~sezon*plec,skunks)) Analysis of Variance Table Response: CIEZAR Df Sum Sq Mean Sq F value Pr(>F) SEZON PLEC SEZON:PLEC Residuals Signif. codes: 0 *** ** 0.01 * > > anova(aov(ciezar~plec*sezon,skunks)) Analysis of Variance Table Response: CIEZAR Df Sum Sq Mean Sq F value Pr(>F) PLEC SEZON PLEC:SEZON Residuals I typ wyliczania sum kwadratów

40 Problem z nadmiarem testów GLM > drop1(aov(ciezar ~ SEZON*PLEC,skunks),.~., test="f") Single term deletions Model: CIEZAR ~ SEZON * PLEC Df Sum of Sq RSS AIC F value Pr(>F) <none> SEZON PLEC SEZON:PLEC > drop1(aov(ciezar ~ PLEC*SEZON,skunks),.~., test="f") Single term deletions Model: CIEZAR ~ PLEC * SEZON Df Sum of Sq RSS AIC F value Pr(>F) <none> PLEC SEZON PLEC:SEZON > III typ wyliczania sum kwadratów z kontrastem prostym (treatment)

41 Problem z nadmiarem testów GLM > options(contrasts = c("contr.sum","contr.poly")) > drop1(aov(ciezar ~ PLEC*SEZON,skunks),.~.,test="F") Single term deletions Model: CIEZAR ~ PLEC * SEZON Df Sum of Sq RSS AIC F value Pr(>F) <none> PLEC SEZON PLEC:SEZON Signif. codes: 0 *** ** 0.01 * > drop1(aov(ciezar ~ SEZON*PLEC,skunks),.~.,test="F") Single term deletions Model: CIEZAR ~ SEZON * PLEC Df Sum of Sq RSS AIC F value Pr(>F) <none> SEZON PLEC SEZON:PLEC Signif. codes: 0 *** ** 0.01 * III typ wyliczania sum kwadratów bez kontrastów

42 Dwuczynnikowa analiza kowariancji

43 Ocena drugiej zmiennej ciągłej A 1 zmienna dyskretna B 2 zmienna dyskretna a b c (x1,1,1,y1,1,1 ),...,(x 1,1,n,y1,1, ) (x1,2,1,y1,2,1),...,(x 1,2,n,y1,2, ) 1,1 n1,1 1,2 n1,2 (x2,1,1,y2,1,1 ),...,(x 2,1,n,y2,1, ) (x2,2,1,y1,2,1),...,(x 2,2,n,y2,2, ) 2,1 n2,1 2,2 n2,2 (x3,1,1,y3,1,1 ),...,(x 3,1,n,y3,1, ) (x3,2,1,y3,2,1),...,(x 3,2,n,y3,2, ) 3,1 n3,1 3,2 n3,2 Założymy, że zmienne ciągłe są od siebie zależne tak samo w każdej grupie. Wyeliminujemy wpływ pierwszej zmiennej ciągłej. Zastosujemy dwuczynnikową analizę wariancji.

44 Ocena drugiej zmiennej ciągłej Co to znaczy, że zmienne ciągłe są tak samo zależne od siebie w różnych grupach? Y Dla bardzo dużych prób mają tak samo nachylone regresje tylko przesunięte względem siebie. Regresja wspólna aggregation regresssion X

45 Regresja wspólna Zespół k 1 k 2 prostych mających jednakowe nachylenie do osi 0X y i,j = ax i,j +b i,j takich, że suma sum kwadratów odchyleń danych dla i-tej wartości pierwszej zmiennej dyskretnej i j-tej wartości drugiej zmiennej od prostej y i,j = ax i,j +b i,j ma wartość minimalną. k1 k2 ni, j i 1 j 1 L 1 2 ( y i,j,l ax i,j,l bi,j) ma wartość minimalną. Warunek ten pozwala na wyprowadzenie wzorów dla a i wszystkich b i,j.

46 Likwidowanie wpływu X na Y Y X

50 Likwidowanie wpływu X na Y Y Wykonujemy dwuczynnikową analizę wariancji dla zmiennej Y X

51 Model Model dwuczynnikowej analizy kowariancji X Y i,* ax b b i,* *,j b *,j i,j b i,j x U y U i,* 0 i *, j 0 j i j b b i,* *, j 0 0 i i,j 0 j i,j 0 dla każdego j dla każdego i i j b b i,j i,j 0 0 dla każdego j dla każdego i

52 Model 2-Ancova model2ancova=function(k1, k2, n, mi, mi1, m2, m12, a, b, b1, b2, b12, sigx, sigy) { x=null y=null for (i2 in 1:k2){ for (i1 in 1:k1){ for (j in 1:n[i1,i2]) x=c(x,rnorm(1,mi+mi1[i1]+mi2[i2]+mi12[i1,i2],sigx)) y=c(y,rnorm(1,b+b1[i1]+b2[i2]+b12[i1,i2],sigy)) } } cbind(x,y) }

53 GLM Problem z nadmiarem testów GLM Źródło St. sw. Typ III Suma kw. Średnia kwadratów Wartość F Pr. > F CIEZAR PLEC <.0001 SEZON <.0001 SEZON*PLEC > options(contrasts = c("contr.sum","contr.poly")) > drop1(aov(fluor~ciezar+plec*sezon,skunks),.~., test="f") > > drop1(aov(fluor~ciezar+plec*sezon,skunks), anova(aov(fluor~ciezar+plec*sezon,skunks)).~., test="f") Single term deletions Single Analysis term of deletions Variance Table Model: Model: Response: FLUOR FLUOR ~ CIEZAR + PLEC * SEZON FLUOR ~ CIEZAR Df + Sum PLEC Sq * Mean SEZON Sq F value Pr(>F) Df Sum of Sq RSS AIC F value Pr(>F) CIEZAR Df1 Sum 3483 of Sq 3483 RSS AIC F value ** Pr(>F) <none> <none> PLEC e-12 *** CIEZAR CIEZAR SEZON e *** PLEC e-07 *** PLEC:SEZON e-14 *** SEZON e-06 *** SEZON Residuals e-12 *** PLEC:SEZON PLEC:SEZON Signif. codes: 0 *** ** 0.01 * Signif. codes: 0 *** ** 0.01 * Signif. 1 codes: 0 *** ** 0.01 *

54 Wykonywanie GLM w R R nie pokazuje jaki typ wyliczania sum kwadratów został zaprogramowany. R nie pokazuje, że standardowo stosuje test z kontrastami prostymi, w którym porównuje się średnie z kolejnych grup do grupy pierwszej. Gdy wykonuje się próbne testy dla układu zbalansowanego, nie widać błędów. W wielu podręcznikach do R polecane jest wykonanie testu za pomocą funkcji anova(aov( )). Wydaje się, że autorzy tych podręczników nie zdają sobie z tego sprawy, że jest to test z I typem wyliczania sum kwadratów i kontrastem prostym. Pisząc w metodach pracy, że posługiwano się programem R przy wykonywaniu obliczeń statystycznych, w tym testu GLM, należy opisywać zastosowany model (z III typem wyliczania sum kwadratów i w układzie bez kontrastów), co nie jest konieczne gdy używamy programów SAS, Statistica, SPSS i wielu innych.

55 Koniec