Metody statystycze w aukach biologiczych 006-03-8 Wykład: Aaliza wariacji prosta i złożoa (ANOVA) Aaliza zmieości została opracowaa przez uczoego agielskiego, biologa i geetyka Roalda A. Fishera. Istota jego teorii opiera się a podziale zmieości główej a pewe frakcje i a aalizowaiu tych poszczególych zmieości. W oparciu o pogląd Fishera wyróżiamy 3 rodzaje zmieości: a) zmieość ogóla - wyraża się zróżicowaiem wszystkich poszczególych zmieych w stosuku do ogólej średiej (obliczoej dla całej zbiorowości) b) zmieość międzygrupowa - występuje a skutek różic powstałych między grupami doświadczalymi, wywołaa jest działaiem czyika doświadczalego a poszczególe grupy doświadczale, wyraża się zróżicowaiem średich poszczególych grup doświadczalych w stosuku do ogólej średiej c) zmieość wewątrzgrupowa - istieje między poszczególymi zmieymi wewątrz każdej grupy, wywołaa jest czyikami osobiczymi czyli idywidualymi cechami poszczególych osobików, wyraża się zróżicowaiem poszczególych zmieych wewątrz każdej grupy w stosuku do średiej dla tej grupy Aalizą wariacji posługujemy się przy badaiu istotości różic między grupami doświadczalymi. W tym celu wykorzystujemy wykryte przez Fishera prawo, że stosuek kwadratów odchyleń międzygrupowych do wewątrzgrupowych kształtuje się według określoego rozkładu (rozkład F) i stąd możliwa jest ocea prawdopodobieństwa wystąpieia pewych wartości F. Sytuację tę moża wyobrazić sobie w astępujący sposób. Jeśli z populacji o rozkładzie ormalym wybieralibyśmy losowo po dwie próby i badalibyśmy wzajeme relacje ich wariacji (iloraz), to te stosuek miałby rozkład zgody z rozkładem F. Jest to rozkład prawoskośy, tj. średia arytmetycza jest większa od mediay. Założeia aalizy wariacji: Niezależość zmieych objaśiających (czyików). Homogeiczość wariacji (rówość wariacji): porówywae grupy ie różią się zmieością. Jeśli ie ma homogeiczości, to możliwe są logarytmicze trasformacje zmieych lub też usuięcie grupy, która pod względem zmieości wyraźie odstaje od pozostałych. Normalość: Rozkład cechy w każdej z grup wiie być ormaly. W praktyce często badamy czy czyik losowy, tj. e ij posiada rozkład ormaly. W celu sprawdzeia tego założeia, od każdego pomiaru odejmujemy średią wartość grupy, z której te pomiar pochodzi, a astępie badamy rozkład tychże różic. Jeśli reszty ie mają rozkładu ormalego, to zaleca się trasformacje zmieych. Autor: Dariusz Piwczyński 1
Metody statystycze w aukach biologiczych 006-03-8 Hipoteza zerowa i alteratywa: H 0 : Wszystkie średie są rówe. H 0 : µ 1 =µ =µ 3 =µ 4 =µ 5 =µ 6... H 1 : Istieje co ajmiej jeda para średich, które różią się ze sobą. H 1 : µ 1 µ lub µ 1 µ 3 lub µ µ 3 itd... Model liiowy aalizy wariacji: Każda obserwacja przedstawiaa jest jako suma efektów czyików, jakie zostały uwzględioe w aalizie zmieości. Y ij =µ + α i + e ij Czyik stały (modele stałe): Z reguły liczba poziomów czyika stałego jest iewielka. W badaiach uwzględiamy z góry określoe poziomy czyika. Wioski odosimy wyłączie do tych poziomów czyika, które zostały uwzględioe w aalizie. Przykładem czyika stałego może być: płeć, grupa żywieiowa, rasa, rok badań, stado, sezo doju próbego. Czyik losowy (modele losowe): Liczba poziomów czyika losowego jest zwykle duża. Badaiom podday jest losowy podzbiór wszystkich poziomów czyika. Nasze wioski odosimy do wszystkich poziomów czyika, awet tych, które ie zostały uwzględioe w eksperymecie, p. twierdzimy, że rasa wpływ a udział tłuszczu w mleko. Przykładem czyika losowego jest efekt matki, ojca, grupy geetyczej, rasy. Różica między czyikami stałymi oraz losowymi jest dość płya, w dużej mierze zależy od postawioego do rozwiązaia problemu. Model I aalizy wariacji Y ij =µ + α i + e ij gdzie: Y ij wartość cechy u j-tego obiektu pochodzącego z i-tej grupy, µ - średia ogóla, obliczoa dla całej populacji, α i - stały efekt i-tej grupy, tj. różica między średią dla i-tej grupy i dla całej populacji. Moża te efekt traktować jako przewagę i-tej grupy ad przeciętą dla całej populacji. e ij błąd losowy, resztowy. Błąd losowy jest odchyleiem daej obserwacji od średiej grupy, z jakiej oa pochodzi. Spowodoway jest zmieością przypadkową, a ta dotyczy kokretej obserwacji. Błąd jest to taka część obserwowaej zmieości, która ie jest wytłumaczoa za pomocą modelu. Model II aalizy wariacji Y ij =µ + A i + e ij gdzie: A i - losowy efekt i-tej grupy, tj. różica między średią dla i-tej grupy i dla całej populacji, Model dwuczyikowy z iterakcją. Aaliza wariacji w układzie krzyżowym. Y ijk =µ + α i + β j + (αβ) ij + e ijk gdzie: (αβ) ij efekt iterakcji pomiędzy czyikami (poprawka ze względu a iterakcję). Autor: Dariusz Piwczyński
Metody statystycze w aukach biologiczych 006-03-8 Zaleca się, aby z modelu wyelimiować takie iterakcje, które są ieistote statystyczie. Zwiększa się tym samym siłę działaia czyików główych. Jest to tym bardziej uzasadioe, jeśli: liczba stopi swobody dla błędu jest miejsza aiżeli 5 oraz średi kwadrat odchyleń dla iterakcji podzieloy przez wariację błędu jest miejszy aiżeli. Iterakcja, czyli współdziałaie czyików ze sobą. Jeśli iterakcja jest istota, to ie możemy porówywać średich dla czyików główych, koiecze jest wtedy idywiduale porówaie poszczególych podgrup, p. maciorki meryosa polskiego z tryczkami suffolk.. Autor: Dariusz Piwczyński 3
Metody statystycze w aukach biologiczych 006-03-8 Model dwuczyikowy z iterakcją. Aaliza wariacji w układzie hierarchiczym. Jest to sytuacja, w której określoe poziomy czyika rozważae są w obrębie czyika adrzędego. Np. kozioł czy też tryk kryje samice w wyłączie w wybraych stadach. Y ijk =µ + α i + β ij + e ijk gdzie: α i efekt stada, β ij czyik zagieżdżoy, tj. wpływ ojca. Przykład: Samce A i B kryły samice w astępującym stadach: Stado 1 Stado Stado 3 A B A B Kolejość obliczeń (Aaliza wariacji prosta) 1. Obliczaie stopi swobody (rodzaj zmieości) (DF) a) Ogóla N-1 (N liczebość populacji) b) Międzygrupowa k-1 (k - liczba grup doświadczalych) c) Wewątrzgrupowa N-k. Sumy kwadratów odchyleń (SKO) a) Ogóla ( x) S o = x N b) Międzygrupowa S m = c) Wewątrzgrupowa: Sw=S o - S m ( x1 ) ( x ) ( x3 ) ( xi ) ( x) 1 + + 3 +... + N i 3. Średie kwadraty odchyleń (ŚKO) a) zmieość międzygrupowa: S m =S m /(k-1) b) zmieość wewątrzgupowa: S w =S w /(N-k) Sm 4. F empirycze F emp = Sw Tabela aalizy zmieości Rodzaj zmieości Liczba stopi swobody DF Ogóla Międzygrupowa Wewątrzgrupowa N-1 k-1 N-k Suma kwadratów odchyleń SKO S o S m S w Średi kwadrat odchyleń ŚKO S m S w F emp F emp F tab 0,05 0,01 Autor: Dariusz Piwczyński 4
Metody statystycze w aukach biologiczych 006-03-8 Obliczoą wartość statystyki F (tzw. F empirycze - F emp. ) odosimy do wartości krytyczej z rozkładu F-Sedecora dla założoego poziomu istotości (α) i określoej liczby stopi swobody (ν 1 =k-1 oraz ν =N-k) (F tabelarycze - F tab. ). Jeżeli F emp. F tab. - to mamy podstawę do odrzuceie hipotezy zerowej i stwierdzeia, iż istieje co ajmiej jeda para średich, które różią się ze sobą. Zatem czyik doświadczaly wpływa statystyczie a cechę. W przeciwym przypadku, ie mamy podstaw do odrzuceia H 0. Testy wielokrotych porówań możemy je podzielić a 3 grupy: Aaliza kotrastów (test Scheffego) Testy oparte a studetyzowaym rozstępie umożliwiające grupowaie średiach (NIR, Newmaa-Keulsa, Tukey, Duca,) Wioskowaie a podstawie przedziałów ufości (test Scheffego, Beferroiego, test Dueta) Testy wielokrotych porówań wykoujemy wtedy, gdy a podstawie aalizy wariacji stwierdzimy, iż czyik wpływa istotie a badaą cechę!!!! Grupy jedorode: są to takie grupy średich, które ie różią się statystyczie ze sobą. Procedury, które zmierzają do wyróżieia grup jedorodych azywają się procedurami porówań wielokrotych, procedurami jedoczesego wioskowaia lub post-hoc. Testy te wykorzystujemy przy aalizie wariacji wykoywaej w ramach Modelu I. Test Ducaa jest oparty a studetyzowaym rozstępie. Poziom istotości dla całego doświadczeia wyosi 1-(1-α) -1. W sytuacji, gdy rośie do ieskończoości poziom te rośie do jedości. W związku z czym, przy dużej liczbie porówywaych średich prawdopodobieństwo popełieia błędu drastyczie rośie. Test te stosoway jest raczej jako test towarzyszący iym testom. Test Ducaa umożliwia tworzeie grup jedorodych, czyli takich, pomiędzy którymi ie występują różice istote statystyczie a podstawie prób iezależych. Kolejość działań przy wykoywaiu testu Ducaa: 1. Porządkujemy rosąco ciąg uzyskaych średich arytmetyczych. Wybieramy parę średich do porówaia 3. Odczytujemy z tabel testu Ducaa wartości krytycze. Uzależioe są oe od poziomu istotości, liczby stopi swobody oraz typu rozstępu. Typ rozstępu - liczba wartości średich zawartych w jedym ciągu pomiędzy porówywaymi średimi. 4. Wyliczamy tzw. istoty obszar zmieości: D*Sd D odczytujemy w zależości od liczby stopi swobody (zmieość wewątrzgrupowa) oraz typu rozstępu. S d = S w gr S w wariacja dla zmieości wewątrzgrupowej; gr przecięta liczebość grupy 1 i gr = * i k 1 i k liczba grup doświadczalych, i liczebość grupy Jeżeli x i - x j S d *D 0,05 to różica pomiędzy średimi jest istota statystyczie; Jeżeli x i - x j S d *D 0,01 to różica pomiędzy średimi jest wysoko istota statystyczie; Jeżeli x i - x j < S d *D 0,05 to różica pomiędzy średimi jest ieistota statystyczie. Autor: Dariusz Piwczyński 5
Metody statystycze w aukach biologiczych 006-03-8 Test NIR [test ajmiejszych istotych różic] (LSD [least sigificat differeces]). Jest ajstarszym historyczie testem wielokrotych porówań. Zapropooway przez Fishera w 1949. Jego idea polega a wyzaczeiu tzw. ajmiejszych istotych różic i porówaiu ich z różicami średich. Jest to test ajmiej odpory a wzrost liczby wielokrotych porówań, poieważ poziom istotości odosi się do pojedyczego porówaia. W takim przypadku bardzo szybko wzrasta poziom istotości całego eksperymetu. Wobec powyższych test NIR stosoway jest jako test towarzyszący iym testom. Jeśli bezwzględa wartość różicy średich z próby jest większa aiżeli tzw. ajmiejsza istota różica (NIR), to możemy stwierdzić, iż jest oa istota statystyczie. Test Tukeya jest oparty o studetyzoway rozkład. Jest to test ajbardziej polecay do porówaia par średich. Pozwala o wyzaczać grupy średich jedorodych. Występuje w dwóch odmiaach: rówa liczebość próbek, ierówa liczebość próbek (test Spjotvolla i Stoliea). Test Tukea jest bardziej koserwatywy aiżeli NIR, lecz miej iż test Scheffego. Błąd pierwszego rodzaju jest przy tym teście miejszy aiżeli w przypadku NIR, Duca,a poadto gwaratuje o jedakowy poziom istotości dla wszystkich porówywaych par. Test Scheffe jest testem ajbardziej koserwatywym, co ozacza, że rzadziej będziemy odrzucać pojedycze porówaia iż w przypadku iych testów. Test Scheffe zapewia łączy poziom istotości dla wszystkich porówywaych par. Test te doskoale adaje się ie tylko do porówaia par cech, ale rówież uwzględia wszelkie kotrasty. To test ajbardziej zachowawczy, gdyż błąd pierwszego rodzaju jest ajmiejszy. Aalizę wariacji możemy wykoać w SAS za pomocą procedur ANOVA oraz GLM. ANOVA Aalysis of variace (Aaliza wariacji) Geeral Liear Models (Ogóle modele liiowe) Procedura aova w przypadku klasyfikacji pojedyczej (aaliza jedoczyikowa) oraz w przypadku układów ortogoalych daje idetycze rezultaty, jak glm. GLM zalecaa jest w odiesieiu do klasyfikacji wieloczyikowej, o iejdaakowej wielkości grup doświadczalych. Przykład użycia procedury aova (glm): proc aova data=bibliotea.tabela; class czyik; model cecha = czyik; meas czyik/ tukey; ru;quit; Objaśieia: class - azwy czyików doświadczalych/ model - tworzymy model aalizy, zmiee zależe = zmiee iezależe (czyiki) meas - wskazujemy dla jakich grup mają być wyliczoe średie i jakie testy użyte do weryfikacji różic Autor: Dariusz Piwczyński 6