Wykład: Analiza wariancji prosta i złożona (ANOVA)



Podobne dokumenty
1. Wnioskowanie statystyczne. Ponadto mianem statystyki określa się także funkcje zmiennych losowych o

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

KURS STATYSTYKA. Lekcja 3 Parametryczne testy istotności ZADANIE DOMOWE. Strona 1

3. Tworzenie próby, błąd przypadkowy (próbkowania) 5. Błąd standardowy średniej arytmetycznej

Wykład: Założenia analizy wariancji. Analiza wariancji złożona i testy wielokrotnych porównań.

X i. X = 1 n. i=1. wartość tej statystyki nazywana jest wartością średnią empiryczną i oznaczamy ją symbolem x, przy czym x = 1. (X i X) 2.

Parametryczne Testy Istotności

Statystyka opisowa. (n m n m 1 ) h (n m n m 1 ) + (n m n m+1 ) 2 +1), gdy n jest parzyste

Statystyka matematyczna dla leśników

Korelacja i regresja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 12

Moda (Mo, D) wartość cechy występującej najczęściej (najliczniej).

STATYSTYKA I ANALIZA DANYCH

L.Kowalski zadania ze statystyki matematycznej-zestaw 3 ZADANIA - ZESTAW 3

Testowanie hipotez. H 1 : µ 15 lub H 1 : µ < 15 lub H 1 : µ > 15

Ćwiczenia nr 5. TEMATYKA: Regresja liniowa dla prostej i płaszczyzny

µ = Test jest następujący: jeŝeli X > 0.01 to odrzucamy H. 0

Zadanie 2 Niech,,, będą niezależnymi zmiennymi losowymi o identycznym rozkładzie,.

Planowanie doświadczeń - DPLD LMO Materiały pomocnicze

Ćwiczenie 2 ESTYMACJA STATYSTYCZNA

Prawdopodobieństwo i statystyka r.

Statystyka. Katarzyna Chudy Laskowska

1 Testy statystyczne. 2 Rodzaje testów

Wykład 5 Przedziały ufności. Przedział ufności, gdy znane jest σ. Opis słowny / 2

TESTY LOSOWOŚCI. Badanie losowości próby - test serii.

będą niezależnymi zmiennymi losowymi z rozkładu jednostajnego na przedziale ( 0,

STATYSTYKA OPISOWA WYKŁAD 1 i 2

Trzeba pokazać, że dla każdego c 0 c Mc 0. ) = oraz det( ) det( ) det( ) jest macierzą idempotentną? Proszę odpowiedzieć w

Estymacja przedziałowa

POLITECHNIKA OPOLSKA

Porównanie dwu populacji

Metrologia: miary dokładności. dr inż. Paweł Zalewski Akademia Morska w Szczecinie

Miary położenia (tendencji centralnej) to tzw. miary przeciętne charakteryzujące średni lub typowy poziom wartości cechy.

Analiza wariancji. dr Janusz Górczyński

ZDARZENIE ELEMENTARNE to możliwy wynik doświadczenia losowego. Wszystkie takie możliwe wyniki tworzą zbiór zdarzeń elementarnych.

JEDNOCZYNNIKOWA ANALIZA WARIANCJI, ANOVA

Statystyka i Opracowanie Danych. W7. Estymacja i estymatory. Dr Anna ADRIAN Paw B5, pok407

SIGMA KWADRAT LUBELSKI KONKURS STATYSTYCZNO- DEMOGRAFICZNY

1) Jakie są różnice pomiędzy analiza danych a wnioskowaniem statystycznym?

są niezależnymi zmiennymi losowymi o jednakowym rozkładzie Poissona z wartością oczekiwaną λ równą 10. Obliczyć v = var( X

H brak zgodności rozkładu z zakładanym

STATYSTYKA OPISOWA I PROJEKTOWANIE EKSPERYMENTU dr inż Krzysztof Bryś

ANALIZA DANYCH DYSKRETNYCH

16 Przedziały ufności

Metoda łączona. Wykład 7 Dwie niezależne próby. Standardowy błąd dla różnicy dwóch średnich. Metoda zwykła (niełączona) n2 2

STATYSTYKA MATEMATYCZNA

STATYSTKA I ANALIZA DANYCH LAB II

Estymacja przedziałowa - przedziały ufności

Estymacja parametrów populacji

Podstawowe oznaczenia i wzory stosowane na wykładzie i laboratorium Część I: estymacja

KADD Metoda najmniejszych kwadratów

1 Dwuwymiarowa zmienna losowa

Estymacja: Punktowa (ocena, błędy szacunku) Przedziałowa (przedział ufności)

ZAGADNIENIE ESTYMACJI. ESTYMACJA PUNKTOWA I PRZEDZIAŁOWA

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

PODSTAWY BIOSTATYSTYKI ĆWICZENIA

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE

Identyfikacja i modelowanie struktur i procesów biologicznych

Wokół testu Studenta 1. Wprowadzenie Rozkłady prawdopodobieństwa występujące w testowaniu hipotez dotyczących rozkładów normalnych

WYKŁAD 1. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

3. Regresja liniowa Założenia dotyczące modelu regresji liniowej

Plan wykładu. Analiza danych Wykład 1: Statystyka opisowa. Literatura. Podstawowe pojęcia

STATYSTYKA MATEMATYCZNA

Elementy modelowania matematycznego

Przykład 1. (A. Łomnicki)

Estymacja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 7

Statystyka w rozumieniu tego wykładu to zbiór metod służących pozyskiwaniu, prezentacji, analizie danych.

θx θ 1, dla 0 < x < 1, 0, poza tym,

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH

Ćwiczenie nr 14. Porównanie doświadczalnego rozkładu liczby zliczeń w zadanym przedziale czasu z rozkładem Poissona

(X i X) 2. n 1. X m S

PRZEDZIAŁY UFNOŚCI. Niech θ - nieznany parametr rozkładu cechy X. Niech α będzie liczbą z przedziału (0, 1).

Rachunek prawdopodobieństwa i statystyka W12: Statystyczna analiza danych jakościowych. Dr Anna ADRIAN Paw B5, pok 407 adan@agh.edu.

Słowniczek Hipoteza statystyczna Hipoteza parametryczna Hipoteza nieparametryczna Hipoteza zerowa Hipoteza alternatywna Błąd pierwszego rodzaju

40:5. 40:5 = υ5 5p 40, 40:5 = p 40.

ANALIZA KORELACJI IREGRESJILINIOWEJ

Matematyka i statystyka matematyczna dla rolników w SGGW

Ekonometria Mirosław Wójciak

BADANIA DOCHODU I RYZYKA INWESTYCJI

Wykład 11 ( ). Przedziały ufności dla średniej

ANALIZA PARAMETRÓW WZROSTU CIELĄT RAS LIMOUSINE, CHAROLAISE I HEREFORD W STADACH HODOWLANYCH OBJĘTYCH KONTROLĄ UŻYTKOWOŚCI

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych (w zakresie materiału przedstawionego na wykładzie organizacyjnym)

Ćwiczenia rachunkowe TEST ZGODNOŚCI χ 2 PEARSONA ROZKŁAD GAUSSA

Modele tendencji rozwojowej STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 18 listopada 2017

WERSJA TESTU A. Komisja Egzaminacyjna dla Aktuariuszy. LX Egzamin dla Aktuariuszy z 28 maja 2012 r. Część I. Matematyka finansowa

Statystyka opisowa. () Statystyka opisowa 24 maja / 8

Lista 5. Odp. 1. xf(x)dx = xdx = 1 2 E [X] = 1. Pr(X > 3/4) E [X] 3/4 = 2 3. Zadanie 3. Zmienne losowe X i (i = 1, 2, 3, 4) są niezależne o tym samym

1 Zmienne losowe. Własności dystrybuanty F (x) = P (X < x): F1. 0 F (x) 1 dla każdego x R, F2. lim F (x) = 0 oraz lim F (x) = 1,

Zeszyty naukowe nr 9

Analiza doboru modelu regresji dla rozkładu Poissona na przykładzie analizy ryzyka awarii 1. Dodatek do Rozdziału 1 skryptu:

STATYSTYKA OPISOWA PODSTAWOWE WZORY

Miary rozproszenia. Miary położenia. Wariancja. Średnia. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

Charakterystyki liczbowe zmiennych losowych: wartość oczekiwana i wariancja

ZBIEŻNOŚĆ CIĄGU ZMIENNYCH LOSOWYCH. TWIERDZENIA GRANICZNE

Testy post-hoc. Wrocław, 6 czerwca 2016

Miary położenia. Miary rozproszenia. Średnia. Wariancja. Dla danych indywidualnych: Dla danych indywidualnych: s 2 = 1 n. (x i x) 2. x i.

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

Porównanie wielu rozkładów normalnych

Autor: Dariusz Piwczyński 1 Ćwiczenie. Analiza zmienności złożona. Testy wielokrotnych porównań

Statystyczny opis danych - parametry

Transkrypt:

Metody statystycze w aukach biologiczych 006-03-8 Wykład: Aaliza wariacji prosta i złożoa (ANOVA) Aaliza zmieości została opracowaa przez uczoego agielskiego, biologa i geetyka Roalda A. Fishera. Istota jego teorii opiera się a podziale zmieości główej a pewe frakcje i a aalizowaiu tych poszczególych zmieości. W oparciu o pogląd Fishera wyróżiamy 3 rodzaje zmieości: a) zmieość ogóla - wyraża się zróżicowaiem wszystkich poszczególych zmieych w stosuku do ogólej średiej (obliczoej dla całej zbiorowości) b) zmieość międzygrupowa - występuje a skutek różic powstałych między grupami doświadczalymi, wywołaa jest działaiem czyika doświadczalego a poszczególe grupy doświadczale, wyraża się zróżicowaiem średich poszczególych grup doświadczalych w stosuku do ogólej średiej c) zmieość wewątrzgrupowa - istieje między poszczególymi zmieymi wewątrz każdej grupy, wywołaa jest czyikami osobiczymi czyli idywidualymi cechami poszczególych osobików, wyraża się zróżicowaiem poszczególych zmieych wewątrz każdej grupy w stosuku do średiej dla tej grupy Aalizą wariacji posługujemy się przy badaiu istotości różic między grupami doświadczalymi. W tym celu wykorzystujemy wykryte przez Fishera prawo, że stosuek kwadratów odchyleń międzygrupowych do wewątrzgrupowych kształtuje się według określoego rozkładu (rozkład F) i stąd możliwa jest ocea prawdopodobieństwa wystąpieia pewych wartości F. Sytuację tę moża wyobrazić sobie w astępujący sposób. Jeśli z populacji o rozkładzie ormalym wybieralibyśmy losowo po dwie próby i badalibyśmy wzajeme relacje ich wariacji (iloraz), to te stosuek miałby rozkład zgody z rozkładem F. Jest to rozkład prawoskośy, tj. średia arytmetycza jest większa od mediay. Założeia aalizy wariacji: Niezależość zmieych objaśiających (czyików). Homogeiczość wariacji (rówość wariacji): porówywae grupy ie różią się zmieością. Jeśli ie ma homogeiczości, to możliwe są logarytmicze trasformacje zmieych lub też usuięcie grupy, która pod względem zmieości wyraźie odstaje od pozostałych. Normalość: Rozkład cechy w każdej z grup wiie być ormaly. W praktyce często badamy czy czyik losowy, tj. e ij posiada rozkład ormaly. W celu sprawdzeia tego założeia, od każdego pomiaru odejmujemy średią wartość grupy, z której te pomiar pochodzi, a astępie badamy rozkład tychże różic. Jeśli reszty ie mają rozkładu ormalego, to zaleca się trasformacje zmieych. Autor: Dariusz Piwczyński 1

Metody statystycze w aukach biologiczych 006-03-8 Hipoteza zerowa i alteratywa: H 0 : Wszystkie średie są rówe. H 0 : µ 1 =µ =µ 3 =µ 4 =µ 5 =µ 6... H 1 : Istieje co ajmiej jeda para średich, które różią się ze sobą. H 1 : µ 1 µ lub µ 1 µ 3 lub µ µ 3 itd... Model liiowy aalizy wariacji: Każda obserwacja przedstawiaa jest jako suma efektów czyików, jakie zostały uwzględioe w aalizie zmieości. Y ij =µ + α i + e ij Czyik stały (modele stałe): Z reguły liczba poziomów czyika stałego jest iewielka. W badaiach uwzględiamy z góry określoe poziomy czyika. Wioski odosimy wyłączie do tych poziomów czyika, które zostały uwzględioe w aalizie. Przykładem czyika stałego może być: płeć, grupa żywieiowa, rasa, rok badań, stado, sezo doju próbego. Czyik losowy (modele losowe): Liczba poziomów czyika losowego jest zwykle duża. Badaiom podday jest losowy podzbiór wszystkich poziomów czyika. Nasze wioski odosimy do wszystkich poziomów czyika, awet tych, które ie zostały uwzględioe w eksperymecie, p. twierdzimy, że rasa wpływ a udział tłuszczu w mleko. Przykładem czyika losowego jest efekt matki, ojca, grupy geetyczej, rasy. Różica między czyikami stałymi oraz losowymi jest dość płya, w dużej mierze zależy od postawioego do rozwiązaia problemu. Model I aalizy wariacji Y ij =µ + α i + e ij gdzie: Y ij wartość cechy u j-tego obiektu pochodzącego z i-tej grupy, µ - średia ogóla, obliczoa dla całej populacji, α i - stały efekt i-tej grupy, tj. różica między średią dla i-tej grupy i dla całej populacji. Moża te efekt traktować jako przewagę i-tej grupy ad przeciętą dla całej populacji. e ij błąd losowy, resztowy. Błąd losowy jest odchyleiem daej obserwacji od średiej grupy, z jakiej oa pochodzi. Spowodoway jest zmieością przypadkową, a ta dotyczy kokretej obserwacji. Błąd jest to taka część obserwowaej zmieości, która ie jest wytłumaczoa za pomocą modelu. Model II aalizy wariacji Y ij =µ + A i + e ij gdzie: A i - losowy efekt i-tej grupy, tj. różica między średią dla i-tej grupy i dla całej populacji, Model dwuczyikowy z iterakcją. Aaliza wariacji w układzie krzyżowym. Y ijk =µ + α i + β j + (αβ) ij + e ijk gdzie: (αβ) ij efekt iterakcji pomiędzy czyikami (poprawka ze względu a iterakcję). Autor: Dariusz Piwczyński

Metody statystycze w aukach biologiczych 006-03-8 Zaleca się, aby z modelu wyelimiować takie iterakcje, które są ieistote statystyczie. Zwiększa się tym samym siłę działaia czyików główych. Jest to tym bardziej uzasadioe, jeśli: liczba stopi swobody dla błędu jest miejsza aiżeli 5 oraz średi kwadrat odchyleń dla iterakcji podzieloy przez wariację błędu jest miejszy aiżeli. Iterakcja, czyli współdziałaie czyików ze sobą. Jeśli iterakcja jest istota, to ie możemy porówywać średich dla czyików główych, koiecze jest wtedy idywiduale porówaie poszczególych podgrup, p. maciorki meryosa polskiego z tryczkami suffolk.. Autor: Dariusz Piwczyński 3

Metody statystycze w aukach biologiczych 006-03-8 Model dwuczyikowy z iterakcją. Aaliza wariacji w układzie hierarchiczym. Jest to sytuacja, w której określoe poziomy czyika rozważae są w obrębie czyika adrzędego. Np. kozioł czy też tryk kryje samice w wyłączie w wybraych stadach. Y ijk =µ + α i + β ij + e ijk gdzie: α i efekt stada, β ij czyik zagieżdżoy, tj. wpływ ojca. Przykład: Samce A i B kryły samice w astępującym stadach: Stado 1 Stado Stado 3 A B A B Kolejość obliczeń (Aaliza wariacji prosta) 1. Obliczaie stopi swobody (rodzaj zmieości) (DF) a) Ogóla N-1 (N liczebość populacji) b) Międzygrupowa k-1 (k - liczba grup doświadczalych) c) Wewątrzgrupowa N-k. Sumy kwadratów odchyleń (SKO) a) Ogóla ( x) S o = x N b) Międzygrupowa S m = c) Wewątrzgrupowa: Sw=S o - S m ( x1 ) ( x ) ( x3 ) ( xi ) ( x) 1 + + 3 +... + N i 3. Średie kwadraty odchyleń (ŚKO) a) zmieość międzygrupowa: S m =S m /(k-1) b) zmieość wewątrzgupowa: S w =S w /(N-k) Sm 4. F empirycze F emp = Sw Tabela aalizy zmieości Rodzaj zmieości Liczba stopi swobody DF Ogóla Międzygrupowa Wewątrzgrupowa N-1 k-1 N-k Suma kwadratów odchyleń SKO S o S m S w Średi kwadrat odchyleń ŚKO S m S w F emp F emp F tab 0,05 0,01 Autor: Dariusz Piwczyński 4

Metody statystycze w aukach biologiczych 006-03-8 Obliczoą wartość statystyki F (tzw. F empirycze - F emp. ) odosimy do wartości krytyczej z rozkładu F-Sedecora dla założoego poziomu istotości (α) i określoej liczby stopi swobody (ν 1 =k-1 oraz ν =N-k) (F tabelarycze - F tab. ). Jeżeli F emp. F tab. - to mamy podstawę do odrzuceie hipotezy zerowej i stwierdzeia, iż istieje co ajmiej jeda para średich, które różią się ze sobą. Zatem czyik doświadczaly wpływa statystyczie a cechę. W przeciwym przypadku, ie mamy podstaw do odrzuceia H 0. Testy wielokrotych porówań możemy je podzielić a 3 grupy: Aaliza kotrastów (test Scheffego) Testy oparte a studetyzowaym rozstępie umożliwiające grupowaie średiach (NIR, Newmaa-Keulsa, Tukey, Duca,) Wioskowaie a podstawie przedziałów ufości (test Scheffego, Beferroiego, test Dueta) Testy wielokrotych porówań wykoujemy wtedy, gdy a podstawie aalizy wariacji stwierdzimy, iż czyik wpływa istotie a badaą cechę!!!! Grupy jedorode: są to takie grupy średich, które ie różią się statystyczie ze sobą. Procedury, które zmierzają do wyróżieia grup jedorodych azywają się procedurami porówań wielokrotych, procedurami jedoczesego wioskowaia lub post-hoc. Testy te wykorzystujemy przy aalizie wariacji wykoywaej w ramach Modelu I. Test Ducaa jest oparty a studetyzowaym rozstępie. Poziom istotości dla całego doświadczeia wyosi 1-(1-α) -1. W sytuacji, gdy rośie do ieskończoości poziom te rośie do jedości. W związku z czym, przy dużej liczbie porówywaych średich prawdopodobieństwo popełieia błędu drastyczie rośie. Test te stosoway jest raczej jako test towarzyszący iym testom. Test Ducaa umożliwia tworzeie grup jedorodych, czyli takich, pomiędzy którymi ie występują różice istote statystyczie a podstawie prób iezależych. Kolejość działań przy wykoywaiu testu Ducaa: 1. Porządkujemy rosąco ciąg uzyskaych średich arytmetyczych. Wybieramy parę średich do porówaia 3. Odczytujemy z tabel testu Ducaa wartości krytycze. Uzależioe są oe od poziomu istotości, liczby stopi swobody oraz typu rozstępu. Typ rozstępu - liczba wartości średich zawartych w jedym ciągu pomiędzy porówywaymi średimi. 4. Wyliczamy tzw. istoty obszar zmieości: D*Sd D odczytujemy w zależości od liczby stopi swobody (zmieość wewątrzgrupowa) oraz typu rozstępu. S d = S w gr S w wariacja dla zmieości wewątrzgrupowej; gr przecięta liczebość grupy 1 i gr = * i k 1 i k liczba grup doświadczalych, i liczebość grupy Jeżeli x i - x j S d *D 0,05 to różica pomiędzy średimi jest istota statystyczie; Jeżeli x i - x j S d *D 0,01 to różica pomiędzy średimi jest wysoko istota statystyczie; Jeżeli x i - x j < S d *D 0,05 to różica pomiędzy średimi jest ieistota statystyczie. Autor: Dariusz Piwczyński 5

Metody statystycze w aukach biologiczych 006-03-8 Test NIR [test ajmiejszych istotych różic] (LSD [least sigificat differeces]). Jest ajstarszym historyczie testem wielokrotych porówań. Zapropooway przez Fishera w 1949. Jego idea polega a wyzaczeiu tzw. ajmiejszych istotych różic i porówaiu ich z różicami średich. Jest to test ajmiej odpory a wzrost liczby wielokrotych porówań, poieważ poziom istotości odosi się do pojedyczego porówaia. W takim przypadku bardzo szybko wzrasta poziom istotości całego eksperymetu. Wobec powyższych test NIR stosoway jest jako test towarzyszący iym testom. Jeśli bezwzględa wartość różicy średich z próby jest większa aiżeli tzw. ajmiejsza istota różica (NIR), to możemy stwierdzić, iż jest oa istota statystyczie. Test Tukeya jest oparty o studetyzoway rozkład. Jest to test ajbardziej polecay do porówaia par średich. Pozwala o wyzaczać grupy średich jedorodych. Występuje w dwóch odmiaach: rówa liczebość próbek, ierówa liczebość próbek (test Spjotvolla i Stoliea). Test Tukea jest bardziej koserwatywy aiżeli NIR, lecz miej iż test Scheffego. Błąd pierwszego rodzaju jest przy tym teście miejszy aiżeli w przypadku NIR, Duca,a poadto gwaratuje o jedakowy poziom istotości dla wszystkich porówywaych par. Test Scheffe jest testem ajbardziej koserwatywym, co ozacza, że rzadziej będziemy odrzucać pojedycze porówaia iż w przypadku iych testów. Test Scheffe zapewia łączy poziom istotości dla wszystkich porówywaych par. Test te doskoale adaje się ie tylko do porówaia par cech, ale rówież uwzględia wszelkie kotrasty. To test ajbardziej zachowawczy, gdyż błąd pierwszego rodzaju jest ajmiejszy. Aalizę wariacji możemy wykoać w SAS za pomocą procedur ANOVA oraz GLM. ANOVA Aalysis of variace (Aaliza wariacji) Geeral Liear Models (Ogóle modele liiowe) Procedura aova w przypadku klasyfikacji pojedyczej (aaliza jedoczyikowa) oraz w przypadku układów ortogoalych daje idetycze rezultaty, jak glm. GLM zalecaa jest w odiesieiu do klasyfikacji wieloczyikowej, o iejdaakowej wielkości grup doświadczalych. Przykład użycia procedury aova (glm): proc aova data=bibliotea.tabela; class czyik; model cecha = czyik; meas czyik/ tukey; ru;quit; Objaśieia: class - azwy czyików doświadczalych/ model - tworzymy model aalizy, zmiee zależe = zmiee iezależe (czyiki) meas - wskazujemy dla jakich grup mają być wyliczoe średie i jakie testy użyte do weryfikacji różic Autor: Dariusz Piwczyński 6