Autor: Dariusz Piwczyński 1 Ćwiczenie. Analiza zmienności złożona. Testy wielokrotnych porównań

Podobne dokumenty
Wykład: Założenia analizy wariancji. Analiza wariancji złożona i testy wielokrotnych porównań.

Katedra Genetyki i Podstaw Hodowli Zwierząt Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Autor: Dariusz Piwczyński 1 Ćwiczenie: Doświadczenia 2-grupowe w układzie niezależnym i zależnym.

Katedra Biotechnologii i Genetyki Zwierząt, Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

Elementy statystyki STA - Wykład 5

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE

Ćwiczenie: Badanie normalności rozkładu. Wyznaczanie przedziałów ufności.

Analizy wariancji ANOVA (analysis of variance)

Matematyka i statystyka matematyczna dla rolników w SGGW

Testy post-hoc. Wrocław, 6 czerwca 2016

Analiza wariancji i kowariancji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Jednoczynnikowa analiza wariancji

Jednoczynnikowa analiza wariancji. Wnioskowanie dla jednoczynnikowej ANOV-y. Porównywanie poszczególnych średnich

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Analiza wariancji - ANOVA

Rozdział 8. Regresja. Definiowanie modelu

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Statystyka w analizie i planowaniu eksperymentu

Analiza wariancji. dr Janusz Górczyński

Testy nieparametryczne

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

PAKIETY STATYSTYCZNE

Analiza wariancji - ANOVA

Katedra Biotechnologii i Genetyki Zwierząt, Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Badanie normalności rozkładu

JEDNOCZYNNIKOWA ANALIZA WARIANCJI, ANOVA

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

, a ilość poziomów czynnika A., b ilość poziomów czynnika B. gdzie

Ćwiczenie: Weryfikacja hipotez statystycznych dla jednej i dwóch średnich.

Metody Statystyczne. Metody Statystyczne

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

Katedra Genetyki i Podstaw Hodowli Zwierząt Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

PDF created with FinePrint pdffactory Pro trial version

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

1 Estymacja przedziałowa

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Przykład 1. (A. Łomnicki)

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

JEDNOCZYNNIKOWA ANOVA

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Porównanie wielu rozkładów normalnych

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Analiza wariancji (ANalysis Of Variance - ANOVA)

WNIOSKOWANIE STATYSTYCZNE

STATYSTYKA MATEMATYCZNA

Efekt główny Efekt interakcyjny efekt jednego czynnika zależy od poziomu drugiego czynnika Efekt prosty

Statystyka matematyczna dla leśników

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Wykład 5 Problem dwóch prób - testowanie hipotez dla równości średnich

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Wykorzystanie testu Levene a i testu Browna-Forsythe a w badaniach jednorodności wariancji

Wykład 5 Teoria eksperymentu

Testowanie hipotez statystycznych

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Metoda najmniejszych kwadratów

Wykład dla studiów doktoranckich IMDiK PAN. Biostatystyka I. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

ANALIZA METROLOGICZNA WYNIKÓW BADAŃ NA PRZYKŁADZIE ŁOŻYSK ŚLIZGOWYCH

Żródło:

Statystyka matematyczna. Wykład VI. Zesty zgodności

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Statystyka i Analiza Danych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Metody Statystyczne. Metody Statystyczne. #8 Błąd I i II rodzaju powtórzenie. Dwuczynnikowa analiza wariancji

Wykład 12 Testowanie hipotez dla współczynnika korelacji

STATYSTYKA MATEMATYCZNA

Spis treści. Laboratorium III: Testy statystyczne. Inżynieria biomedyczna, I rok, semestr letni 2013/2014 Analiza danych pomiarowych

Zadania ze statystyki cz.8. Zadanie 1.

Testy t-studenta są testami różnic pomiędzy średnimi czyli służą do porównania ze sobą dwóch średnich

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Analiza wariancji. Źródło: Aczel A. D. Statystyka w zarządzaniu. Barbara Gładysz

ANALIZA WARIANCJI - KLASYFIKACJA JEDNOCZYNNIKOWA

Wykład 9 Wnioskowanie o średnich

Ćwiczenie: Wybrane zagadnienia z korelacji i regresji.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

BADANIE POWTARZALNOŚCI PRZYRZĄDU POMIAROWEGO

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Transkrypt:

Autor: Dariusz Piwczyński 1 Ćwiczenie. Analiza zmienności złożona. Testy wielokrotnych porównań Analizę wariancji możemy wykonać w SAS za pomocą procedury ANOVA oraz GLM. ANOVA Analysis of variance (Analiza wariancji) General Linear Models (Ogólne modele liniowe) Model analizy wariancji (ANOVA): Y ij =µ + α i + ε ij µ - średnia dla całej, objętej badaniami populacji α i efekt i-tego poziomu czynnika, to inaczej różnica między średnią dla i-tej grupy oraz średnią dla całej grupy (µ). ε ij - błąd losowy Przykład procedury pozwalającej przeprowadzić jednoczynnikową analizę wariancji. proc anova data=krowy.mleko; model mlkg = lakt; means lakt/ tukey; Objaśnienia: class - nazwy czynników doświadczalnych/ model - tworzymy model analizy, zmienne zależne = zmienne niezależne (czynniki) means - wskazujemy dla jakich grup mają być wyliczone średnie i jakie testy użyte do weryfikacji różnic proc anova data=owce.jag; class gen; model bialko--pr_tloszac = gen; means gen /duncan alpha=0.01; Sprawdzamy założenia analizy wariancji: a) Równość wariancji (Homogeniczność wariancji). TEST LEVENE Hipoteza zerowa w przypadku tego testu brzmi: wszystkie wariancje są równe. Test Levene jest dostępny w procedurze GLM! means lakt/hovtest; proc glm data=krowy.mleko; model mlkg = lakt; means lakt/hovtest; b) Sprawdzamy czy reszty mają rozkład normalny. Wykonujemy testy oddzielnie dla każdej grupy, ale również można dla całości proc glm data=krowy.mleko; model mlkg = lakt; output out=spr r=reszty p=pred;

Autor: Dariusz Piwczyński 2 Polecenie output pozwala zapisywać wyniki obliczeń w nowych zbiorach czy samą tabelę (tak, jak w tym wypadku) z danymi w zbiorze wynikowym o nazwie spr. Zawiera on dodatkowo kolumny: reszty (umieszczone są w niej błędy losowe) oraz kolumnę pred (przewidywane wartości cechy u poszczególnych obiektów). proc univariate data=spr normal; var reszty; reszty to kolumna w tabeli spr, która zawiera błędy losowe dla każdej jednostki doświadczalnej. Poniżej znajduje się fragment tabeli spr Obs krowa mlkg reszty pred 1 409634790 3075.9-1463.26 4539.16 2 409634662 3355.3-1183.86 4539.16 3 409633917 3658-881.16 4539.16 4 509090241 3821.2-717.96 4539.16 5 509013003 4474.4-64.76 4539.16 14 409633917 3312-1105.28 4417.28 15 409634662 3549.8-867.48 4417.28 16 409634790 3593.9-823.38 4417.28 17 509083260 3743.6-673.68 4417.28 18 509127404 3765.4-651.88 4417.28 19 509011344 4246.1-171.18 4417.28 27 509127404 2610-3039.76 5649.76 28 409634662 3721-1928.76 5649.76 29 509013003 4115.6-1534.16 5649.76 30 409634790 5110.4-539.36 5649.76 31 509090217 5290.4-359.36 5649.76 32 509133667 5426.2-223.56 5649.76 33 409633917 5675.7 25.94 5649.76 W sytuacji, gdy wyniki analizy wariancji dają podstawę do odrzucenia hipotezy zerowej, wykonujemy tzw. testy niezaplanowane, zwane inaczej testami a posteriori. Niedopuszczalne jest stosowanie testu t-studenta w przypadku większej liczby porównywanych średnich (więcej niż 2), gdyż drastycznie rośnie błąd I rodzaju dla całego doświadczenia. Przy jednej parze błąd ten wynosić może 0,05, ale przy 4 średnich (6 możliwych porównań) prawdopodobieństwo, że się pomylimy wynosi: 1-0,95 6, czyli aż 0.26. PRZYKŁAD 1: Sprawdź metodą analizy wariancji czy genotyp jagniąt wpływa statystycznie na ich cechy użytkowości rzeźnej. Zweryfikuj wcześniej założenia analizy wariancji, tj. homogeniczność wariancji, zgodność reszt z rozkładem normalnym. Skoroszyt do obliczeń znajduje się w S:\USM_STAT\BAZY_XLS\JAG.XLS a) Testujemy zgodność wariancji oraz reszty /*Homogenicznosc wariancji*/ proc glm data=owce.jag; class gen; model pr_tloszac = gen; means gen /hovtest; output out=spr r=reszty p=pred; quit;

Autor: Dariusz Piwczyński 3 proc univariate data=spr normal; /* class gen;*/ var reszty; ======================================================================== System SAS 17:24 Monday, April 19, 2004 54 Class Level Information Class Levels Values gen 4 R2 R3 mp su Number of observations 62 System SAS 17:24 Monday, April 19, 2004 55 Dependent Variable: pr_tloszac Suma Źródło DF kwadratów średnia kwadratów F Pr > F Model 3 241.0486920 80.3495640 7.23 0.0003 Error 58 644.8991354 11.1189506 Corrected Total 61 885.9478274 R-Square Coeff Var Root MSE pr_tloszac Mean 0.272080 18.36983 3.334509 18.15210 Warto ć Źródło DF Type I SS rednia kwadratów F Pr > F gen 3 241.0486920 80.3495640 7.23 0.0003 Źródło DF Type III SS rednia kwadratów F Pr > F gen 3 241.0486920 80.3495640 7.23 0.0003 System SAS 17:24 Monday, April 19, 2004 ============================================================================================== Levene's Test for Homogeneity of pr_tloszac Variance ANOVA of Squared Deviations from Group Means Suma Źródło DF kwadratów średnia kwadratów F Pr > F gen 3 293.0 97.6813 0.47 0.7040 Error 58 12039.4 207.6 Przeprowadzony test Levene, a w zasadzie prawdopodobieństwo związane z tym testem (0.7040), dowodzi, iż nie mamy podstaw do odrzucenia hipotezy zerowej o równości wariancji. Należy zatem założyć, iż zmienność w porównywanych populacjach próbnych jest podobna. Jedno z założeń analizy zostało pozytywnie przetesttowane. System SAS 17:24 Monday, April 19, 2004 57 Level of ----------pr_tloszac--------- gen N Mean Std Dev R2 15 17.3540000 3.55733207 R3 21 18.8676190 2.80400411 mp 8 13.6675000 3.46764947 su 18 19.9755556 3.64863911 Krótka charakterystyka statystyczna powyżej pozwala wstępnie porównać ze sobą grupy rasowe jagniąt biorąc pod uwagę przeciętny poziom cechy oraz jej zmienność. Procedura UNIVARIATE Zmienna: reszty Momenty N 62 Suma wag 62 Średnia 0 Suma obserwacji 0 Odch. standardowe 3.2514792 Wariancja 10.572117 Skośność 0.23387574 Płaskość -0.0719579 SS nieskorygowane 644.899135 SS skorygowane 644.899135 Wariancja współczynnika. Stand. błąd średniej 0.41293827

Autor: Dariusz Piwczyński 4 Podstawowe miary statystyczne Położenie Zmienno ć Średnia 0.000000 Odch. standardowe 3.25148 Mediana 0.091000 Wariancja 10.57212 modalna. Przedział 15.65844 Przedział międzykwartylowy 4.44794 Testy dla normalności Test ----Statystyka---- ------P-warto ć------- Shapiro-Wilk W 0.987163 Pr < W 0.7643 Kolmogorov-Smirnov D 0.091336 Pr > D >0.1500 Cramer-von Mises W-Kwadr. 0.046285 Pr > W-Kwadr. >0.2500 Anderson-Darling A-Kwadr. 0.270366 Pr > A-Kwadr. >0.2500 System SAS 17:24 Monday, April 19, 2004 63 Przeprowadzone testy normalności, Shapiro-Wilka (0.7643), Kolmogorov-Smirnova (0.15) nie dają podstaw do odrzucenia hipotezy zerowej, która zakłada zgodność rozkładu reszt z rozkładem normalnym. b) Po sprawdzeniu założeń wykonujemy jednoczynnikową analizę wariancji za pomocą procedury ANOVA /*Wykonujemy analize wariancji lacznie z testem wielokrotnych porownan*/ proc anova data=owce.jag; class gen; model pr_tloszac = gen; means gen /tukey cldiff lines alpha=0.01; ALPHA=p poziom istotności, przy którym testujemy istotność różnic. CLDIFF opcja towarzysząca następującym testom: BON, GABRIEL, SCHEFFE, SIDAK, SMM, GT2, T, LSD, i TUKEY. LINES opcja towarzysząca testom: BON, DUNCAN, GABRIEL, REGWQ, SCHEFFE, SIDAK, SMM, GT2, SNK, T, LSD, TUKEY, i WALLER. Class Level Information Class Levels Values gen 4 R2 R3 mp su Number of observations 62 Dependent Variable: pr_tloszac Suma Źródło DF kwadratów Średnia kwadratów F Pr > F Model 3 241.0486920 80.3495640 7.23 0.0003 Error 58 644.8991354 11.1189506 Corrected Total 61 885.9478274 R-Square Coeff Var Root MSE pr_tloszac Mean 0.272080 18.36983 3.334509 18.15210 Źródło DF Anova SS Średnia kwadratów F Pr > F gen 3 241.0486920 80.3495640 7.23 0.0003

Autor: Dariusz Piwczyński 5 Obliczony poziom istotności (0,0003), związany z testem Fishera-Snedecora pozwala stwierdzić, iż mamy podstawę do odrzucenia hipotezy zerowej o równości średnich. Istnieje zatem co najmniej jedna para średnich, które różnią się ze sobą statystycznie. Odrzucenie H 0 pozwala również wnioskować, iż przynależność rasowa jagniąt wysoko istotnie statystycznie oddziałuje na udział wyrębów wartościowych w półtuszy. Konieczne jest przeprowadzenie testu wielokrotnych porównań, który pozwoli ustalić jakie grupy różnią się między sobą pod względem ocenianej cechy. F wartość F (ŚKM/ŚKW) R-Square (R 2 ) =SKM/SKO; Wskaźnik determinacji informuje, w jakim stopniu zmienne niezależne (czynniki) objaśniają zmienność cechy zależnej. Jeżeli wartość jest zbliżona do 0, tzn. że czynniki w żaden sposób nie wyjaśniają zmienności cechy ilościowej. Coeff Var wskaźnik zmienności Pearsona Mean średnia arytmetyczna dla całej populacji, tj. 62 jagniąt. Root MSE System SAS 17:24 Monday, April 19, 2004 65 Test zakresu studentyzowanego Tukeya (HSD) dla pr_tloszac UWAGA: Ten test sprawdza wartość błędu rodzaju I eksperymentalnie. Alpha 0.01 Niepoprawne stopnie swobody 58 Kwadrat błędu średniej 11.11895 krytyczna zakresu studentyzowanego 4.60093 Porównania znaczące na poziomie 0.01 są wskazywane przez '***'. Poniżej znajduje się efekt działania opcji CLDIFF. Porównywane grupy dobrane są parami, przy każdej różnicy średnich znajduje się jej przedział ufności oraz informacja czy różnica jest istotna statystycznie. Jak dowodzą rezultaty testu Tukey, jagnięta rasy merynos polski różnią się wysoko istotnie z pozostałymi grupami genotypowymi. Nie stwierdzono różnic istotnych statystycznie między grupami jagniąt z udziałem rasy suffolk, stanowią one grupę jednordną. Difference Jednoczesny gen Between 99% Confidence Comparison Means Limits su - R3 1.108-2.377 4.593 su - R2 2.622-1.171 6.414 su - mp 6.308 1.698 10.918 *** R3 - su -1.108-4.593 2.377 R3 - R2 1.514-2.154 5.181 R3 - mp 5.200 0.693 9.707 *** R2 - su -2.622-6.414 1.171 R2 - R3-1.514-5.181 2.154 R2 - mp 3.686-1.063 8.436 mp - su -6.308-10.918-1.698 *** mp - R3-5.200-9.707-0.693 *** mp - R2-3.686-8.436 1.063 Test zakresu studentyzowanego Tukeya (HSD) dla pr_tloszac UWAGA: Ten test sprawdza wartość błędu rodzaju I eksperymentalnie, lecz ma wyższą wartość błędu rodzaju II niż REGWQ.

Autor: Dariusz Piwczyński 6 Alpha 0.01 Niepoprawne stopnie swobody 58 Kwadrat błędu średniej 11.11895 krytyczna zakresu studentyzowanego 4.60093 Różnica minimalnie znacząca 4.1653 Średnia harmoniczna rozmiarów komórek 13.56662 UWAGA: Rozmiary komórek nie są równe. Means with the same letter are not significantly different. Poniżej znajduje się efekt działania opcji LINES. Porównywane grupy uporządkowane są malejąco. Średnie, przy których znajduje się ta sama litera stanowią, tzw. grupę średnich jednorodnych, tzn. które nie różnią się ze sobą. Porównaj z wynikami istotności różnic powyżej. Bezwzględnie należy zwrócić uwagę, iż wzrost w genotypie jagniąt udziału rasy suffolk korzystnie wpływa na procentowy udział wyrębów wartościowych w tuszy zwierząt. Tukey Grouping Mean N gen A 19.976 18 su A A 18.868 21 R3 A B A 17.354 15 R2 B B 13.668 8 mp Zadanie 1: Sprawdź metodą analizy wariancji czy laktacja oraz stado wpływają statystycznie na cechy mleczności krów. Zweryfikuj wcześniej założenia analizy wariancji, tj. homogeniczność wariancji, zgodność reszt z rozkładem normalnym. Obliczenia wykonaj za pomocą procedury GLM (tabela krowy). proc glm data=krowy.mleko; class lakt stado; model mlkg = lakt stado lakt*stado; means stado /tukey; means lakt /tukey; Zadanie 2: Posługując się metodą dwuczynnikowej analizy wariancji sprawdź czy rodzaj zakładu przemysłowego oraz strefa, w jakiej pobierane były próby mają statystyczny wpływ na liczbę gatunków mechowców oraz liczebności osobników z rodzaju Mechowców i Roztoczy. W razie potrzeby zastosuj testy wielokrotnych porównań.