JEDNOCZYNNIKOWA ANALIZA WARIANCJI, ANOVA

Podobne dokumenty
Analiza wariancji. dr Janusz Górczyński

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

Porównanie wielu rozkładów normalnych

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE

Testy post-hoc. Wrocław, 6 czerwca 2016

Matematyka i statystyka matematyczna dla rolników w SGGW

JEDNOCZYNNIKOWA ANALIZA WARIANCJI, ANOVA 1

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

PDF created with FinePrint pdffactory Pro trial version

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Elementy statystyki STA - Wykład 5

, a ilość poziomów czynnika A., b ilość poziomów czynnika B. gdzie

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Testowanie hipotez statystycznych.

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Analiza wariancji i kowariancji

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Statystyka matematyczna dla leśników

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Jednoczynnikowa analiza wariancji

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Testowanie hipotez statystycznych cd.

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Analiza wariancji - ANOVA

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Analizy wariancji ANOVA (analysis of variance)

Wykład 3 Hipotezy statystyczne

hipotez statystycznych

Analiza wariancji (ANalysis Of Variance - ANOVA)

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Testy nieparametryczne

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Testowanie hipotez statystycznych

Wykład dla studiów doktoranckich IMDiK PAN. Biostatystyka I. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 9. TESTOWANIE HIPOTEZ STATYSTYCZNYCH cd.

Metody Statystyczne. Metody Statystyczne

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

166 Wstęp do statystyki matematycznej

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Statystyka matematyczna

Przykład 1. (A. Łomnicki)

WNIOSKOWANIE STATYSTYCZNE

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

1 Weryfikacja hipotez statystycznych

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Prawdopodobieństwo i rozkład normalny cd.

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Wykład 5 Teoria eksperymentu

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Wydział Matematyki. Testy zgodności. Wykład 03

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

Autor: Dariusz Piwczyński 1 Ćwiczenie: Doświadczenia 2-grupowe w układzie niezależnym i zależnym.

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Wykład: Założenia analizy wariancji. Analiza wariancji złożona i testy wielokrotnych porównań.

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Statystyka i Analiza Danych

Analiza wariancji - ANOVA

Testowanie hipotez statystycznych

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Weryfikacja hipotez statystycznych

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Hipotezy statystyczne

Testowanie hipotez statystycznych

Hipotezy statystyczne

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

STATYSTYKA MATEMATYCZNA

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Transkrypt:

JEDNOCZYNNIKOWA ANALIZA WARIANCJI, ANOVA 1 Obserwowana (badana) cecha Y Czynnik wpływający na Y (badany) A A i i ty poziom czynnika A a liczba poziomów (j=1..a), n i liczba powtórzeń w i tej populacji Cecha Y ~ N(m i, σ ) w i-tej populacji (tej części populacji, która ma czynnik A na i tym poziomie) Obserwacje są niezależne w ramach powtórzeń dla poziomu oraz między poziomami Y ~ N(m, s ) A 1 Y 1 ~ N(m 1, s )... A i A a Y i ~ N(m i, s )... W6-1 Y a ~ N(m a, s )

Model liniowy y ij = m + a i + e ij m i =m+a i i = 1,,..., a j = 1,,..., n i gdzie y ij obserwacja przeprowadzona dla i-tego poziomu czynnika A (A i ), w j tym powtórzeniu, m średnia ogólna, a i efekt i-tego poziomu czynnika A, e ij efekt losowy (błąd losowy) a i= 1 a i = 0 zakładamy dla jednoznaczności wyniku Rozkład efektów losowych powinien być rozkładem N(0,σ err ) (rozkłady niezależne dla różnych poziomów czynnika). W6 -

rysunek poglądowy dla 3 poziomów czynnika 7 6 5 4 3 1 0 a 1 A1 A A3 a Średnie populacji (podpopulacji) oceniamy jako, 5 i 6 ( mˆ 1=, mˆ =5, mˆ 3=6) Średnią ogólną oceniamy jako 4,33 Efekty główne czynnika A oceniamy jako:,33, 0,66 i 1,66 (estymatory efektów głównych czynnika w całej populacji) Efekty losowe oznaczono czarną pionową linią np. e 11 =0, e 1 = 1,..., e =1, Można przyjąć, że wariancja błędu (σ err ) jest równa dla wszystkich podpopulacji. Jej estymator wynosi ok. 0,54. W6-3

rysunek niespełnienia założeń o równości wariancji 8 7 6 5 4 3 1 0 A1 A A3 W tym przypadku wariancje błędów są większe dla trzeciego poziomu czynnika A W6-4

Hipoteza: wpływ czynnika A na cechę Y jest nieistotny (czynnik A nie wpływa na wartości cechy Y) H 0 : m 1 = m =...= m a = m (H 0 : " i a i = 0, bo m i =m+a i ) Hipoteza alternatywna: H 1 : $ i m i m (H 1 : $ i a i 0) Funkcja testowa dla badanej hipotezy: F = emp s s A err Funkcja testowa opiera się na hipotezie o równości wariancji, tzn: zmienność (wariancja) spowodowana czynnikiem A jest taka sama jak zmienność losowa. W6-5

Tabela analizy wariancji Źródło zmienności source Sumy kwadratów SS stopnie swobody df średni kwadrat MS F emp Czynnik-A SS A V A =a 1 s s SS A A A = a 1 s e Błąd losowy-e SS e V e =N a s e = SS N e a Zmienność całkowita-t SS y V T =N 1 Sumy kwadratów odchyleń od średnich grupowych zachowują się addytywnie, tzn. SS y = SS A + SS e Jako poziom istotności a wybiera się najczęściej wartości: 0,05 i 0,01 (oznaczając * lub ** odpowiednio). W6-6

Symbole występujące w tabeli analizy wariancji liczymy według formuł: SS y a n = ( y y = ij ) y i= 1 j= 1 a n i= 1 j= 1 ij yy SS a a = 1 n y y = i ( i ) n Y i= 1 a i= 1 i yy SS e = SS y SS A y = n 1 1 N yij, yi = n y, ij Y = i, j j= 1 i, j y ij N = n a, lub N = n 1 +n +... +n a Jeżeli zajdzie nierówność F emp F α, a-1, N-a to na poziomie istotności α hipotezę H 0 należy odrzucić na korzyść hipotezy alternatywnej H 1. Gdy zajdzie nierówność przeciwna (tzn. F emp < F α, a-1, N-a ) to nie ma podstaw do odrzucenia hipotezy H 0. W6-7

P-Value Ponieważ wnioskowanie często odbywa się na podstawie wartości statystyki określającej prawdopodobieństwo (ryzyko) popełnienia błędu I rodzaju przy aktualnie obserwowanych danych (Pvalue) to do tabeli analizy wariancji dodaje się kolumnę z wyliczoną wartością tej statystyki. W przypadku odrzucenia hipotezy zerowej testujemy szczegółowo średnie podpopulacji, czyli przeprowadzamy podział średnich na grupy jednorodne. Szczegółowe porównanie średnich Grupy jednorodne podzbiory średnich, które można uznać za takie same. Procedury porównań wielokrotnych postępowanie statystyczne zmierzające do podzielenia zbioru średnich na grupy jednorodne. W6-8

Ogólna idea procedur porównań wielokrotnych Są one rozwinięciem metody weryfikacji hipotezy: H 0 : m 1 m = 0 przy hipotezie alternatywnej H 1 : m 1 m 0, opartej na teście t- Studenta. NIR Najmniejsza Istotna Różnica (ang. Least Significant Difference LSD) Jeżeli Yi Yi ' < NIR, to uznajemy, że m i = m i czyli nie różnią się istotnie. Jeżeli Y Yj NIR, Yi Yl < NIR, i < Yj Yl < NIR, to uznajemy, że m i = m j =m l, czyli średnie te stanowią grupę jednorodną. W6-9

Badając w ten sposób wszystkie pary średnich uzyskamy podział zbioru średnich na grupy jednorodne. Uporządkowanie (malejące lub rosnące) badanych średnich znacznie przyspiesza podział na grupy jednorodne. Najczęściej stosowane procedury porównań wielokrotnych to procedury: Studenta, Tukeya (uwzględnia wielokrotność porównań, gwarantuje jednakowy poziom istotności dla wszystkich porównywanych par), Dunnetta (porównanie innych średnich z normą), Scheffego (zapewnia łączny poziom istotności przy porównaniu wszystkich par), Bonferroniego (uwzględna wielokrotność porównań podzielenie poziomu istotności przez ich liczbę), Duncana i Newmana Kuelsa. W6-10

Procedura t Studenta Porównujemy dwie średnie populacyjne (obiektowe): m i i m i w oparciu o średnie próbkowe y i i y i ', uzyskane dla n i i n i obserwacji. Kryterium NIR, oparte na teście t-studenta, liczymy według wzoru: NIR t s = t S ( + = α α, ve r, ve e ni ni ' 1 1 ) Procedura Tukey a Założenie: n 1 =... =n a = n NIR T = q α, a, v e Se n q, Wartość α, a ve pochodzi z tablic wartości krytycznych studentyzowanego rozstępu. W6-11

Porównanie z normą test Dunnetta Zastosowanie: gdy wśród poziomów czynnika A jest wyróżniony poziom kontrolny. Pozostałe poziomy czynnika A porównywane są tylko do kontroli (a nie do siebie nawzajem). Grupa kontrolna powinna zawierać więcej wyników niż pozostałe grupy (do k 1 razy liczniejsza niż pozostałe grupy). W6-1

Przykład: Badano wpływ pięciu preparatów chemicznych (oznaczonych symbolami A 1, A, A 3, A 4 i A 5 ) na rozwój grzyba Botrytis cinerea L. powodującego szarą pleśń. Dla każdego preparatu chemicznego przygotowano pięć jednakowych szalek Petriego z pożywką agarową. Po pewnym czasie zmierzono wielkość kolonii grzyba Botrytis cinerea L. (średnicę w cm). Wyniki zawiera tabela: A 1 1,00 1,1 1,0 1,10 1,30 A 1,66 1,90 1,68 1,8 1,76 A 3,59,46,70,60,4 A 4,6,90 3,04 3,4 3,11 A 5,6,31,76,84,40 W6-13

Graficzna prezentacja danych: 3,5 3 Dane empiryczne grzyb B.,5 1,5 1 A1 A A3 A4 A5 preparat Hipoteza badawcza zakłada, że badane preparaty nie wpływają różnicująco na wielkość kolonii grzyba. Zgodnie z teorią analizy wariancji, odpowiadająca jej hipoteza statystyczna ma postać: H 0 : m 1 = m =...= m 5 = m (H 1 : $ i m i m) F = emp s s a e W6-14

Weryfikację hipotezy, czyli konstrukcję funkcji testowej F emp zawiera tabela analizy wariancji: źródło zmienności sumy kwadratów stopnie swobody W6-15 średnie kwadraty F emp preparat-a SS a =11,433 v a = 4,858 80,97 błąd losowy-e SS e =0,706 v e = 0 0,035 ogółem-t SS T =1,139 v T = 4 Ponieważ F 0.05,4,0 =,87 hipotezę o równości wszystkich pięciu średnich wielkości kolonii grzyba Botrytis cinerea L. odrzucamy. Stwierdzamy istotny wpływ preparatów (zastosowanego preparatu) na wielkość kolonii badanego gatunku grzyba. Przystępujemy do porównań wielokrotnych średnich obiektowych (populacyjnych), przy pomocy jednej ze znanych procedur podziału na grupy jednorodne. Posłużymy się procedurą Tukey a:

m i y i preparat średnie gr. jednorodne A1 1,16 X A 1,764 X A3,554 X A5,586 X A4 3,018 X Graficzna interpretacja testu Tukey a ma postać: 3,3,9 NIR T = 0,35565 Procedura Tukey'a grzyb B.,5,1 1,7 1,3 0,9 A1 A A3 A4 A5 preparat W6-16

Niestety test Tukey a nie gwarantuje rozłącznych podgrup (jak w przypadku powyżej {A1}, {A}, {A3, A5}, {A4}). preparat A1 A A3 A4 grupy X X X X X W tym przypadku najniższą średnią ma {A4}. Pozostałe 3 grupy nie tworzą jednej podgrupy jednorodnej: A1 i A3 mają istotnie różne średnie. Można powiedzieć, że mamy podgrupę z najwyższą średnią {A1, A} oraz podgrupę środkową {A3}. Można też stwierdzić, że mamy podgrupę {A, A3} z nieco większą średnią od podgrupy {A4}, oraz podgrupę {A1}. W6-17

Przykłady niepoprawnie założonych doświadczeń: Badano ilość drobnoustrojów w mleku pewnej firmy. Czy ich ilość jest taka sama w mleku chudym / średniotłustym / tłustym? (3 poziomy czynnika) Pobrano jedną próbkę z kartonu mleka chudego, próbkę z kartonu mleka średniotłustego i próbkę z kartonu mleka tłustego. Wada: pojedyncza próbka z każdego poziomu czynnika nie dostarczy informacji o średnim błędzie doświadczalnym. A jeśli z każdego z 3 kartonów pobrano by po 5 próbek? Wtedy komputer policzy. Wada: Powtórzenia są z tego samego kartonu, nie z tej samej populacji (kartonów mleka). Komputer policzył, czy te konkretne 3 kartony się różnią, a nie czy różni się mleko chude od średniotłustego od tłustego. W6-18

Badano skuteczność różnych środków konserwujących pewien produkt spożywczy. Czy rodzaj środka ma wpływ na stan produktu po 10 dniach? Wybrano losowo z populacji tego produktu 3*10 próbek, i z 10 losowo wybranych paczek środka konserwującego pobrano odpowiednią ilość środka konserwującego. Każdą partię (10 próbek) konserwowano innym środkiem (A, B lub C). Ustawiono na parapecie 10 próbek konserwowanych środkiem A, 10 konserwowanych środkiem B i 10 konserwowanych środkiem C. Wada: Na parapecie warunki przechowywania nie są jednorodne (np. po lewej mogą częściej padać promienie słoneczne). Próbki należało opisać i rozstawić losowo. W6-19

Badano zgodność 3 metod pomiaru tłuszczu w mleku. Czy średni wynik metody A jest taki jak metody B i jak metody C? Z 10 losowo wybranych kartonów mleka pobrano 3 próbki i badano je 3 ma metodami. Wada: Z kartonu pobrano 3 próbki, więc nie można twierdzić, że te 3 wyniki pomiaru zawartości tłuszczu są niezależne (bo zawartość tłuszczu jest praktycznie identyczna). Analizowanie takich danych za pomocą jednoczynnikowej analizy wariancji nie jest poprawne (inna metoda statystyczna)! W6-0