Analiza wariancji. dr Janusz Górczyński



Podobne dokumenty
Porównanie wielu rozkładów normalnych

JEDNOCZYNNIKOWA ANALIZA WARIANCJI, ANOVA

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Statystyka i Analiza Danych

Testy post-hoc. Wrocław, 6 czerwca 2016

Analizy wariancji ANOVA (analysis of variance)

Matematyka i statystyka matematyczna dla rolników w SGGW

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

PDF created with FinePrint pdffactory Pro trial version

Rozkłady statystyk z próby

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Wykład 3 Hipotezy statystyczne

hipotez statystycznych

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Statystyka matematyczna dla leśników

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Testowanie hipotez statystycznych cd.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Elementy statystyki STA - Wykład 5

Badanie zgodności dwóch rozkładów - test serii, test mediany, test Wilcoxona, test Kruskala-Wallisa

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 9. TESTOWANIE HIPOTEZ STATYSTYCZNYCH cd.

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

STATYSTYKA MATEMATYCZNA

Analiza wariancji - ANOVA

Testowanie hipotez statystycznych.

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Analiza wariancji i kowariancji

Wydział Matematyki. Testy zgodności. Wykład 03

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Przykład 1. (A. Łomnicki)

Jednoczynnikowa analiza wariancji

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

WNIOSKOWANIE STATYSTYCZNE

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

, a ilość poziomów czynnika A., b ilość poziomów czynnika B. gdzie

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

LABORATORIUM 9 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych

STATYSTYKA wykład 8. Wnioskowanie. Weryfikacja hipotez. Wanda Olech

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Testowanie hipotez statystycznych

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Weryfikacja hipotez statystycznych

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

ANALIZA WARIANCJI - KLASYFIKACJA JEDNOCZYNNIKOWA

1 Weryfikacja hipotez statystycznych

Wykład 9 Testy rangowe w problemie dwóch prób

Rozkłady statystyk z próby. Statystyka

STATYSTYKA

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

JEDNOCZYNNIKOWA ANOVA

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

Księgarnia PWN: George A. Ferguson, Yoshio Takane - Analiza statystyczna w psychologii i pedagogice

Przykład 1 ceny mieszkań

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

Testowanie hipotez statystycznych.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Zawartość. Zawartość

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Analiza wariancji - ANOVA

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Statystyka matematyczna

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Wykład 9 Wnioskowanie o średnich

Transkrypt:

Analiza wariancji dr Janusz Górczyński

Wprowadzenie Powiedzmy, że badamy pewną populację π, w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym σ. Powiedzmy dalej, że istnieje pewien czynnik A wpływający na wartości cechy Y w taki sposób, że może wystąpić zróżnicowanie populacji π na szereg podpopulacji π i odpowiadających poszczególnym poziom czynnika A

Cecha Y jest N(m; σ e ) Jeżeli czynnik A nie różnicuje populacji π na podpopulacje, to rozkład tej cechy reprezentowany jest przez jedną funkcję gęstości o parametrach m oraz σ. m 3

Cecha Y jest N(m; σ e ) Jeżeli czynnik A różnicuje populację π na a (a a) podpopulacji π i (i=1,,, a ), to rozkład tej cechy reprezentowany jest przez a funkcji gęstości (o takim samym kształcie, a różnej średniej). m 1 m m m a 4

Cecha Y jest N(m; σ e ) Jeżeli czynnik A różnicuje populację π na podpopulacje π i, to wykresy ich funkcji gęstości położone są w różnej odległości od hipotetycznej, wspólnej funkcji gęstości. m 1 m m m a 5

Problem: czy czynnik A różnicuje populację π? Miarą zróżnicowania podpopulacji może być odległość ich średnich od średniej ogólnej m. Tę odległość będziemy nazywać efektem wpływu badanego czynnika. a 1 = m 1 - m a a = m a - m m 1 m m m a a = m - m 6

Problem: czy czynnik A różnicuje populację π? (cd.) Ogólnie efekt wpływu i-tego poziomu czynnika A można zapisać jako różnicę między średnią generalną dla tej i-tej podpopulacji π i ~N(m i ; σ e ) a średnią generalną w populacji π ~ N(m; σ e ) : a i = m i m dla i=1,,..., a 7

Problem: czy czynnik A różnicuje populację π? (cd.) Jeżeli czynnik A nie różnicuje populacji na podpopulacje, to wszystkie jego efekty są zerowe, czyli: a i = m i m = 0 dla każdego i, tym samym m i = m. Mówimy wtedy, że wpływ czynnika A na wartości cechy Y jest nieistotny statystycznie. 8

Problem: czy czynnik A różnicuje populację π? (cd.) Jeżeli jednak warunek a i = 0 nie będzie spełniony dla każdego i = 1,,..., a, to tym samym czynnik A różnicuje populację π na co najmniej podpopulacje. Mówimy wtedy, że wpływ czynnika A na wartości cechy Y jest istotny statystycznie. 9

Czym jest analiza wariancji? Jest metodą statystyczną pozwalającą na podstawie wyników zaplanowanego eksperymentu zbadanie, czy czynnik A wpływa istotnie na wartości analizowanej cechy. Metodę analizy wariancji na potrzeby doświadczeń rolniczych wprowadził R. Fisher, a podstawowym testem stosowanym w tej metodzie jest test F Fishera-Snedecora. 10

Podstawowe pojęcia Czynnik badany, np. model samochodu, model automatu produkcyjnego, rodzaj reklamy, dodatek owoców do jogurtu itp. Poziom czynnika badanego, np. dla takiego czynnika jak model samochodu będzie to konkretny model (Lanos, Peugeot 306, Ford Mondeo itd.) 11

Podstawowe pojęcia (cd.) Czynnik badany może mieć charakter czynnika jakościowego, np. model samochodu, rodzaj reklamy. Czynnik badany może mieć także charakter czynnika ilościowego, np. ilość owoców dodawanych do jogurtu 1

Podstawowe pojęcia (cd.) Eksperyment specjalnie zaprojektowane działanie zmierzające do uzyskania prób losowych o zadanych liczebnościach z poszczególnych poziomów czynnika badanego. Wyniki uzyskane w takim eksperymencie możemy oznaczyć jako y ij 13

Podstawowe pojęcia (cd.) Dowolny wynik uzyskany w takim eksperymencie można zapisać jako sumę trzech elementów: y = m + a + ij i e ij Wzór ten przedstawia tzw. model liniowy jednoczynnikowej analizy wariancji. 14

Podstawowe pojęcia (cd.) Model linowy y ij = m + a i + e ij pozwala na rozdzielenie ogólnej sumy kwadratów odchyleń na dwa składniki: vart = vara + vare Analogicznie rozdzielamy liczby stopni swobody: v T = v A + v E 15

Podstawowe pojęcia (cd.) Jak wiemy iloraz sumy kwadratów odchyleń przez odpowiadającą mu liczbę stopni swobody jest średnim kwadratem odchyleń. S T = vart var A S A = SE v v T A = var Z równości sum kwadratów i liczb stopni swobody nie wynika równość średnich kwadratów, czyli: T A S S + S E v E E 16

Hipoteza zerowa Model liniowy analizy wariancji pozwala na weryfikację hipotezy zerowej o braku wpływu czynnika badanego na wartości analizowanej cechy. H : a 0 H : 0 = 0 i i 1 a i i 17

Hipoteza zerowa (cd.) Przy prawdziwości hipotezy zerowej statystyka (funkcja wyników próby) postaci: F = emp. S S A E ma rozkład F z liczbami stopni swobody v A i v E 18

Wnioskowanie F > F, Jeżeli emp. α, v A v E to hipotezę zerową o braku wpływu czynnika badanego odrzucamy. Powiemy, że czynnik badany jest istotny statystycznie. Jeżeli powyższy warunek nie jest spełniony, to nie mamy podstaw do odrzucenia hipotezy zerowej. Powiemy, że czynnik badany jest nieistotny statystycznie. 19

Obliczenia analizy wariancji Na podstawie danych eksperymentalnych budujemy tabelę analizy wariancji. Zmienność st. sw. varians F Czynnika v A vara Błędu v E vare Całkowita v T vart S S A S E F = emp. S S A E 0

Obliczenia analizy wariancji Dalsze wzory analizy wariancji: VarT VarA VarE a n = i i= 1 j= 1 a = i=1 y i = VarT y P P y y ij ij = a i= 1 n i j= 1 yi. P y y VarA i. = n i j= 1 ij A S = SS v A A E S = SS v E E F = A S S A E 1

Wnioskowanie w analizie wariancji Przy prawdziwości hipotezy statystyka F = A S S A E 0 : a1 = a = = aa = ma rozkład F-Fishera z liczbami stopni swobody v A i v E. Jeżeli więc FA > F α, v A, ve, to H 0 odrzucamy jako zbyt mało prawdopodobną. Merytorycznie formułujemy wniosek, że czynnik klasyfikacyjny istotnie wpływa na wartości badanej cechy. H 0

Wnioskowanie w analizie wariancji (cd.) Oznacza to jednocześnie, że co najmniej jedna średnia grupowa (obiektowa) różni się od pozostałych. W dalszej części zajmiemy się sposobami szczegółowego porównania średnich grupowych w takiej sytuacji. W sytuacji, gdy FA F α, v (lub krytyczny poziom A, ve istotności jest większy od przyjętego α) nie mamy podstaw do odrzucenia hipotezy zerowej i tym samym badanie statystyczne wpływu czynnika klasyfikacyjnego jest zakończone. Oznacza to, że ewentualne różnice między średnimi grupowymi (w próbie) mają tylko charakter losowy. 3

Porównania szczegółowe W przypadku odrzucenia hipotezy zerowej wiemy, że co najmniej jedna średnia grupowa różni się od pozostałych. Problemem pozostaje rozdzielenieśrednich na tzw. grupy jednorodne. Pod pojęciem grupy jednorodnej będziemy rozumieć taki zestaw średnich w populacjach, w którym dla każdej pary średnich próbkowych zachodzi związek: y y NIR i i' 4

Porównania szczegółowe (cd.) Najmniejsza istotna różnica może być skonstruowana z użyciem różnych statystyk (najczęściej): t-studenta (LSD) t studentyzowanego rozstępu (NIR Tukey a -HSD, Newmana-Keulsa) F (NIR Scheffego) Ogólnie NIR będziemy wyznaczać wg wzoru: NIR = Kα S r gdzie K α jest wartością tablicową odpowiedniej statystyki, a S r błędem różnicy średnich. 5

Porównania szczegółowe (cd.) W sytuacji, gdy w próbie losowej w każdej podgrupie mamy taką samą liczbę obserwacji (powiedzmy równą n) błąd różnicy średnich wyznaczamy z wzoru: W tych przypadkach, gdy liczba obserwacji w podgrupach jest różna, można skorzystać z wzoru: gdzie 6 n S S E r = 0 n S S E r = 1 1 1 1 0 = = = = a n n n i i n i i n n n i i

Przykład liczbowy W celu porównania oceny ogólnej 5 wybranych produktów spożywczych zaplanowano odpowiedni eksperyment, w wyniku którego uzyskano poniższe wyniki: P1 P P3 P4 P5 1 8 8 7 7 7 7 9 7 9 6 3 7 8 8 7 7 4 8 9 7 8 6 Dane powyższe zostaną opracowane zgodnie z modelem liniowym jednoczynnikowej analizy wariancji: yij = m + ai + eij 7

Przykład liczbowy (cd.) Obliczamy odpowiednie sumy iśrednie: P1 P P3 P4 P5 1 8 8 7 7 7 37 7 9 7 9 6 38 3 7 8 8 7 7 37 4 8 9 7 8 6 38 Sumy 30 34 9 31 6 150 średnie 7,50 8,50 7,5 7,75 6,50 7,50 Obliczamy dalej: Poprawka = 150*7,50 = 115 vart T = (8 + 7 +... + 6 ) - P = 1140-115 = 15 vara A = (30*7,50 +... + 6*6,50) - P = 1133,50-115 = 8,5 8

Przykład liczbowy (cd.) Pozostałe obliczenia zestawiamy już w tabeli analizy wariancji. Zmienność St. sw. var. S F emp. F 0.05 Produkt 4 8,5,15 4,904* 3,06 Błąd 15 6,5 0,43 Całkowita 19 15 Wnioskowanie: Ponieważ F emp. = 4,904 > F0.05,4, 15 = 3,06 hipotezę o braku zróżnicowania między produktami odrzucamy. Oznacza to jednocześnie, że istnieją co najmniej grupy jednorodne. 9

Przykład liczbowy, szczegółowe porównania Obliczamy S r = 0,43 4 = 0,4654 i dalej NIR Tukey a NIR =,88 0,4654 = 1,34 Poniżej mamy uporządkowaneśrednie dla produktów i ich podział na grupy jednorodne. P 8,50 a P4 7,75 0,75 ab P1 7,50 1,00 0,5 ab P3 7,5 1,5 0,50 ab P5 6,50,00 1,5 b 30