Analiza wariancji - ANOVA

Podobne dokumenty
ANALIZA WARIANCJI - KLASYFIKACJA JEDNOCZYNNIKOWA

ANALIZA WARIANCJI - KLASYFIKACJA WIELOCZYNNIKOWA

Analizy wariancji ANOVA (analysis of variance)

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Elementy statystyki STA - Wykład 5

Matematyka i statystyka matematyczna dla rolników w SGGW

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Testy post-hoc. Wrocław, 6 czerwca 2016

Analiza wariancji. dr Janusz Górczyński

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Statystyka i Analiza Danych

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

Efekt główny Efekt interakcyjny efekt jednego czynnika zależy od poziomu drugiego czynnika Efekt prosty

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Księgarnia PWN: George A. Ferguson, Yoshio Takane - Analiza statystyczna w psychologii i pedagogice

Metody Statystyczne. Metody Statystyczne. #8 Błąd I i II rodzaju powtórzenie. Dwuczynnikowa analiza wariancji

Analiza wariancji - ANOVA

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Copyright by Wydawnictwo Naukowe Scholar, Warszawa 2000, 2008

Analiza wariancji i kowariancji

TABELKA ANOVA (jednoczynnikowa)

Jednoczynnikowa analiza wariancji

Opracowywanie wyników doświadczeń

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

JEDNOCZYNNIKOWA ANOVA

Spis treści. Księgarnia PWN: Bruce M. King, Edward W. Minium - Statystyka dla psychologów i pedagogów. Wstęp Wprowadzenie...

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Szkice rozwiązań z R:

ANALIZA METROLOGICZNA WYNIKÓW BADAŃ NA PRZYKŁADZIE ŁOŻYSK ŚLIZGOWYCH

Metody Statystyczne. Metody Statystyczne

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

Jednoczynnikowa analiza wariancji. Wnioskowanie dla jednoczynnikowej ANOV-y. Porównywanie poszczególnych średnich

Analiza wariancji, część 2

Porównanie wyników grupy w odniesieniu do norm Test t dla jednej próby

WNIOSKOWANIE STATYSTYCZNE

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI TESTOWANIE HIPOTEZ PARAMETRYCZNYCH

Żródło:

Zadanie 1 Odp. Zadanie 2 Odp. Zadanie 3 Odp. Zadanie 4 Odp. Zadanie 5 Odp.

Katedra Biotechnologii i Genetyki Zwierząt, Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

Katedra Biotechnologii i Genetyki Zwierząt, Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

JEDNOCZYNNIKOWA ANALIZA WARIANCJI, ANOVA

Badanie zależności skala nominalna

Oszacowanie i rozkład t

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

, a ilość poziomów czynnika A., b ilość poziomów czynnika B. gdzie

Statystyka matematyczna i ekonometria

Katedra Genetyki i Podstaw Hodowli Zwierząt Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Zadania ze statystyki cz.8. Zadanie 1.

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Kolokwium ze statystyki matematycznej

Testy t-studenta są testami różnic pomiędzy średnimi czyli służą do porównania ze sobą dwóch średnich

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

2. Pewien psycholog w przeprowadzonym przez siebie badaniu międzykulturowym chciał sprawdzić czy narodowość badanych osób różnicuje je pod względem

Projekt zaliczeniowy z przedmiotu Statystyka i eksploracja danych (nr 3) Kamil Krzysztof Derkowski

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Wykład 9 Wnioskowanie o średnich

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Statystyka matematyczna i ekonometria

Zadanie 1. Analiza Analiza rozkładu

Wykład 3 Hipotezy statystyczne

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

Ćwiczenie: Weryfikacja hipotez statystycznych dla jednej i dwóch średnich.

ANOVA podstawy analizy wariancji

JEDNOCZYNNIKOWA ANALIZA WARIANCJI, ANOVA 1

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

ANALIZA WARIANCJI - PRZYPOMNIENIE

Zmienne Binarne w Pakiecie Stata

Katedra Genetyki i Podstaw Hodowli Zwierząt Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

Test niezależności chi-kwadrat stosuje się (między innymi) w celu sprawdzenia związku pomiędzy dwiema zmiennymi nominalnymi (lub porządkowymi)

Przykład 1. (A. Łomnicki)

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Kontekstowe wskaźniki efektywności nauczania - warsztaty

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Elementy statystyki wielowymiarowej

Analiza niepewności pomiarów

Własności statystyczne regresji liniowej. Wykład 4

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Autor: Dariusz Piwczyński 1 Ćwiczenie. Analiza zmienności złożona. Testy wielokrotnych porównań

Weryfikacja hipotez statystycznych

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Egzamin z ekonometrii wersja IiE, MSEMAT

TECHNIKA DRZWI ZATRZAŚNIĘTE PRZED NOSEM

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?

NIEZALEŻNOŚĆ i ZALEŻNOŚĆ między cechami Test chi-kwadrat, OR, RR

Poziom istotności i granica rozsądku - problem porównań wielokrotnych w badaniach naukowych

Transkrypt:

Analiza wariancji - ANOVA

Analiza wariancji jest metodą pozwalającą na podział zmienności zaobserwowanej wśród wyników eksperymentalnych na oddzielne części. Każdą z tych części możemy przypisać oddzielnemu źródłu oraz oszacować ich względne wielkości. Czyli możemy sprawdzić, czy któraś z wyodrębnionych części zmienności jest większa od oczekiwań jakie złożyliśmy w hipotezie zerowej naszego eksperymentu.

Analiza wariancji jest więc techniką, która wśród całej zmienności wskaże te najistotniejsze części, czyli te czynniki, które prawdopodobnie w znaczący sposób wpływają na wyniki eksperymentu. Termin analiza wariancji pochodzi od Ronalda A. Fishera!

Ogólne postępowanie w Analizie wariancji

ANOVA (ANalysis Of VAriance) klasyfikacja jednoczynnikowa To zespół metod statystycznych do porównywania kilku populacji. To technika badania wyników, które zależą od 1 lub kilku czynników działających równocześnie. Mogą to być np. leki, płeć, metoda leczenia, diety itp. Anova pozwala sprawdzić, czy analizowane czynniki wywierają wpływ na obserwowane wyniki.

Idea

Testujemy działanie 2 leków przeciwbólowych dołączając do porównania placebo. Czasy działania leku w godzinach oraz wartości średnich mamy w tabeli: pacjenci Lek A Lek B placebo 1 3 2 1 2 4 3 0,5 3 3 4 0,5 4 6 4 1 Średnie 4 3,25 1 Średnia całkowita: 2,75

Mamy 3 średnie:

średnie 4 (4-2,75) 2 = 6,75 4 (3,25-2,75) 2 = 1 4 (1-2,75) 2 = 12,25 SS efekt = 19,5

SS total SS Error (miara zmienności wewnątrz grup) SS efektu (miara zmienności między grupami)

Stopnie swobody

Liczba df (degrees of freedom) To liczba wszystkich możliwych pomiarów pomniejszona o liczbę wszystkich powiązań. Powiązanie to każda wielkość obliczona na podstawie znajomości tych pomiarów. Każde powiązanie unieruchamia jedną z danych, czyli zmniejsza o 1 liczbę danych, które można swobodnie dobrać. Df dla SS całk = n-1 Df dla SS błędu = n-k Df dla SS efektu = k-1

Tewst F

algorytm

Czyli średnie czasy wykonania detalu różnią się od siebie: tym jest niższy im wyższy poziom kwalifikacji pracowników, oraz że wariancje w grupach różnią się od siebie. Możemy też dodatkowo narysować wykresy pudełkowe przedstawiające wartość mediany, Q1 i Q3, oraz min i maks.

Wartość statystyki F wynosiła 7,4076 i na podstawie prawdopodobieństwa testowego hipotezę zerową o równości średnich w grupach odrzucamy na korzyść hipotezy alt. Czyli twierdzimy, że czas wykonania detalu zależy od poziomu kwalifikacji pracownika.

Po odrzuceniu Ho zazwyczaj przeprowadzane są tzw. Testy post hoc, które pozwalają sprawdzić, które średnie istotnie różnią się od siebie. W programie R dostępy jest test Tukeya który wymaga uprzedniego zapisania zależności między czynnikiem a zmienną objaśnianą za pomocą funkcji aov.

Przedziały ufności dla różnic w średnich czasach wykonania detalu między różnymi poziomami kwalifikacji pracowników

Widać, że różnica w przeciętnym czasie wykonania detalu między drugim i pierwszym poziomem kwalifikacji pracownika wynosiła - 0,80 jednakże na podstawie wartości prawdopodobieństwa testowego nie została ona uznana za istotną (p adj = 0,11 i przekracza progową wartość 0,05). Za nieistotną została także uznana różnica między średnim czasem wykonania detalu w przypadku 2 i 3 poziomu kwalifikacji pracowników (p adj = 0,25). Jedynie istotna różnica między 1 i 3 poziomem kwalifikacji i wynosi 1,42 bo o tyle krócej trwa przeciętny czas wykonania detalu przez osobę o trzecim poziomie kwalifikacji w porównaniu z osobą o pierwszym poziomie kwalifikacji.

Dwuczynnikowa analiza wariancji Przed wykonaniem dwuczynnikowej analizy wariancji warto w sposób graficzny sprawdzić, czy w modelu powinny zostać uwzględnione także interakcje między czynnikami. Kiedy zakłada się istnienie interakcji, wtedy efekt wpływu jednej zmiennej niezależnej na zmienną objaśnianą jest różny na różnych poziomach drugiego czynnika (zmiennej niezależnej). Tu potencjalne wystąpienie interakcji oznaczałoby np. że wpływ płci na czas wykonaniu jest różny w zależności od poziomu kwalifikacji. By przeprowadzić graficzną analizę pozwalającą wykryć potencjalne istnienie interakcji należy zastosować polecenie interaction.plot

Widać z wykresu ze każdy z czynników (kwalifikacje i płec) ma wpływ na czas wykonania detalu, jednakże nie zachodzą między nimi żadne interakcje. Świadczy o tym fakt, że na rysunku linie biegną mniej więcej równolegle (nie przecinają się, co świadczy o braku interakcji).

A co jeśli interakcje są?

Na podstawie uzyskanych wartości statystyki F oraz odpowiadających im wartości prawdopodobieństwa testowego można stwierdzić, ze zarówno płeć, jak i poziom kwalifikacji wpływają na czas wykonania.

Twesty post hoc

Przeprowadzone testy post hoc pozwalają stwierdzić, że jeżeli chodzi o kwalifikacje to chociaż pracownicy mający 3 stopień klasyfikacji potrzebuje o 0,62 mniej czas niż pracownicy z 2 poziomem kwalifikacji to jednak różnica ta jest nieistotna(p adj = 0.053). Różnice dla pozostałych kombinacji poziomu kwalifikacji zostały uznane za istotne. Natomiast biorąc pod uwagę wyniki dla drugiego czynnika, stwierdzamy, że miedzy kobietami i mężczyznami zachodzi istotna różnica w przeciętnym czasie wykonania detalu.

Analiza wariancji gdy są interakcje Przeprowadzono badania mające na celu stwierdzenie czy reklama telewizyjna ma wpływ na wysokość wydatków na prasę badanych osób oraz czy wydatki te zależą od grupy dochodowej osoby.

Wykresy wyraźnie potwierdzają, że między rozpatrywanymi czynnikami istnieją interakcje bo się przecinają krzywe.

Przykład dwuczynnikowej AW przy uwzgl. interakcji

Zbudowany powyżej 2czynnikowy model analizy wariancji wraz z interakcjami pozwala przetestować hipotezę zerową (H0) mówiącą, że wydatki kształtują się niezależnie od podatności na reklamę i od grupy dochodowej, wobec jednej z 3 potencjalnych hipotez: H1(1): na wydatki mają wpływ albo reklama albo dochód H1(2): addytywny wpływ reklamy i grupy dochodowej na wydatki (czyli wpływ i reklamy i dochodów) H1(3): multiplikatywny wpływ reklamy i grupy dochodowej (czyli na wydatki mają wpływ także interakcje między reklamą a grupą dochodową).

Na podstawie Na odstawie wyników takich jak wartości statystyki F i odpowiadającego mu poziomu prawdopodobieństwa testowego, można stwierdzić, że jedynie grupa dochodowa nie ma wpływu na poziom wydatków. Natomiast wpływ 2 czynnika, tj. reklamy oraz interakcji między czynnikami został uznany za istotny. Oznacza to, że po pierwsze reklama ma wpływ na wysokość wydatków oraz po drugie w każdej grupie dochodowej reklama w różny sposób wpływa na poziom wydatków.