Jednoczynnikowa analiza wariancji. Wnioskowanie dla jednoczynnikowej ANOV-y. Porównywanie poszczególnych średnich

Podobne dokumenty
Matematyka i statystyka matematyczna dla rolników w SGGW

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

Wykład 9 Wnioskowanie o średnich

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE

Elementy statystyki STA - Wykład 5

Testowanie hipotez statystycznych.

Analiza wariancji i kowariancji

Testowanie hipotez statystycznych.

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Analizy wariancji ANOVA (analysis of variance)

PDF created with FinePrint pdffactory Pro trial version

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Analiza wariancji - ANOVA

Analiza wariancji. dr Janusz Górczyński

Weryfikacja hipotez statystycznych

Statystyka matematyczna dla leśników

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Testy post-hoc. Wrocław, 6 czerwca 2016

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Prawdopodobieństwo i rozkład normalny cd.

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Metody Statystyczne. Metody Statystyczne

Zadanie 1. Analiza Analiza rozkładu

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Zawartość. Zawartość

Rozdział 8. Regresja. Definiowanie modelu

Wykład 8: Testy istotności

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Zadania ze statystyki cz.8. Zadanie 1.

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

STATYSTYKA MATEMATYCZNA

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

ANALIZA WARIANCJI - KLASYFIKACJA JEDNOCZYNNIKOWA

Dane dotyczące wartości zmiennej (cechy) wprowadzamy w jednej kolumnie. W przypadku większej liczby zmiennych wprowadzamy każdą w oddzielnej kolumnie.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

JEDNOCZYNNIKOWA ANALIZA WARIANCJI, ANOVA

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Statystyka matematyczna i ekonometria

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka w analizie i planowaniu eksperymentu

Wykład 3 Hipotezy statystyczne

Autor: Dariusz Piwczyński 1 Ćwiczenie: Doświadczenia 2-grupowe w układzie niezależnym i zależnym.

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Testowanie hipotez statystycznych

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Katedra Biotechnologii i Genetyki Zwierząt, Wydział Hodowli i Biologii Zwierząt, UTP w Bydgoszczy

Eksploracja Danych. Testowanie Hipotez. (c) Marcin Sydow

Przedziały ufności i testy parametrów. Przedziały ufności dla średniej odpowiedzi. Interwały prognoz (dla przyszłych obserwacji)

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

Ćwiczenie: Weryfikacja hipotez statystycznych dla jednej i dwóch średnich.

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Statystyka matematyczna Testowanie hipotez dla średnich w rozkładzie normalnym. Wrocław, r

Weryfikacja hipotez statystycznych testy t Studenta

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Autor: Dariusz Piwczyński 1 Ćwiczenie. Analiza zmienności złożona. Testy wielokrotnych porównań

Weryfikacja hipotez statystycznych testy dla dwóch zbiorowości

Stosowana Analiza Regresji

Jednoczynnikowa analiza wariancji

Regresja logistyczna (LOGISTIC)

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Testy nieparametryczne

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Testy dla dwóch prób w rodzinie rozkładów normalnych

Wykład 12 ( ): Testy dla dwóch prób w rodzinie rozkładów normalnych

a. opisać badaną cechę; cechą X jest pomiar średnicy kulki

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Testowanie hipotez statystycznych cd.

Przykład 1. (A. Łomnicki)

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Transkrypt:

(Wykład 13) Jednoczynnikowa analiza wariancji Wnioskowanie dla jednoczynnikowej ANOV-y Format danych Hipotezy i model ANOVA Tabela ANOVA i test F Porównywanie poszczególnych średnich

Jednoczynnikowa ANOVA Interesują nas są wartości zmiennej ilościowej, np. poziomu cholesterolu. Porównujemy zmienność w kilku grupach z zmiennością pomiędzy grupami, aby ocenić, czy grupy różnią się znacznie. To jest Analiza Variancji = ANOVA Grupy będą etykietowane jedną zmienną jakościową, np. płcią: jednoczynnikowa ANOVA.

Typowe dane Czas gojenia rany po różnych zabiegach. Płace różnych grup etnicznych w firmie. Żywotność różnych marek opon. Jeśli zmienna kategoryczna ma tylko 2 wartości, ANOVA jest równoważna dwustronnemu testowi t. ANOVA pozwala jednak na 3 lub więcej grup.

Przypomnijmy: dwie populacje, nieznane wariancje populacji H 0 : μ 1 = μ 2 przeciwko H a : μ 1 μ 2 σ 1, σ 2 nieznane. Statystyka t: Jeżeli n 1 =n 2 =n, to t 2 = n(x 1 x 2 ) 2 s 1 2 +s 1 2. Uogólnimy ten iloraz. t x x 1 2 s n s n 2 2 1 2 1 2

Średnia redukcja cholesterolu w trzech grupach terapeutycznych.

Porównaj zmienność wewnątrz i pomiędzy grupami Badanie graficzne: jednoczesne wykresy pudełkowe wiele histogramów Istotność różnic między grupami zależy od: różnicy średnich odchylenia standardowego każdej grupy rozmiarów prób

Wykresy pudełkowe dla grup. Czy średnie są znacząco różne??

Zredukowana zmienność w każdej grupie. Różnice w średnich są bardziej wiarygodne.

Hypotezy w ANOV-ie ANOVA testuje następujące hipotezy: H 0 : Średnie wszystkich grup są równe. H a : Nie wszystkie środki są równe. Nie mówi, jak i które średnie się różnią. Kontroluje "wielokrotne porównania". "Grupa" oznacza "podpopulację". Dla danych "grupa" oznacza "podpróbę".

n = liczba osób łącznie I = liczba grup x Notacja dla ANOV-y = (wielka) średnia dla wszystkich danych i-ta grupa ma: n i = # jednostek (w grupie i) x ij = wartość dla jednostki j (w grupie i) x j = średnia próbkowa (dla grupy i) s i = próbkowe odchylenie standardowe (dla grupy i)

Model ANOV-y x ij i ij, where ij independen t with distributi on N(0, ) µ i oznacza (nieznane) średnie populacji dla grupy i σ jest (nieznanym) odchyleniem standardowym, o którym zakładamy, że jest takie samo dla wszystkich grup.

Szacowanie parametrów populacji: Reguła do badania odchyleń standardowych dla ANOV-y: Jeśli największe s jest mniejsze niż dwukrotność najmniejszego s, to możemy bezpiecznie zakładać, że σ jest stała wśród grup (i używać ANOV-y). Łączone odchylenie standardowe s s, where s p 2 p ( n 1) s... ( n 1) s 2 2 2 1 1 I I p ( n1 1)... ( ni 1)

Jednoczynnikowa ANOV-a. Hipotezy: H 0 : 1 = 2 = 3 = = I H a : Nie wszystkie średnie są równe.

SD rozkładów są takie same, różnica jest tylko w średnich.

Przykład: Przeanalizujemy 3 grupy dzieci w wieku przedszkolnym przed i po zastosowaniu różnych technik nauczania.

Wstępne pytanie naukowe: Czy grupy były podobne pod względem umiejętności czytania przed instrukcją? Symbolicznie: Czy średnie 1, 2, 3 są równe? H 0 : 1 = 2 = 3 H a : Nie wszystkie średnie są równe.

Boxploty czytania ze zrozumieniem "przed rozpoczęciem nauczania.

Normalny wykres kwantylowy dla grupy Basal przed rozpoczęciem nauczania

Normalny wykres kwantylowy dla grupy DRTA przed rozpoczęciem nauczania

Normalny wykres kwantylowy dla grupy Strat przed rozpoczęciem nauczania

Podsumowanie dla każdej grupy. Czy grupy istotnie różnią się od siebie?

Dlaczego nie skorzystać z wielu testów t? Wielokrotne porównania (tutaj 3) między wszystkimi parami grup zwiększają prawdopodobieństwo fałszywego odrzucenia hipotezy zerowej. Szacowanie odchylenia standardowego (σ): technika ANOVA wykorzystuje wszystkie informacje zawarte w danych i zwykle zapewnia wyższą precyzję. Użyjemy ANOV-y i testu F. F=Fisher.

ANOVA table. Three categories of calculations: within, between, total. Three things to calculate: SS, df, MS. We will use computer output (homework and exams). Zmienność DF Stopnie swobody SS Sumy kwadratów MS Średnie kwadraty Pomiędzy Grupami Wewnątrz grup (tzw. Error) I-1 z danych SSG/DFG n-i z danych SSE/DFE Łącznie (Total) n-1 z danych SST/DFT

Wzory (nie zapamiętuj): SSG n ( x x) groups SSE ( n 1) s groups SST ( x x) obs ij i i i 2 2 i 2 Note: SST=SSG+SSE, DFT=DFG+DFE.

Wyjście ANOVA w SAS

Statystyka testowa: F-test F s = MSG/MSE. Przy H 0, F s ma rozkład F z DFG, DFE. W Tabeli E znajdujemy P-wartości dla F s Degrees of freedom in the numerator" = DFG. Degrees of freedom in the denominator" = DFE. Duże wartości F s odrzucają H 0.

Krzywa gęstości rozkładu F. p F s

Ćwiczenie: Sprawdź wynik ANOV-y i P-wartość testu F.

Wniosek: Badane grupy uczniów szkół podstawowych nie różniły się istotnie (P = 0,33) w wynikach czytania przed instruktażem. Oznacza to również, że późniejsze różnice wynikają z zastosowanych metod nauczania. Ważne: że SD dla grup były podobne.

Współczynnik determinacji: R 2 =SSG/SST Pokazuje, jaka część całkowitej zmienności wynika z różnic między grupami. Tutaj tylko 3%. Na wyjściu SAS: R-square Podobna rola jak z r 2 w regresji liniowej.

Pytanie naukowe: Po miesiącach nauki według trzech różnych metod, w każdej klasie podano inny test czytania. Wynik będzie oznaczony jako COMP. Czy metody różnią się skutecznością? (= Czy populacje różnią się po instruktażu?) Hipotezy:

Podsumowanie wyników czytania po instruktażu:

Wyjście SAS dla zmiennej COMP:

Wniosek:

Uwagi: Czy możemy bardziej konkretnie sformułować wnioski? DRTA i Strat to nowe methody (o wspólnej filozofii). Basal to metoda standardowa.

Kontrasty: Rozważmy: H 0 : ½( D + S )= B H a : ½( D + S )> B i dalszy problem: H 0 : D = S H a : D S Uwaga: Kontrasty powinny wyrażać pytanie z góry przyjęte w badaniu naukowym.

Contrasts: Contrast: a, where a. Sample contrast: c a x. SE s a / n 2 c p i i i i i i i 2 0 Dla testowania H 0 : ψ = 0, użyj t-testu t=c/se c z df=dfe. H A może być jednostronna lub dwustronna. CI: c±t * SE c

Przykład: Czy nowe metody są lepsze niż tradycyjna? Znajdź PU dla średniej poprawy.

Przykłąd: Która z nowych metod jest lepsza? Znajdź PU dla różnicy średnich.

Wyjście SAS-a The GLM Procedure Dependent Variable: COMP Contrast DF Contrast SS Mean Square F Value Pr > F Compare 1st with 2nd & 3rd group 1 291.0303030 291.0303030 7.30 0.0088 Compare 2nd with 3rd group 1 66.2727273 66.2727273 1.66 0.2020

Uwagi Uzasadnij, że F(1,df)=(t df ) 2. Dla dwóch próbek o równej wielkości n, F s = n(x 1 x ) 2 +n(x 2 x ) 2 [(n 1)s 1 2 +(n 1)s1 2 ]: 2n 2 =... Użyj wyjścia SAS, aby sprawdzić wcześniej obliczone testy t dla kontrastów. Tutaj df = DFE = 63.

Wielokrotne porównań: Gdy H 0 jest odrzucone, chcemy wiedzieć, które pary średnich się różnią. Podczas gdy (z góry przyjęte) kontrasty mogą być badane niezależnie od H 0, wielokrotne porównania są wykonywane tylko po odrzuceniu H 0. x x t t t 1 1 sp n n i j ** ij, if ij,declare means i, j different i j

Wybór t ** dla wielokrotnych porównań Korekta Bonferroniego: aby szansa na fałszywe odrzucenie któregokolwiek z testów k była nie większa niż (α = 0.05), użyj use t ** =t * (DFE, α/k). Minimalna znacząca różnica (MSD) - podobnie jak próg odrzucenia. MSD ** 1 1 t sp n n i j

Równoczesne przedziały ufności: 1 1 CI for is x x t ** s i j i j p n n i j Interpretacja (dla pojedynczego porównania albo dla wszystkich różnic) zależy od wyboru t **.

Założenie, że σ jest stała, można zweryfikować za pomocą normalnego wykresu kwantylowego:

Dane wyjściowe programu Excel (dla innego problemu):