Analiza wariancji i kowariancji

Podobne dokumenty
Elementy statystyki STA - Wykład 5

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych.

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Przykład 1. (A. Łomnicki)

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Testowanie hipotez statystycznych.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Statystyka i Analiza Danych

Testy nieparametryczne

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

PDF created with FinePrint pdffactory Pro trial version

Analiza wariancji. dr Janusz Górczyński

Analizy wariancji ANOVA (analysis of variance)

Matematyka i statystyka matematyczna dla rolników w SGGW

1. Jednoczynnikowa analiza wariancji 2. Porównania szczegółowe

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Własności statystyczne regresji liniowej. Wykład 4

Statystyka matematyczna dla leśników

Testy post-hoc. Wrocław, 6 czerwca 2016

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Weryfikacja hipotez statystycznych

Metody Statystyczne. Metody Statystyczne

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

JEDNOCZYNNIKOWA ANOVA

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

JEDNOCZYNNIKOWA ANALIZA WARIANCJI, ANOVA

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Rozdział 8. Regresja. Definiowanie modelu

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Wykład 3 Hipotezy statystyczne

Wprowadzenie do analizy korelacji i regresji

dr hab. Dariusz Piwczyński, prof. nadzw. UTP

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Jak sprawdzić normalność rozkładu w teście dla prób zależnych?

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

Jednoczynnikowa analiza wariancji

ANALIZA WARIANCJI - KLASYFIKACJA JEDNOCZYNNIKOWA

Wykład 11 Testowanie jednorodności

Pobieranie prób i rozkład z próby

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Testowanie hipotez statystycznych.

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Zadania ze statystyki cz.8. Zadanie 1.

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Analiza wariancji - ANOVA

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Wykład 9 Testy rangowe w problemie dwóch prób

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Porównanie dwóch rozkładów normalnych

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Jednoczynnikowa analiza wariancji. Wnioskowanie dla jednoczynnikowej ANOV-y. Porównywanie poszczególnych średnich

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

166 Wstęp do statystyki matematycznej

Testowanie hipotez statystycznych

Rozkłady statystyk z próby

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Wykład 10 Testy jednorodności rozkładów

Testowanie hipotez statystycznych

Matematyka i statystyka matematyczna dla rolników w SGGW WYKŁAD 11 DOŚWIADCZENIE JEDNOCZYNNIKOWE W UKŁADZIE CAŁKOWICIE LOSOWYM PORÓWNANIA SZCZEGÓŁOWE

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

Porównanie wielu rozkładów normalnych

Wykład 5 Teoria eksperymentu

Analiza wariancji (ANalysis Of Variance - ANOVA)

Wydział Matematyki. Testy zgodności. Wykład 03

Testowanie hipotez statystycznych cd.

Testowanie hipotez statystycznych

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Transkrypt:

Analiza wariancji i kowariancji

Historia Analiza wariancji jest metodą zaproponowaną przez Ronalda A. Fishera. Po zakończeniu pierwszej wojny światowej był on pracownikiem laboratorium statystycznego w Doświadczalnej Stacji Rolniczej w Rothamsted w Anglii, gdzie stworzył podstawy teoretyczne analizy wariancji. Analiza ta zyskała szybko dużo popularność, a jej autor sławę. Początkowo była to technika stosowana w naukach rolniczych, jednak stosunkowo szybko zyskała uznanie w pozostałych dziedzinach nauk biologicznych, socjologii, psychologii, medycynie. 2

Analiza wariancji kiedy stosujemy? Analiza wariancji (ANalysis Of VAriance ANOVA) to metoda statystyczna służąca do porównywania kilku populacji. Badamy wyniki, które zależą od jednego lub kilku czynników działających równocześnie. Każdy czynnik przyjmuje kilka poziomów. Analiza wariancji pozwala sprawdzić, czy analizowane czynniki wywierają wpływ na obserwowane wyniki. Czynniki nazywamy zmiennymi grupującymi lub klasyfikacyjnymi, natomiast zmienna, która jest poddana obserwacji nosi nazwę zmiennej zależnej lub objaśnianej. 3

Idea modelu 4 Podstawowym pojęciem jest zmienność suma kwadratów odchyleń wartości poszczególnych obserwacji od ich wartości średniej: n i= ( X ) 1 i X Całkowita zmienność dzieli się na zmienności pochodzące od poszczególnych czynników biorących udział w badaniu. Rozpatruje się też zmienność związaną z czynnikiem losowym (błędem). Poszczególne zmienności przyjęło oznaczać się symbolem SS suma kwadratów (Sum of Squares). Sumy kwadratów są dzielone przez odpowiadające im stopnie swobody. Otrzymane ilorazy noszą nazwę średnich kwadratów i są zwykle oznaczane jako MS (Mean Square). Otrzymane średnie kwadraty dla poszczególnych czynników porównujemy ze średnim kwadratem błędu. W ten sposób badamy, czy wpływ danego czynnika na wynik zmiennej zależnej jest istotny. 2

Założenia modelu jednoczynnikowej analizy wariancji (1) 1. Analizowana zmienna zależna jest mierzalna. 2. Dysponujemy k próbkami, wyodrębnionymi za pomocą zmiennej dyskretnej (k > 1); 3. Próby zostały pobrane losowo, niezależnie od siebie z każdej z k populacji. 4. Każda z k niezależnych populacji ma rozkłady 2 normalne N ( µ i, σ i ). 5. Rozkłady te mają jednakową wariancję: 2 2 2 σ1 =... = σ k = σ 5

Założenia modelu jednoczynnikowej analizy wariancji (2) Wymienione założenia są niezbędne do wyznaczenia rozkładu statystyki testowej. Przy spełnieniu tych założeń statystyka testowa ma rozkład Fishera-Snedecora. Gdy próbki są równoliczne, test F jest odporny na odchylenia od normalności i jednorodności wariancji. W przypadku gdy rozkłady mocno odbiegają od normalnego, albo wariancje znacznie się różnią, powinniśmy posłużyć się metodą nieparametryczną nazywaną testem Kruskala-Wallisa. Niezależność pomiarów oznacza, że znajomość dowolnego pomiaru nie daje żadnej wskazówki na temat wartości pozostałych. Skutki naruszenia tego założenia są bardzo poważne nie wiemy w jakim kierunku nastąpi zniekształcenie statystyki F. 6

Zapis modelu jednoczynnikowego y = µ + α + u, i = 1,..., k, j = 1,..., n ; ij i ij i, i µ α gdzie: są parametrami podlegającymi szacowaniu, natomiast u ij są niezależnymi zmiennymi losowymi o rozkładzie N 2 (0, σ ). 7

Cel analizy Weryfikacja hipotezy: H 0 : µ 1 = µ 2 =... = µ k gdzie oznacza średnią wartość zmiennej Y µ i w i tej populacji, wobec hipotezy alternatywnej: H : 1 co najmniej dwie średnie populacyjne różnią się między sobą 8

Rodzaje zmienności 9 całkowita zmienność zmiennej Y zmienność międzygrupowa opisuje zróżnicowanie cechy Y między grupami (ta część zmienności wynika ze zróżnicowania prób) Q = n ( y y) M i= 1 i i zmienność wewnątrzgrupowa (zmienność resztowa tą część zmienności przypisujemy błędowi, jest to zmienność, która nie wynika z różnic między grupami) dekompozycja całkowitej zmienności k k n i k n i Q ( ) R = y y i= 1 j= 1 ij i Q = Q + Q M Q = ( y y) i= 1 j= 1 ij R 2 2 2

Kiedy czynnik nie ma wpływu na zmienną Y? jeśli średnie próbkowe zmiennej Y są zbliżone w grupach wyróżnionych za pomocą czynnika, to czynnik nie ma wpływu na poziom cechy Y; wówczas zmienność międzygrupowa powinna być zdecydowanie mniejsza niż zmienność wewnątrzgrupowa; porównanie zmienności wewnątrzgrupowej i międzygrupowej jest rozstrzygające w ocenie wpływu czynnika na zmienną Y; 10

11 Tablica analizy wariancji

Idea testu 12 Dzieląc zmienność międzygrupową i wewnątrzgrupową przez odpowiadające im stopnie swobody otrzymujemy dwa estymatory wariancji w całej populacji. QR /( n k) 2 - nieobciążony estymator σ QM /( k 1) - nieobciążony estymator σ 2, jeżeli prawdziwa jest hipoteza zerowa o równości średnich populacyjnych. Przy prawdziwości hipotezy zerowej wartość statystyki testowej powinna więc być bliska jedności. W przeciwnym razie (gdy średnie w populacjach nie będą sobie równe), to wartość statystyki testowej będzie się odchylać od jedynki w górę. Na ile odchylenie od jedynki jest duże sprawdzamy za pomocą formalnego testu. Przy prawdziwości hipotezy zerowej statystyka testowa ma rozkład F-Snedecora o stopniach swobody k-1 i n-k.

Procedury porównań wielokrotnych - wprowadzenie Metody te są niezwykle przydatne w celu uściślenia charakteru różnic wykrytych przez analizę wariancji. Nazywane są testami post-hoc (po fakcie, a posteriori), gdyż przeprowadza się je tylko po stwierdzeniu faktu istotności ogólnego testu F. Testowanie polega na porównywaniu wszystkich par średnich w celu wykrycia występowania istotnych różnic i przydzielenia średnich do grup. Średnie należące do dwóch różnych grup różnią się w sposób istotny, a należące do jednej grupy z punktu widzenia statystyki są jednakowe (grupy takie nazywamy grupami jednorodnymi). 13

Poziom istotności w porównaniach wielokrotnych 14 liczba liczba wielkość błędu średnich porównań 2 1 0,0500 3 3 0,1426 4 6 0,2649 5 10 0,4013 6 15 0,5367 7 21 0,6594 8 28 0,7622 9 36 0,8422 10 45 0,9006......... k k n = 2 1 (1 0,05) n Pojawia się problem przypadkowych wyników otrzymanych podczas przeprowadzania procedur porównań wielokrotnych. Jeżeli będziemy porównywać osobno każdą parę średnich za pomocą testu statystycznego, to prawdopodobieństwo odrzucenia choć raz prawdziwej hipotezy zerowej o równości średnich rośnie bardzo szybko wraz z liczbą dokonywanych porównań (obliczenia dokonane przy założeniu niezależności statystyk testowych). Należy zatem poszukiwać takiej procedury porównywania par, które korygują szybko rosnący poziom błędu.

Ogólna idea porównywania posthoc 15 Opierają się one na porównywaniu różnic między parami średnich z próby z wielkością noszącą nazwę najmniejszej istotnej różnicy (NIR): ( ) 1 1 X i X j K1 α MSbląd n + i n j NIR gdzie: K - wartość odpowiedniego kwantyla w rozkładzie 1 α statystyki wykorzystanej w danej procedurze, MS bląd -średni kwadrat dla błędu z analizy wariancji, Jeżeli nierówność jest spełniona, to uznajemy obie średnie za równe, natomiast jeżeli zachodzi nierówność przeciwna to średnie różnią się istotnie. W wyniku zastosowania tej procedury dla wszystkich par średnich możemy pogrupować je w jednorodne grupy. Uzyskane grupy rzadko okazują się być rozłączne.

Procedura Bonferroniego (1) Metoda ta bazuje na następującej nierówności: ( p ) p P A A... A 1 P( A i ) 1 2 i= 1 Niech A i oznacza zdarzenie polegające na nie odrzuceniu i-tej prawdziwej hipotezy zerowej. Zakładamy ponadto, że dla pojedynczej hipotezy przyjmujemy poziom istotności α / p. Wówczas prawdopodobieństwo nie odrzucenia prawdziwej hipotezy zerowej przyjmuje wartość: ( ) ( i i ) P A = 1 P A = 1 α / p 16

Procedura Bonferroniego (2) Przy powyższych założeniach wyjściowa nierówność przyjmuje postać: p α α α ( 1 2... p ) 1 p 1 1 ( 1 2... p ) P A A A = P A A A i= 1 Jeżeli dla każdego porównania w zbiorze p porównań przyjmiemy poziom istotności α / p, to poziom istotności dla całego zbioru porównań jest równy α. W metodzie tej najmniejsza istotna różnica wyraża się wzorem: t α 1 α 2 p ( ) 1 1 NIR = t MS + bląd n n gdzie: 1 jest kwantylem rzędu 1 dla rozkładu 2 p 2 p t-studenta i j α 17

Analiza kowariancji - wprowadzenie Chcemy porównać znajomość podstaw mikroekonomii wśród studentów I roku, których w sposób losowy przydzielono do jednego z dwóch alternatywnych podręczników (zmienna grupująca). Ponadto dysponujemy również danymi dotyczącymi ilorazu inteligencji (IQ zmienna ilościowa) każdego ze studentów uczestniczących w badaniu. Spodziewamy się, że iloraz inteligencji oddziałuje na efektywność uczenia się studentów. Powinniśmy zatem wykorzystać tę informację do uczynienia naszego testu bardziej precyzyjnym. 18

Istota analizy kowariancji Zaprezentowany przykład mówi o konieczności uwzględnienia w analizie wariancji dodatkowych czynników (zmiennych ciągłych) zwiększających statystyczną moc naszego układu. Jeżeli wiemy, że zmienne towarzyszące w sposób istotny wpływają na badaną zmienną, to wówczas niektóre istotne różnice między średnimi porównywanych grup możemy częściowo wyjaśnić wpływem zmiennej towarzyszącej. Koniczne byłoby usunięcie tego wpływu tak dalece, jak to tylko możliwe. 19

Efektywność dwóch metod nauczania ekonomii przykład (1) 20 nr obs. Podręcznik A Podręcznik B IQ Wynik testu IQ Wynik testu 1 89 69 91 61 2 99 86 101 88 3 100 91 111 92 4 111 97 121 98 5 103 93 110 90 6 100 90 108 93 7 95 81 105 82 8 86 65 95 68 średnie 97,875 84 105,25 84 korelacja 0,9612 0,9158 Obserwujemy wysoką (dla każdego podręcznika) korelację pomiędzy IQ a wynikiem z testu oraz takie same średnie wyniki z testu dla obu podręczników. Czy równość średnich dla wyników testu dla obu podręczników sugeruje, iż obie metody nauczania są równoważne? Ale również łatwo zauważyć, że studenci uczący się z podręcznika B mają wyższy poziom inteligencji. Jeżeli nie byłoby żadnej różnicy pomiędzy metodami, to mielibyśmy prawo oczekiwać, że grupa ta osiągnie lepsze wyniki w nauce. A skoro tak nie jest mamy podstawy wnioskować, że jednak podręcznik A jest lepszy. Studenci bowiem o niższej wartości IQ uczeni tą metodą dorównali swoimi wynikami studentom z wyższą wartością IQ

Efektywność dwóch metod nauczania ekonomii przykład (2) 21 Analiza kowariancji (ANCOVA) pozwala przeprowadzić wnioskowanie statystyczne mające na celu stwierdzenie, czy między podręcznikami zachodzą istotne różnice. Nie wiemy w jakim zakresie wyniki w nauce wynikają z różnych metod nauczania, a w jakim z różnic w poziomie inteligencji. Za pomocą analizy kowariancji możemy porównać osiągnięcia w nauce związane z różnymi metodami nauczania poprzez oddzielenie (kontrolowanie) wpływu inteligencji. Interesuje nas bowiem odpowiedź na pytanie: jakie będą różnice w wynikach nauczania za pomocą różnych podręczników, gdy obie grupy studentów będą miały taki sam średni poziom inteligencji? Analiza kowariancji odpowie na postawione pytanie poprzez obliczenie średnich skorygowanych. Pokazują one, jaka część zmienności pozostaje w średnich z wyników z testu po oddzieleniu tej części zmienności, za którą odpowiedzialny jest poziom inteligencji (zmienna towarzysząca). Wpływ zmiennej towarzyszącej oddzielamy, wykorzystując metody regresji liniowej. Następnie stosujemy analizę wariancji dla zmiennych skorygowanych czyli wobec tej części zmienności wyników z testu, która nie jest wyjaśniona przez poziom inteligencji.

Etapy analizy kowariancji 1) Przeprowadzamy regresję liniową zmiennej zależnej (Y wynik testu) na zmienną towarzyszącą (X IQ). Zmienna Oszacowanie Błąd statystyka standardowy t p-value stała -26,76508 18,24757-1,47 0,17 IQ (X) 1,09061 0,1789692 6,09 0,00 2) Wyznaczamy skorygowaną zmienną zależną: Y = Y 1, 09061 X X ij ij ij ( ) 3) Przeprowadzamy analizę wariancji dla zmiennej skorygowanej Rodzaj zmienności suma kwadratów stopnie swobody średni suma kwadratów statystyka testowa p-value 22 wyjaśniona (ESS) 258,775426 k - 1 = 1 resztowa (RSS) 320,554931 n - k - 1 = 13 całkowita 579,330358 E = ESS/(k - 1) = 258,775426 R = RSS/(n - k - 1) = 24,658072 F = E/R =10,49 0,0064658 Średnie Podręcznik skorygowane A 88,02 B 79,98