Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014
Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki - Warsztaty - Statystyka i Analiza Danych
Plan wystąpienia Analiza wariancji metoda analizy danych czy coś więcej Trochę o źródłach zmienności Bez obliczeń się nie obejdzie Przykład analizy wyników eksperymentu jednoczynnikowego Opracowanie wyników eksperymentu dwuczynnikowego z powtarzanymi pomiarami i efektem interakcji Analiza wyników eksperymentu zaplanowanego w układzie losowanych bloków (eliminacja niepożądanej zmienności systematycznej)
Co oznacza termin: analiza wariancji? W węższym znaczeniu analizę wariancji można traktować jako uogólnienie testów istotności różnic pomiędzy wartościami oczekiwanymi w przypadku dwóch populacji W szerszym znaczeniu analiza wariancji obejmuje techniki analizy danych wykorzystywane w ramach działu statystycznej analizy stosowanej określanego terminem planowanie doświadczeń (ang. experimental design)
Planowanie eksperymentu trzy podstawowe decyzje Wybór zmiennej zależnej Ustalenie czynnika (ów) eksperymentalnych Dobór jednostek eksperymentalnych
Źródła zmienności wyników Zmienność powodowana przez czynniki eksperymentalne (pożądana) Zmienność związana z błędem pomiaru zmiennej zależnej (niepożądana) Zmienność wynikająca ze zróżnicowania materiału badawczego (niepożądana)
Rodzaje zmienności wyników Zmienność systematyczna, zaplanowana (pożądana) Zmienność przypadkowa (z którą można sobie poradzić) Zmienność systematyczna, niepożądana (może uniemożliwić wykazanie efektu, na którym zależy badaczowi)
Analiza wariancji od kuchni (bez obliczeń się nie obejdzie) Z punktu widzenia badacza wśród czynników mających wpływ na zmienność wyników eksperymentu możemy wyróżnić czynniki główne i czynniki uboczne Jeśli eksperyment ma być naukową metodą rozwiązywania problemów badawczych, to powinien być tak zaplanowany by przy analizie jego wyników można było oddzielić wpływ czynników głównych i czynników ubocznych
Umowną miarą całkowitej zmienności wyników eksperymentu jest suma kwadratów odchyleń poszczególnych wyników od średniej ogólnej: p SK calk = (y ij y) 2 i=1 n j=1 Analiza wariancji (ANOVA) polega na podziale całkowitej zmienności wyników eksperymentu na dwa składniki, odpowiadające zmienności spowodowanej przez czynniki główne (zmienność międzygrupowa) oraz zmienności przypisanej czynnikom ubocznym (zmienność wewnątrzgrupowa).
Liczbową miarą pierwszego składnika jest suma kwadratów odchyleń średnich grupowych od średniej ogólnej, nazywana międzygrupową sumą kwadratów: SK między = n (y i y) 2 p i=1 Liczbową miarą drugiego składnika jest suma kwadratów odchyleń poszczególnych pomiarów w grupach od odpowiednich średnich grupowych, nazywana wewnątrzgrupową suma kwadratów odchyleń: p SK wewn = (y ij y i ) 2 n i=1 j=1
Z poszczególnymi źródłami zróżnicowania wyników eksperymentu są związane odpowiednie liczby stopni swobody Wynoszą one odpowiednio: df cala = p n - 1 df między = p - 1 df wewn = p (n - 1)
W następnym etapie oblicza się tzw. średnie kwadraty odchyleń będące nieobciążonymi estymatorami wariancji z próby. Aby obliczyć wartość średniego kwadratu dla danego źródła zmienności sumy kwadratów dzieli się przez odpowiednie liczby stopni swobody: ŚK cala = ŚK cala df cala ŚK między = ŚK między df między ŚK wewn = ŚK wewn df wewn
ANOVA jednoczynnikowa jest metodą statystyczną, która umożliwia ocenę prawdopodobieństwa tego, że różnice między średnimi wyników p (p > 2) grup porównawczych nie są dziełem przypadku Formalnie hipoteza zerowa orzeka, że wartości średnich grupowych p populacji są takie same (równe wartości średniej ogólnej), czyli: H 0 : μ 1 = μ 2 =... = μ p = μ Hipoteza alternatywna (H 1 ) mówi, że w populacji średnie grupowe nie są równe, czyli : H 1 : nieprawda, że H 0
Miarą rozbieżności między hipotetycznym a rzeczywistym stanem rzeczy (czyli rozbieżności między H 0 a H 1 ) jest w ANOVA stosunek (iloraz) średnich kwadratów: ŚK między ŚK wewn Jeżeli poziomy czynnika głównego nie mają wpływu na pomiary zmiennej zależnej, to iloraz powinien być równy jedności Jeżeli jednak poziomy czynnika głównego oddziałują w sposób zróżnicowany na zmienną zależną, czyli inaczej mówiąc jeżeli H 0 jest fałszywa wówczas powyższy iloraz będzie większy od jedności. O ile większy, to zależy od różnicy między zaobserwowanymi (zmierzonymi) średnimi grupowymi
Interesująca nas miara rozbieżności między stanem rzeczy wynikającym z hipotezy zerowej a stanem rzeczy wynikającym z danych eksperymentalnych, czyli iloraz średnich kwadratów ma postać statystyki F: F = ŚK między ŚK wewn o odpowiednio stopniach swobody p-1 i p (n-1) Ocenę prawdziwości hipotezy zerowej dokonuje się w oparciu o te same zasady jak w przypadku innych testów
Podstawowe założenia ANOVA Zmienna zależna powinna być wyrażona przynajmniej na skali przedziałowej Zmienna zależna powinna podlegać rozkładowi normalnemu w obrębie grup porównawczych Wariancje w obrębie różnych grup układu powinny być równe; założenie to jest określane jako założenie o jednorodności (homogeniczności) wariancji
Jednoczynnikowa analiza wariancji (przykład analizy w STATISTICA) Problem badawczy: Ocena zróżnicowania odsetka zębów objętych próchnicą przy stosowaniu czterech różnych substancji słodzących Badana zbiorowość: 48 samic szczurów w wieku 6 tyg.
Sprawdzenie założeń normalność rozkładu
Sprawdzenie założeń równość wariancji
Ocena istotności efektu zróżnicowania test F
Graficzna ilustracja efektu zróżnicowania
Porównania szczegółowe testy post-hoc
Graficzna ilustracja danych surowych
Dwuczynnikowa analiza wariancji (przykład analizy w STATISTICA) Problem badawczy: Ocena wpływu dwóch różnych leków na przebieg i efekty leczenia Badana zbiorowość: Pacjenci hospitalizowani z rozpoznaniem zespołu maniakalno-depresyjnego o przebiegu depresji
Ocena istotności efektów testy F
Graficzna ilustracja efektów prostych
Graficzna ilustracja efektu interakcji
Porównania zaplanowane szczegółowych różnic
Analiza wariancji dla układu blokowego (przykład analizy w STATISTICA) Problem badawczy: Ocena skuteczności różnych sposobów zwalczania chwastów w przypadku uprawy ziemniaków
Ocena istotności efektu zróżnicowania test F (bez uwzględnienia bloków)
Graficzna ilustracja efektu zróżnicowania
Porównania szczegółowe testy post-hoc (bez uwzględnienia bloków)
Porównania szczegółowe testy post-hoc (bez uwzględnienia bloków)
Ocena istotności efektu zróżnicowania test F (z uwzględnieniem bloków)
Porównania szczegółowe testy post-hoc (z uwzględnieniem bloków)
Porównania szczegółowe testy post-hoc (z uwzględnieniem bloków)
Dziękuję za uwagę! janusz.watroba@statsoft.pl