Statystyczna analiza danych w programie STATISTICA 7.1 PL (wykład 3) Dariusz Gozdowski Katedra Doświadczalnictwa i Bioinformatyki Wydział Rolnictwa i Biologii SGGW
Dwuczynnikowa analiza wariancji (2-way ANOVA) Układ całkowicie losowy W dwuczynnikowej analizie wariancji postępowanie jest zbliżone do jednoczynnikowej analizy wariancji, jednak oceniamy jednocześnie wpływ dwóch czynników doświadczalnych. Jedną z ważnych różnic w dwuczynnikowej analizy wariancji w stosunku do jednoczynnikowej analizy wariancji jest ocena współdziałania dwóch czynników. Jeśli występuję współdziałanie oznacza to, że jeden czynnik modyfikuje wpływ drugiego na badaną zmienną.
Przykłady zastosowań 2-czynnikowej analizy wariancji: -Porównanie skuteczności pięciu różnych leków obniżających ciśnienie krwi w trzech różnych grupach wiekowych (zmienna zależna: ciśnienie tętnicze krwi, czynnik A: rodzaj leku, czynnik B: grupa wiekowa np. dzieci, młodzież, osoby dorosłe) - Porównanie plonowania trzech odmian pszenicy przy dwóch różnych dawkach nawożenia (zmienna zależna: plon pszenicy, czynnik A: odmiana, czynnik B: dawka nawożenia) - Porównanie dwóch różnych środków konserwujących i różnych temperatur przechowywania na trwałość wędliny (zmienna zależna: czas przydatności do spożycia, czynnik A: rodzaj środka konserwującego, czynnik B: temperatura przechowywania)
Hipotezy zerowe: H 01 : średnie dla poziomów pierwszego czynnika (A) nie różnią się istotnie H 02 : średnie dla poziomów drugiego czynnika (B) nie różnią się istotnie H 03 : nie występuje istotne współdziałanie czynników (A i B) każda hipoteza zerowa ma odpowiadającą jej hipotezę alternatywną Hipotezy alternatywne: H 11 : co najmniej 2 średnie dla poziomów pierwszego czynnika (A) różnią się istotnie H 12 : co najmniej 2 średnie dla poziomów drugiego czynnika (B) różnią się istotnie H 13 : występuje istotne współdziałanie czynników (A i B)
Przykład współdziałania dwóch czynników
Jeśli odrzucimy co najmniej jedną hipotezę zerową, a więc przyjmiemy co najmniej jedną hipotezę alternatywną to kontynuujemy analizę wykonując porównania wielokrotne średnich. Porównania wielokrotne, mają na celu porównanie: -Średnich dla poziomów czynnika A (łącznie dla wszystkich poziomów czynnika B) -Średnich dla poziomów czynnika B (łącznie dla wszystkich poziomów czynnika A) -Średnich dla poziomów czynnika A (przy danym poziomie czynnika B) -Średnich dla poziomów czynnika B (przy danym poziomie czynnika A) -Średnich dla kombinacji czynników A i B Porównania wielokrotne są wykonywane przy użyciu tych samych procedur jak w przypadku jednoczynnikowej analizy wariancji.
Test Kruskala-Wallisa jednoczynnikowa ANOVA nieparametryczna Stosujemy jako alternatywę dla jednoczynnikowej analizy wariancji, przy niespełnieniu założeń o normalności rozkładu Zakłada się jednak, że rozkłady zmiennych są podobnego kształtu (patrz histogramy poniżej koloru zielonego) tj. nie powinno się stosować tej metody gdy rozkład zmiennej zależnej w jednej populacji jest np. prawostronnie asymetryczny a w drugiej populacji lewostronnie asymetryczny (patrz histogramy poniżej koloru niebieskiego) 10 12 9 8 10 7 8 6 5 6 4 3 4 2 2 1 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 9 10 8 9 7 8 6 5 4 7 6 5 4 3 3 2 2 1 1 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 Hipoteza zerowa - H 0 : rozkłady porównywanych populacji są takie same
Analiza korelacji - współczynnik korelacji Pearsona Cel: ocena współzależności między dwiema zmiennymi ilościowymi Ocenia jedynie zależność liniową. r = cov(x,y) s x s y gdzie, wartość kowariancji (cov) na podstawie próby liczymy wg następującego wzoru: cov(x,y) = 1 n 1 n i= 1 (Xi X)(Yi Y) natomiast s x i s y są odchyleniami standardowymi dla zmiennychj X i Y
Współczynnik korelacji liniowej przyjmuje zawsze wartości w zakresie [ -1,1]. Im większa wartość bezwzględna współczynnika, tym większa jest zależność liniowa między zmiennymi. r xy = 0 oznacza brak korelacji, r xy = 1 oznacza silną korelację dodatnią, jeżeli jedna zmienna (X) rośnie to również rośnie druga zmienna (Y), r xy = -1 oznacza korelację ujemną (jeżeli zmienna X rośnie, to Y maleje i na odwrót).
14 12 10 r =0,007 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 Zależność nieliniowa
Testowanie istotności korelacji Testowanie jest tylko wtedy uzasadnione, gdy obydwie zmienne mają rozkład normalny lub zbliżony do normalnego Hipoteza zerowa: H 0 :ρ=0 ρ- wartość współczynnika korelacji dla całej populacji Jeżeli r emp >r α,2,n-2 to H 0 odrzucamy. r α,2,n-2 jest wartością krytyczną współczynnika korelacji prostej Pearsona Podobnie jak w przypadku innych hipotez w programach statystycznych (w tym w programie Statistica) wnioskowanie o istotności współzależności dwóch zmiennych odbywa się na podstawie wartości p (p<α oznacza istotna współzależność) Należy pamiętać również, że współczynnik korelacji liniowej Pearsona dobrze opisuje jedynie zależności liniowe. W przypadku, gdy zależność istnieje ale jest nieliniowa (np. punkty są położone wokół paraboli) wartość współczynnika korelacji może być bliska 0.
Współczynnik korelacji rang Spearmana (r s ) służy do oceny współzależności między dwiema zmiennymi. W odróżnieniu od współczynnika korelacji Pearsona można przy pomocy współczynnika korelacji Spearmana oceniać zależności nieliniowe. Przy testowaniu nie jest wymagana normalność rozkładu zmiennych, tak więc możliwe jest stosowanie tego współczynnika korelacji wtedy gdy nie możemy stosować współczynnika korelacji Persona. Wartości współczynnika korelacji rang Spearmana są z zakresu [-1, 1] a ich interpretacja jest podobna jak w przypadku współczynnika korelacji Pearsona, czyli czym wartość r s jest bliższa 1 tym zależność jest silniejsza, dodatnia, czym bliższa jest -1 tym zależność silniejsza, ujemna, a jeśli wartość r s jest bliska 0 to oznacza brak zależności lub bardzo słabą zależność. r=0,64 r s =1,00 3000 2500 2000 1500 1000 500 0 0 2 4 6 8 10 12