Podstawy statystyki medycznej Laboratorium Zajęcia 6 Statistica Opracowywanie wyników doświadczeń Niniejsza instrukcja zawiera przykłady opracowywania doświadczeń jednoczynnikowy i wieloczynnikowych w programie STATISTICA. Zaprezentowane przykłady zawierają analizę ANOVA w wielu grupach badawczych. Przykład opracowania wyników jednoczynnikowej analizy wariancji (ANOVA) W badaniach empirycznych bardzo często mamy do czynienia z sytuacją, w której badacz jest zainteresowany porównaniem wartości przeciętnych cechy ilościowej pomiędzy więcej niż dwoma populacjami. Do opracowywania wyników takich badań stosuje się technikę analizy wariancji. W niniejszym przykładzie sprawdzimy czy istnieje statystycznie istotne zróżnicowanie przeciętnego poziomu odsetka zębów objętych próchnicą u szczurów, którym do pożywienia dodawano różne substancje słodzące. Hipoteza zerowa w przypadku analizy wariancji (ANOVA) mówi, że nie ma zróżnicowania między średnimi w poszczególnych populacjach. W doświadczeniu laboratoryjnym przeprowadzono badania nad wpływem substancji słodzącej na częstość występowania próchnicy zębów. Doświadczenia przeprowadzano na szczurach. Samice w wieku 6-ciu tygodni podzielono losowo na 4 grupy po 12 szczurów. Poszczególnym grupom do paszy dodawano codziennie w ilości 50 ml na 100 g paszy wodne roztwory różnych środków słodzących, odpowiednio 30% roztwór sacharozy, 40% glukozy, 60% glicyny i 30% sorbitolu. Po 3 miesiącach zwierzęta uśmiercano i w wypreparowanych szczękach i żuchwach oceniano odsetek zębów objętych próchnicą. 1. Otwórz plik danych Próchnica.sta i przejdź do algorytmu wyboru testu z materiałów wykładowych. Biorąc pod uwagę dane z arkusza oraz postawione zadanie, należy skorzystać ze schematu z materiałów wykładowych dla prób niezależnych oraz przypadku liczby grup porównawczych większej niż dwie. O wyborze właściwego testu zadecyduje normalność rozkładu oraz równość wariancji. 2. Ze wstążki wybierz kolejno polecenia Statystyka/Statystyki podstawowe/przekroje, prosta ANOVA. Na ekranie pojawi się okno Statystyki w grupach (przekroje). Na karcie Pojedyncze tabele kliknij przycisk Zmienne, a następnie w oknie, które pojawi się na ekranie na liście Zmienne zależne zaznacz zmienną Próchnica, a na liście Zmienne grupujące zmienną Substancja słodząca. Po dwukrotnym kliknięciu przycisku OK w kolejnych oknach, na ekranie pojawi się okno Statystyki w grupach wyniki: Próchnica. 3. Przejdź na kartę Testy ANOVA. Dla oceny normalności rozkładu kliknij przycisk Skategoryzowane wykresy normalności. Pozwala on na wizualną ocenę zgodności rozkładu analizowanej zmiennej z rozkładem normalnym w obrębie występujących grup. Po utworzeniu wykresu można również umieścić na nim wyniki testu Shapiro-Wilka dla analitycznej oceny zgodności rozkładów. W tym celu kliknij dwukrotnie myszą w obrębie tła wykresu i w oknie Opcje wykresu, które pojawi się na ekranie wybierz opcję Wykres
właściwy: Prawdopodobieństwo normalne. Następnie kliknij umieszczony z prawej strony u góry przycisk Statystyki i w kolejnym oknie zaznacz pole wyboru Test Shapiro-Wilka, a następnie kliknij przycisk Zamknij. Program będzie oczekiwał jeszcze określenia miejsca na wykresie, w którym ma umieścić wyniki testu, wskaż np. Podtytuł i kliknij OK, następnie kliknij ponownie OK. Wygląd wykresu, po dokonanej modyfikacji zamieszczono na Rys. 1. Rys. 1. Wyniki testowania normalności rozkładu Na podstawie prawdopodobieństw testowych p można stwierdzić brak podstaw do odrzucenia założenia o normalności rozkładu. 4. Zgodnie ze schematem zamieszczonym w materiałach wykładowych należy przetestować jeszcze założenie o równości wariancji. W tym celu wywołaj ponownie okno Statystyki w grupach wyniki: Próchnica. Na karcie Testy ANOVA kliknij przycisk Test Browna- Forsythe a. Na ekranie pojawi się arkusz wyników jak na Rys. 2. Rys. 2. Wyniki testowania równości wariancji
5. Otrzymana wartość p=0,416294 nie pozwala odrzucić hipotezy zerowej, zatem założenie o równości wariancji jest spełnione. Zatem do oceny istotności zróżnicowania przeciętnego odsetka zębów objętych próchnicą w grupach szczurów, którym do pożywienia dodawano różne substancje słodzące należy użyć testu analizy wariancji. W związku z powyższym wywołaj ponownie okno Statystyki w grupach wyniki: Próchnica przejdź na kartę Podstawowe i kliknij przycisk Analiza wariancji. Wyniki analizy przedstawiono na Rys. 3. Wartość prawdopodobieństwa testowego p pozwala na odrzucenie hipotezy zerowej zakładającej brak zróżnicowania wartości przeciętnych. Rys. 3. Rezultaty analizy wariancji 6. Wyniki testu F wykonanego po kliknięciu przycisku Analiza wariancji pozwalają na przeprowadzenie jednoczesnego porównania kilku średnich, ale nie wskazują, które średnie grupowe różnią się od innych średnich grupowych. Jeśli różnice między średnimi okazują się istotne, wtedy z testu tego wynika jedynie to, że przynajmniej jedna średnia różni się od pozostałych. Jednak zazwyczaj badacza interesują bardziej szczegółowe hipotezy mówiące o tym, które średnie różnią się między sobą. Aby się tego dowiedzieć można przeprowadzić jeden z testów porównań wielokrotnych. W tym celu w oknie Statystyki w grupach wyniki: Próchnica przejdź na kartę Post-hoc. Kliknij przycisk Test rozsądnej istotnej różnicy (RIR) Tukeya. Wyniki przedstawiono na Rys. 4. Rys. 4. Wyniki testu RIR Tukeya Jak widać jedynie różnica zmiennej Próchnica pomiędzy grupami zwierząt, które otrzymywały Glukozę i Sorbitol okazała się statystycznie nieistotna. 7. Po wykonaniu testów warto również obejrzeć wykresy średnich w poszczególnych grupach. W tym celu kliknij przycisk Wykresy interakcji dostępny na karcie Testy ANOVA w oknie Statystyki w grupach wyniki: Próchnica (Rys. 5).
Rys. 5. Wykresy średnich zmiennej Próchnica w poszczególnych grupach szczurów. 8. Oprócz wykresów średnich warto również przyjrzeć się surowym danym. Dla utworzenia takiego wykresu należy kolejno wybrać polecenia Wykresy/2W/ Wykresy ramka-wąsy. Na ekranie pojawi się okno Wykresy ramka-wąsy 2W. Na karcie Więcej kliknij przycisk Zmienne, a następnie na liście Zmienna zależna wskaż zmienną Próchnica, a na liście Zmienna grupująca zmienną Substancja słodząca. Kliknij OK. Dodatkowo wybierz następujące opcje: w polu Punkt środkowy dla opcji Styl wskaż Linia, w polu Odstające wybierz opcje Wyłączone, zaznacz pole wyboru Pokaż dane surowe oraz w polu Separacja punktów wybierz opcję Losowa. Na końcu kliknij przycisk OK, co spowoduje utworzenie wykresu (Rys. 6). 9. Po utworzeniu wykresu można dla lepszej czytelności zmodyfikować niektóre jego elementy. Po kliknięciu prawym klawiszem myszy w obrębie jednej z ramek otaczających środki rozkładów wywołuje się podręczne menu. Z podręcznego menu wybierz opcję Właściwości, a następnie w oknie Rozrzut, które pojawi się na ekranie usuń zaznaczenie pól wyboru: Wyświetl rozrzut wewnętrzny i Wyświetl rozrzut zewnętrzny. Następnie kliknij na przycisk Opcje wykresu. W oknie, które pojawi się na ekranie wybierz Wykres właściwy/ogólne. W polu Wykres właściwy wybierz opcję Dane surowe. Na końcu kliknij na przycisk Znaczniki i zmień znaczniki punktów na wypełnione kwadraty w kolorze niebieskim. Po tych zmianach wykres powinien wyglądać tak jak na Rys. 7.
Rys. 6. Wykresy ramka wąsy dla zmiennej Próchnica ze zmienną grupującą Substancja słodząca. Rys. 7. Zmodyfikowane wykresy ramka-wąsy
Ten sposób prezentacji surowych danych pozwala dostrzec efekty działania poszczególnych poziomów badanego czynnika (w naszym przypadku rodzaju substancji słodzącej) na wartości zmiennej zależnej dla każdej z badanych jednostek. Umożliwia także sprawdzenie, czy wśród danych nie występują obserwacje odstające. Nieparametryczny test ANOVA rang Kruskala-Wallisa Przy stosowaniu analizy wariancji wymaga się, aby porównywane populacje miały rozkłady normalne i równe wariancje. Jeżeli analizowane populacje nie mają rozkładu normalnego, to nie można zastosować metody ANOVA. Istnieje jednak nieparametryczny test Kruskala- Wallisa nie wymagający tych założeń. Użycie tego testu zostanie zilustrowane na przykładzie. Sieć przychodni planuje zakupienie aparatów do wykonywania pomiarów EKG. Pod uwagę wzięto aparaty trzech różnych producentów. Aparaty oznaczono jako: Aparat 1, Aparat 2 i Aparat 3. Dokonano losowego wyboru 18 osób, które rozdzielono na 3 grupy po 6 osób w każdej. Każdej grupie przypisano inny aparat. Każda osoba uczyła się obsługi aparatu EKG przypisanego do grupy, w której była ta osoba. Rejestrowano czas potrzebny na nauczenie się obsługi aparatów. Powstaje pytanie: Czy do nauczenia się obsługi aparatów potrzebny jest w przybliżeniu ten sam czas? Żadna z osób wybranych do próby nie używała wcześniej aparatu EKG, którego obsługi się uczyła. Jeżeli zostanie stwierdzone, że nauka obsługiwania któregoś aparatu jest nadmiernie długa, to zostanie to uwzględnione przy decyzji o zakupie aparatu dla wszystkich przychodni. W przeciwnym przypadku podstawą decyzji będą tylko możliwości i cena każdego z aparatów. 1. Otwórz plik danych AparatyEKG.sta. W przypadku danych z tego pliku będziemy testować istotność różnicy między średnimi czasami nauki obsługi dla 3 grup (czyli więcej niż 2 grup) w próbach niezależnych. Zgodnie ze schematem z materiałów wykładowych należy najpierw sprawdzić normalność rozkładu zmiennej Czas uczenia w grupach, gdzie zmienną grupującą będzie Rodzaj aparatu. Aby to uczynić wybierz ze wstążki opcję Statystyki podstawowe i tabele. Na ekranie pojawi się panel początkowy dla tego modułu. Wybierz procedurę Tabele liczności. Na ekranie pojawi się okno o tej samej nazwie. W oknie tym przejdź na kartę Normalność i zaznacz na niej pole wyboru Test W Shapiro-Wilka oraz anuluj zaznaczenia dwóch pozostałych pól. Następnie kliknij przycisk Zmienne i zaznacz zmienną Czas uczenia. Okno powinno wyglądać jak na Rys. 8. 2. Przed przeprowadzeniem testu Shapiro-Wilka trzeba wybrać do obliczeń tylko dane dla pierwszej grupy: Aparat 1. Aby to zrobić kliknij przycisk Select Cases, a następnie w oknie Warunki selekcji przypadków dla analizy lub wykresu zaznacz pole wyboru Włącz warunki selekcji, przycisk opcji Określone przez oraz w polu Wyrażenie wpisz warunek v1=1, a następnie kliknij OK. Spowoduje to że wybrany test będzie przeprowadzony tylko dla przypadków należących do grupy Aparat 1. Aby wykonać test kliknij przycisk Testy normalności umieszczony na karcie Normalność w oknie Tabele liczności. W analogiczny sposób przetestuj normalność rozkładu zmiennej Czas uczenia w pozostałych dwóch grupach. Arkusze zawierające wyniki testu przedstawiono na Rys. 9 Rys. 11.
Rys. 8. Okno Tabele liczności z zaznaczoną kartą Normalność. Rys. 9.Wyniki testu Shapiro-Wilka dla zmiennej Czas uczenia dla v1 = Aparat 1. Rys. 10. Wyniki testu Shapiro-Wilka dla zmiennej Czas uczenia dla v1 = Aparat 2. Rys. 11. Wyniki testu Shapiro-Wilka dla zmiennej Czas uczenia dla v1 = Aparat 3.
3. Na podstawie wyników testu Shapiro-Wilka można stwierdzić, że w grupie drugiej rozkład zmiennej Czas uczenia odbiega od rozkładu normalnego. Zatem do oceny zróżnicowania przeciętnych czasów uczenia się obsługi poszczególnych aparatów EKG nie można zastosować jednoczynnikowej ANOVA, lecz jej alternatywę w postacie testu Kruskala-Wallisa. 4. W celu przeprowadzenia testu Kruskala-Wallisa wybierz opcję Statystyka, a następnie Nieparametryczne. Na ekranie pojawi się panel początkowy dla modułu Statystyki nieparametryczne. W panelu wskaż pozycję Porównanie wielu prób niezależnych i kliknij przycisk OK. Spowoduje to wyświetlenie okna Test ANOVA rang Kruskala- Wallisa i test mediany. W celu określenia analizy kliknij przycisk Zmienne, a następnie w kolejnym oknie, które pojawi się na ekranie na Liście zmiennych zależnych zaznacz zmienną Czas uczenia oraz na liście Zmienna niezależna (grupująca) zmienną Rodzaj aparatu. Po kliknięciu przycisku OK okno definiowania analizy powinno wyglądać jak na Rys. 12. Rys. 12. Okno Test ANOVA rang Kruskala-Wallisa 5. Poprawne przeprowadzenie testu wymaga anulowania warunków selekcji przypadków z poprzedniego etapu analizy. W tym celu kliknij przycisk Select Cases i usuń zaznaczenie z pola Włącz warunki selekcji. Po tej operacji kliknij przycisk Podsumowanie: ANOVA Kruskala-Wallisa i test mediany. Na ekranie pojawią się kolejno dwa arkusze. Pierwszy zawiera wyniki testu Kruskala-Wallisa (Rys. 13), a drugi wyniki testu mediany (Rys. 14). Rys. 13. Arkusz z wynikami testu Kruskala-Wallisa
Rys. 14. Arkusz z wynikami testu mediany. 6. Obydwa testy pozwalają stwierdzić, że przeciętny czas uczenia w trzech grupach nie jest jednakowy, jednak przeprowadzone testy nie wskazują, które grupy różnią się między sobą istotnie pod względem czasu uczenia. Aby się tego dowiedzieć należy zastosować metodę porównań wielokrotnych. W tym celu w oknie Test ANOVA rang Kruskala- Wallisa i test mediany kliknij przycisk Wielokrotne porównania średnich rang dla wszystkich prób. 7. Na ekranie pojawi się arkusz zawierający wartości prawdopodobieństwa testowego dla poszczególnych par. Zamieszczono go na Rys. 15. Z wyników zawartych w tabeli okazuje się że istotna jest jedynie różnica w czasie uczenia się obsługi między Aparatem 1 i Aparatem 3. Rys. 15. Arkusz z wynikami testów porównań wielokrotnych.