Czy zawsze prawidłowo interpretujemy wyniki statystycznych testów nieparametrycznych

PRACE POGLĄDOWE Jerzy A. Moczko Czy zawsze prawidłowo interpretujemy wyniki statystycznych testów nieparametrycznych Do we always correctly interpret the results of statistical nonparametric tests Katedra i Zakład Informatyki i Statystyki Uniwersytetu Medycznego w Poznaniu Kierownik: Prof. zw. dr hab. Jerzy A. Moczko Dodatkowe słowa kluczowe: test nieparametryczny interpretacja wyników statystycznych asymptotyczna wydajność względna metody wyznaczania p-value Additional key words: nonparametric test statistical results interpretation asymptotic relative efficiency methods for p-value estimation Adres do korespondencji: Prof. dr hab. Jerzy A. Moczko Katedra i Zakład Informatyki i Statystyki 60-529 Poznań, ul. Dąbrowskiego 79 tel./fax: (+61) 8411116 e-mail: jmoczko@amp.edu.pl Grupą powszechnie stosowanych testów do analizy wyników klinicznych i laboratoryjnych są testy nieparametryczne m.i. test Manna-Whitneya, Wilcoxona, Kruskala-Wallisa oraz Friedmana. Testy te są uważane za niezwykle elastyczne a ich asymptotyczna wydajność względna przekracza 95 procent. W porównaniu z odpowiadającymi im testami parametrycznymi nie wymagają sprawdzania spełnienia warunków takich jak normalność rozkładu danych, jednorodność wariancji, brak skorelowania średnich i odchyleń standardowych itp. Mogą być stosowane zarówno w skali interwałowej jak i porządkowej. W prezentowanym artykule przedstawiono na przykładzie testu Manna-Whitneya, że nie w każdej sytuacji wybór tych czterech testów nieparametrycznych traktowanych jako swoisty złoty standard doprowadza do prawidłowego wnioskowania. Co to są testy nieparametryczne? Jednym z najczęściej rozwiązywanych w badaniach medycznych zagadnieniem jest próba odpowiedzi na pytanie, czy obserwowany przez nas efekt ma naturę powtarzalną czy też pojawia się jedynie w sposób losowy. Poprzez efekt możemy rozumieć zmianę wartości średniej w porównywanych grupach, zmianę rozrzutu pomiarów wokół wartości średniej, wystąpienie związku przyczynowego między dwoma lub większą liczbą zmiennych, pojawienie się jakiegoś zdarzenia (np. remisja choroby, zgon). Konstruując parę hipotez statystycznych i wykorzystując tak zwane testy statystyczne usiłujemy odpowiedzieć na pytanie, czy przy założeniu prawdziwości hipotezy zerowej mówiącej o braku wystąpienia badanego efektu wystąpienie obserwowanego rozkładu danych jest prawdopodobne czy też nie. Gdy oszacowane prawdopodobieństwo (określane terminem p-value) jest większe od przyjętego przez eksperymentatora progu (zwanego poziomem istotności statystycznej), nie mamy podstaw do odrzucenia hipotezy zerowej. Należy jednakże pamiętać, że to stwierdzenie nie jest równoznaczne z uzyskaniem wniosku o prawdziwości hipotezy zerowej. Żaden test statystyczny nie wykazuje prawdziwości hipotezy zerowej o istnieniu braku efektu, lecz mówi jedynie o fakcie czy na podstawie uzyskanych z pomiaru danych występowanie takiego lub silniejszego efektu jest prawdopodobne czy też nie. Istnieją setki testów statystycznych Mann-Whitney, Wilcoxon, Kruskal- Wallis and Friedman tests create a group of commonly used tests to analyze the results of clinical and laboratory data. These tests are considered to be extremely flexible and their asymptotic relative efficiency exceeds 95 percent. Compared with the corresponding parametric tests they do not require checking the fulfillment of the conditions such as the normality of data distribution, homogeneity of variance, the lack of correlation means and standard deviations, etc. They can be used both in the interval and or-dinal scales. The article presents an example Mann-Whitney test, that does not in any case the choice of these four nonparametric tests treated as a kind of gold standard leads to correct inference. badających rozmaite efekty a wśród nich jednymi z najczęściej stosowanych są testy porównujące miary tendencji centralnej, najczęściej średnie arytmetyczne lub mediany. Pierwszy istotny podział testów dotyczy faktu, czy zakładamy apriorycznie iż dane pochodzą z populacji o określonym rozkładzie czy też nie [1]. W przypadku pierwszym mówimy o testach parametrycznych, w drugim o nieparametrycznych. Dla przykładu powszechnie stosowany test porównywania średnich arytmetycznych test t-studenta zakłada iż dane pochodzą z populacji, w której badana przez nas wielkość ma rozkład zgodny z rozkładem normalnym a nie na przykład z rozkładem eksponencjalnym. Oczywiście nie jest to jedyne założenie, które musi zostać spełnione, aby uzyskane wyniki można było traktować jako rzetelne. Nie wspomnieliśmy na przykład o kolejnym założeniu mówiącym o jednorodności wariancji w porównywanych grupach. Wróćmy jednakże do założenia o normalności. Wynika ono z przesłanek teoretycznych, na podstawie których test ten został skonstruowany. Jeżeli dane, które poddajemy analizie nie spełniają założeń, które przyjęto przy opracowywaniu testu, nie możemy się spodziewać, że wyniki będą prawidłowe. Im większe będzie odstępstwo od założenia, tym szansa wyciągnięcia prawidłowego wniosku będzie maleć. Opracowano liczną grupę testów określających, czy warunek normalności rozkładu został spełniony czy 654 JA. Moczko

też nie (np. test W Shapiro-Wilka, test Lilierforsa, test Kołmogorowa-Smirnowa). Dynamiczny rozwój technologii komputerowej zwłaszcza w kierunku wzrostu mocy obliczeniowej procesorów pozwolił na przeprowadzenie badań symulacyjnych, jak wielki jest wpływ niespełnienia warunku normalności rozkładu na wyniki uzyskane testem t-studenta. Okazało się, że nie są one tak krytyczne jak się pierwotnie tego spodziewano ale nie oznacza to, że można to założenie całkowicie pominąć. Stosowane są rozmaite transformacje danych pozwalające na zmniejszenie odstępstwa od normalności, lecz nie są one zbyt chętnie przez badaczy stosowane z uwagi na późniejsze trudności w interpretowaniu wyników. Pamiętajmy również, że testowanie istotności statystycznej efektu to nie zawsze tylko porównywanie średnich. Dla przykładu wspomniane już porównywanie wariancji rozkładu danych oparte jest na rozkładzie Fishera-Snedecora, a wymaganie spełnienia tego warunku jest o wiele bardziej restrykcyjne. O wiele częściej sięga się po bardzo efektywną grupę narzędzi, którą stanowią testy nieparametryczne. Do najczęściej stosowanych testów nieparametrycznych należą test Manna-Whitneya, Wilcoxona, Kruskala-Wallisa oraz Friedmana [2, 3]. Dwa ostatnie testy uzupełniane są testami wielokrotnych porównań typu post-hoc (najczęściej testem Dunna). Błędnym jest twierdzenie, że testy nieparametryczne nie wymagają spełnienia żadnych założeń. Dla uzyskania wiarygodności oszacowania testami nieparametrycznymi wartości p-value muszą być spełnione dwa warunki: niezależność procesu próbkowania oraz w pełni losowy przydział obiektów do analizowanych grup eksperymentalnych. Mimo, iż testy są ogólnie znane i stosowane badacze popełniają błędy przy interpretacji otrzymanych wyników. Co oznacza termin istotność różnicy rozkładów danych? Wielokrotnie w literaturze naukowej testy nieparametryczne zwane są testami rangowymi. Wynika to z faktu, że oszacowanie wartości p-value nie jest oparte bezpośrednio na surowych wartościach pomiarowych lecz na przypisanych tym pomiarom rangach prostych (w przypadku braku powtarzających się wartości pomiarowych) lub wiązanych (w przeciwnym przypadku). Rangowanie danych to nic innego jak przejście od najsilniejszej skali interwałowej(lub ilorazowej) do skali porządkowej. Utrata informacji o absolutnych odległościach między wartościami pomiarowymi wiąże się niestety z obniżeniem mocy testu, co może być częściowo skompensowane odpowiednim wzrostem liczebności badanych prób oraz zbalansowaniem tych liczebności. Przyjrzyjmy się parze hipotez, które konstruujemy w przypadku stosowania testu Manna-Whitneya (1) Symbol oznacza rozkład danych. Przyjęta przez nas hipoteza wyraża zatem fakt, iż rozkład danych w grupie x nieistotnie statystycznie różni się od rozkładu danych w grupie y. I tutaj pojawia się pierwsze nieporozumienie. Większość badaczy przyjmuje, że stwierdzenie to jest tożsame z sytuacją, gdzie wartości średnie lub mediany rozkładów nie różnią się od siebie istotnie statystycznie. Sytuacja ta może, ale nie musi być prawdziwa. Spróbujmy zatem zrozumieć co oznacza fakt, że dwa rozkłady danych różnią się od siebie w sposób istotny. Pierwszą sytuację ilustruje rycina 1. Analizowane dwa rozkłady danych to rozkłady gaussowskie o takiej samej wartości rozproszenia danych wokół wartości średnich różniące się wartościami miar tendencji centralnej (w naszym przypadku średnimi arytmetycznymi, medianami i modalnymi). W tym przypadku para hipotez (1) staje się równoważna parze (2) Hipoteza zerowa określa, że wartość średnia rozkładu danych w grupie x nieistotnie różni się od wartości średniej rozkładu danych w grupie y (w przypadku rozkładów symetrycznych oznacza to, że również mediany nie różnią się istotnie). Jeżeli pomiaru dokonano w skali co najmniej interwałowej do zbadania, która z hipotez jest bardziej prawdopodobna (innymi słowami, czy mamy wystarczający dowód na to by odrzucić założoną przez nas hipotezę zerową) użylibyśmy parametrycznego testu t-studenta dla zmiennych niepowiązanych. Jeżeli pomiar został dokonany w skali porządkowej to nie ma oczywiście sensu mówić o normalności rozkładu (rozkład ten opisują parametry średniej arytmetycznej i odchylenia standardowego, które nie występują w skali porządkowej lub nominalnej z uwagi na brak w tych skalach absolutnej odległości między pomiarami). Jednakże jeżeli interesuje nas fakt, czy rozkłady rang różnią się w obu porównywanych grupach pod względem miary tendencji centralnej. W tym celu możemy użyć któregoś z testów nieparametrycznych (Manna-Whitneya, Hodgesa-Lehmanna, Van der Waerdena, Savage a). Spośród wymienionych testów najbardziej znany i najczęściej stosowany jest test Manna-Whitneya (MW) zwany również testem Wilcoxona sumy rang. Możemy dla niego zapisać parę testowanych hipotez w postaci (3) gdzie oznacza rozkład wartości pomiarów zebranych w schemacie zmiennych niepowiązanych w pierwszej porównywanej grupie, rozkład wartości pomiarowych w drugiej grupie a symbol wartość nieznanego przesunięcia rozkładu. Z technicznego punktu widzenia wyznaczenie statystyki MW bazuje na porangowaniu danych w połączonych obu grupach a następnie rozdzieleniu tak uzyskanych rang odpowiednio do tej grupy, z której pochodzi konkretna dana. Jeżeli średnie wartości rang w porównywanych grupach różnią się silnie od siebie podejrzewamy, że próby pobrano z populacji różniących Rycina 1 Dwa rozkłady normalne o identycznych wartościach odchyleń standardowych i różnych wartościach miar tendencji centralnej. Two Gaussian distributions with identical standard deviations and different central tendency. Measures. Rycina 2 Przykład danych o identycznych medianach różniących się rozkładami. Exemplary data with identical medians and different distributions. Przegląd Lekarski 2014 / 71 / 11 655

Rycina 3 Dwa rozkłady normalne o identycznych wartościach miar tendencji centralnej i różnych wartościach odchyleń standardowych. Two Gaussian distributions with identical central tendency measures and different standard deviations. Rycina 4 Dwa rozkłady normalne o różniących się wartościach odchyleń standardowych i miar tendencji centralnej. Two Gaussian distributions with different standard deviations and central tendency measures. Rycina 5 Rozkłady różniące się kształtem. Distributions different in their shapes. się rozkładami. Test Manna-Whitneya wyznacza wartość p-value, która odpowiada na następujące pytanie: Jeżeli przyjmiemy, że pomiary w porównywanych grupach zostały pobrane z populacji o jednakowych rozkładach (hipoteza zerowa), to jak wielkie jest prawdopodobieństwo zdarzenia procedura losowego próbkowania da w wyniku średnie rang oddalone od siebie co najmniej tak daleko, jak odległość zaobserwowana w eksperymencie? Jeżeli p-value będzie miało wartość poniżej przyjętego progu istotności mamy podstawy do odrzucenia hipotezy zerowej. Sam test Manna-Whitneya nie pozwala ocenić, jak duża jest wartość przesunięcia. Nieobciążoną wartość mediany (MUE median unbiased estimate) przesunięcia i związany z nią dokładny przedział ufności możemy wyznaczyć stosując test Hodgesa-Lehmana. Test Savage a jest specjalnie dedykowany sytuacjom w których porównywane rozkłady mają charakter eksponencjalny. Test Van der Waerdena wykazuje przewagę pod względem asymptotycznej wydajności względnej ARE Asymptotic Relative Efficiency) nad testem Manna- Whitneya, gdy oba porównywane rozkłady są rozkładami normalnymi (ARE testu Van der Waerdena w tym przypadku wynosi 100% w stosunku do parametrycznego testu t-studenta, w porównaniu z 95.5% dla testu Manna-Whitneya). Często spotykamy się z stwierdzeniem, że test Manna-Whitneya służy do porównywania median. Nie zawsze jest to prawdą. Test Manna-Whitneya porównuje średnie rang. Jedynie w sytuacji, gdy kształty rozkładów danych w porównywanych populacjach są takie same możemy mówić o porównywaniu median (lub nawet średnich arytmetycznych w sytuacji gdy oba rozkłady nieistotnie różnią się od rozkładu normalnego). Przykład sytuacji w której mamy do czynienia z istotną różnicą rozkładów a mediany są identyczne przedstawia rycina 2. Przyjrzyjmy się teraz rysunkowi 3. Znowu mamy do czynienia z dwoma rozkładami normalnymi, tym razem o identycznej wartości miary tendencji centralnej, jednakże różniących się stopniem rozproszenia danych wokół wartości średniej (4). gdzie wielkość nazywamy współczynnikiem skali. Próba użycia w tej sytuacji testu Manna-Whitneya nie wykaże wystąpienia istotnych różnic między rozkładami mimo iż różnice takie ewidentnie występują. Testem parametrycznym służącym do weryfikacji pary hipotez (4) jest test Fishera-Snedecora. Jego odpowiednikami w grupie testów nieparametrycznych są testy: Siegela-Tukeya, Ansari-Bradleya, Klotza oraz Mooda. O ile pierwsze dwa testy cechują się niską wartością ARE (około 61%), o tyle test Klotza osiąga ARE = 100% w stosunku do testu Fishera-Snedecora dla porównywanych populacji o rozkładzie normalnym a test Mooda około 76%. Wszystkie cztery testy zakładają, że miary tendencji centralnej (mediany lub średnie arytmetyczne) w obu porównywanych grupach nieistotnie się od siebie różnią. Bardziej złożoną sytuację przedstawia rycina 4. Mamy tu do czynienia zarówno z różnicą miary tendencji centralnej jak i parametru skali. Najbardziej efektywne w tym przypadku są testy Kołmogorowa-Smirnowa, Conovera, permutacyjny i Lepage. Pierwszy test to test silnie reagujący na jakiekolwiek różnice zarówno w kształcie rozkładu (np. pomiary w grupie pierwszej podlegają rozkładowi normalnemu a w grupie drugiej rozkładowi eksponencjalnemu jak na rysunku 5), jak i różnice w zakresie rozrzutu oraz lokacji (miar tendencji centralnej). Test Conovera [4] dokonuje detekcji w zakresie różnic w parametrach lokacji i skali z tym, że jego ARE silnie zależy od 656 JA. Moczko

Rycina 6 Przykładowa tablica kontyngencji o wymiarach 5 * 6 o ustalonych sumach brzegowych poziomych i pionowych służąca do wyznaczenia zestawu macierzy referencyjnych. Exemplary contingency table (dimensions 5 * 6) with fixed row and column margins used to enumerate reference matrices. kształtu rozkładu. Przy porównaniu dwóch rozkładów normalnych ARE wynosi około 76% w stosunku do testu F Fishera-Snedecora, podczas gdy przy porównaniu dwóch rozkładów eksponencjalnych ARE osiąga aż 108%. Test permutacyjny jest uogólnieniem testu Kołmogorowa-Smirnowa a jego liczne odmiany pozwalają doświadczonemu eksperymentatorowi dobrać wersję o optymalnej dla danego zagadnienia wartości ARE. Ostatni z testów jest kombinacją testu Manna-Whitneya i Ansari-Bradleya, zatem wykorzystywany jest w sytuacjach znajdowania różnic w parametrach lokacji i skali. Para testowanych hipotez przyjmuje kształt (5) Rycina 7 Przykładowe wyniki wartości p-value dla testu Manna-Whitneya uzyskane na tym samym zestawie danych metodą asymptotyczną oraz dokładną. Exemplary results for Mann-Whitney test p-value estimated with the same data set using asymptotical and exact method. Metody wyznaczania wartości p- value Każdy z wymienionych testów pozwala na wyznaczenie odpowiedniej wartości p-value pozwalającej na podjęcie decyzji o przyjęciu bądź odrzuceniu określonej przez nas hipotezy zerowej. W zdecydowanej większości pakietów statystycznych wartości p-value są obliczane metodą asymptotyczną. Oznacza to, że zakładamy iż mamy wystarczającą liczebność próby dla uzyskania zbieżności statystyki testowej do rozkładu normalnego (w przypadku zmiennych ciągłych) lub rozkładu chi-kwadrat (w przypadku zmiennych kategorialnych). Warunek ten niestety często nie jest spełniony. W specyficznych sytuacjach (małe liczebności prób, liczne rangi wiązane, dane silnie niezbalansowane lub w postaci macierzy rzadko obsadzonych) asymptotyczne oszacowania wartości p mogą prowadzić do fałszywego wnioskowania. Dlatego też niektóre pakiety statystyczne umożliwiają alternatywne sposoby oszacowywania tej wielkości [5]. Pierwsza metoda zwana techniką permutacyjną oparta jest na procedurze identyfikacji wszystkich możliwych macierzy w zestawie referencyjnym, dla których wartość statystyki χ2 Pearsona wynosi co najmniej tyle, ile wynosi wynik dla badanej przez nas macierzy danych. Przez zestaw referencyjny rozumiemy zbiór takich macierzy, które mają identyczne rozmiary jak macierz analizowana metodą asymptotyczną oraz identyczne wartości sum brzegowych poziomych i pionowych. Wyznaczone w ten sposób prawdopodobieństwa wszystkich macierzy referencyjnych sumujemy Rycina 8 Przykładowe wyniki wartości p-value dla testu Manna-Whitneya uzyskane na tym samym zestawie danych metodą asymptotyczną oraz Monte Carlo. Exemplary results for Mann-Whitney test p-value estimated with the same data set using asymptotical and Monte Carlo method. uzyskując w wyniku dokładną wartość p- value. Należy sobie zdawać sprawę z tego, że nawet stosunkowo niewielkie tablice kontyngencji generują gigantyczne ilości macierzy referencyjnych. Dla przykładu w dokumentacji elektronicznej programu STATXACT przytaczana jest tablica kontyngencji o wymiarach 5 * 6 (rycina 6), dla której zestaw referencyjny zawiera ponad 1.6 miliarda macierzy. Jak widać opisana technika jakkolwiek dokładna wymaga wielkich mocy obliczeniowych i dlatego nie jest ona szeroko znana i rozpowszechniona. Moc obliczeniowa oznacza nie tylko szybkość zastosowanych procesorów ale również bardzo duże zasoby pamięci operacyjnej i masowej, co jeszcze do niedawna ograniczało możliwości prowadzenia kalkulacji przy użyciu komputerów osobistych. Dopiero w ostatnich latach obliczenia takie stały się możliwe po wprowadzeniu specjalnie opracowanych algorytmów sieciowych. Nadal jednak złożoność obliczeniowa może być przeszkodą w wyznaczeniu dokładnej wartości p-value i wtedy zastosowanie znajduje metoda Monte Carlo. W przeciwieństwie do metody dokładnej w metodzie Monte Carlo procedurze nie identyfikujemy wszystkie możliwe macierze w zestawie referencyjnym, lecz jedynie ich część. Próbkowanie macierzy z zestawu referencyjnego następuje zgodnie z zachowaniem proporcji wynikających z rozkładu hipergeometrycznego określającego prawdopodobieństwo wystąpienia określonej macierzy w zestawie referencyjnym (6) gdzie m i n to odpowiednio wierszowe i kolumnowe sumy brzegowe, k i w liczba kolumn i wierszy, N całkowita wielkość próby a x ij to wartość obserwowana pomiaru w komórce (i,j). Nieobciążony estymator Monte Carlo dla dokładnej wartości p-value uzyskujemy ze wzoru (7) gdzie A to liczba macierzy z zestawu referencyjnego dających wynik statystyki χ2 Pearsona co najmniej tak duży, jak wynik dla badanej przez nas macierzy danych natomiast M oznacza całkowitą liczbę macierzy wylosowanych z pełnego zestawu referencyjnego. Metoda Monte Carlo pozwala dodatkowo na oszacowanie przedziału ufności CI dla estymatora zgodnie ze wzorem (8) gdzie jest α - percentylem standaryzowanego rozkładu normalnego. Jak widać Przegląd Lekarski 2014 / 71 / 11 657

poprzez zmianę liczby M wylosowanych macierzy można uzyskiwać większą lub mniejszą precyzję estymowanej wartości p-value. Podsumowanie Powyższy przegląd nie wyczerpuje w żadnym przypadku problemu wiarygodności wniosków uzyskiwanych przy użyciu testów nieparametrycznych, gdyż nie uwzględniliśmy tu na przykład testu Walda-Wolfowitza czy też testów dla pomiarów uciętych (test logrank czy też Wilcoxona-Gehana). Niemniej jednak próbujemy zasygnalizować zjawisko nieadekwatnego stosowania w szczególnych sytuacjach powszechnie stosowanych testów nieparametrycznych traktowanych często jako złoty standard we wnioskowaniu statystycznym. Piśmiennictwo 1. Sheskin DJ: Handbook of parametric and nonparametric statistical procedures. Chap-man & Hall / CRC. 2007. 2. Daniel WW: Applied nonparametric statistics. Duxbury Thomson Learning 1990. 3. Hollander M, Wolfe DA: Nonparametric statistical methods. John Wiley & Sons, Inc. 1999. 4. Conover WJ: Practical nonparametric statistics. John Wiley & Sons, Inc. 1999. 5. Cytel Statxact Version 10.0.0 (Jan 16,2013). 1999. 658 JA. Moczko