Własności estymatora parametru lambda transformacji potęgowej Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński 1. Wstęp Najczęstszym powodem transformowania zmiennej losowej jest jej normalizacja, czyli dążenie do otrzymania zmiennej losowej o rozkładzie normalnym. Jeżeli ograniczymy się do sparametryzowanej rodziny transformacji, to dobór odpowiedniej transformacji będzie zależał od wyboru właściwego parametru. Wybór ten może być ułatwiony dzięki apriorycznej znajomości rozkładu zmiennej losowej. Często jednak jedynym źródłem informacji jest próba. Jeżeli zamiast parametru używamy jego estymatora, to możemy mówić o tzw. transformacji próbkowej. Przykładem sparametryzowanej rodziny transformacji jest rodzina transformacji potęgowych z = { ( x λ 1 ) /λ, dla λ 0, ln x, dla λ = 0 z parametrem λ (Box i Cox, 1964). Parametr λ może być estymowany na podstawie danych x 1,..., x n metodą największej wiarogodności. Sprowadza się to bądź do znalezienia maksimum funkcji bądź do rozwiązania równania ( L(λ; x 1,..., x n ) = n n 2 ln zi 2 1 n ) 2 z i + (λ 1) n n u i z i ( u i ) ( z i ) n z 2 i ( z i ) 2 1 n λ ln x i = 1, n ln x i, gdzie u = x λ ln x (Wagner, 1987). Otrzymany w powyższy sposób estymator ˆλ nie musi być dobrą oceną parametru λ (zakładamy oczywiście, że transformacja z parametrem λ normalizuje rozkład). Dzieje się tak na przykład wtedy, gdy wariancja estymatora ˆλ jest duża i w takiej sytuacji wątpliwa jest przydatność transformacji próbkowej. W pracy badane są niektóre własności estymatora ˆλ. W szczególności przedstawiono próbę odpowiedzi na pytanie, od czego i w jaki sposób zależy wariancja tego estymatora. Zastosowano metodę polegającą na wykonaniu serii doświadczeń symulacyjnych wykorzystujących rzeczywiste dane będące wynikami pomiarów niektórych cech pnia jabłoni. 2. Opis doświadczenia symulacyjnego Jako materiał posłużyły wyniki pomiarów pni kilkunastoletnich jabłoni odmiany Oliwka Inflancka na siewce Antonówki rosnących w RZD SGGW w Łyczynie (dane zostały udostępnione przez Katedrę Sadownictwa SGGW). Wykonywane jesienią przez kilka kolejnych lat pomiary pni drzew pozwoliły na określenie następujących cech: - pole przekroju pnia w latach 1963, 64 i 65 (S 1, S 2, S 3 ); - średnica pnia w tych samych latach (d 1, d 2, d 3 ); - jednoroczny przyrost bezwzględny pola w latach 1964 i 65 (S 12, S 23 ); - dwuletni bezwzględny przyrost pola w roku 1965 (S 13 ); - przyrosty bezwzględne średnic (d 12, d 23, d 13 ). Doświadczenie symulacyjne polegało na wielokrotnym losowaniu n-elementowej próby (n = 10, 20) spośród 262 wartości każdej z wyżej wymienionych cech. Po wylosowaniu pojedynczej próby x 1,..., x n wyznaczano: a) wartość statystyki W x Shapiro- Wilka służącej do testowania hipotezy o normalności rozkładu (Shapiro i Wilk, 1965); b) estymator ˆλ parametru λ transformacji potęgowej; 1
c) wartość statystyki W z Shapiro-Wilka dla danych z 1,..., z n otrzymanych z wartości x 1,..., x n dzięki zastosowaniu transformacji potęgowej z parametrem ˆλA. 3. Rozkład statystyki Shapiro-Wilka Próbę 10-elementową losowano 5000 razy. Umożliwiło to zbadanie rozkładu zarówno statystyki W x jak i W z. Tabela 1 podaje te rozkłady dla każdej z dwunastu cech. Końce przedziałów klasowych są wartościami krytycznymi statystyki Shapiro-Wilka na poziomie α = 0.01, 0.02, 0.05, 0.1 i 0.5. W ostatniej kolumnie tej tabeli podano oczekiwane liczebności wartości statystyki Shapiro-Wilka w poszczególnych przedziałach klasowych. Gdybyśmy do każdej próby n-elementowej stosowali transformację ze stałym parametrem λ takim, że transformacja z tym parametrem normalizuje rozkład danej zmiennej, to statystyka W z miałaby dokładnie rozkład Shapiro-Wilka. Potwierdzają to również badania symulacyjne (Zieliński i Górczyński, 1991). Ponieważ jednak każda próba jest transformowana z innym λ (oszacowanym na podstawie tej próby), należy oczekiwać, że rozkład W z będzie odbiegał od rozkładu Shapiro-Wilka. Interesujący jest wtedy kierunek przesunięcia tego rozkładu w stosunku do rozkładu Shapiro-Wilka. Tablica 1. Rozkłady empiryczne oraz oczekiwane liczebności statystyki Shapiro-Wilka (n = 10) przedziały S 1 S 2 S 3 d 1 d 2 d 3 S 12 S 23 S 13 d 12 d 23 d 13 oczek 0.000; 0.781 W x 103 112 81 53 58 44 202 68 83 238 103 74 50 W z 1 0 2 2 0 1 0 0 0 56 3 2 0.781; 0.806 W x 84 63 70 53 52 44 113 52 84 156 73 68 50 W z 1 0 1 2 3 1 5 1 1 82 5 6 0.806; 0.842 W x 226 217 175 158 132 151 293 194 199 427 234 212 150 W z 25 16 14 27 18 18 26 19 20 178 33 32 0.842; 0.869 W x 308 328 313 248 257 240 400 281 343 559 307 320 250 W z 58 44 47 64 54 52 70 44 47 337 81 98 0.869; 0.938 W x 2283 2252 2181 2208 2236 2137 2380 2156 2187 2587 2286 2303 2000 W z 1348 1291 1150 1366 1304 1182 1452 1264 1316 2410 1544 1634 0.938; 1.000 W x 1996 2028 2180 2280 2265 2384 1612 2249 2104 1033 1997 2023 2500 W z 3567 3649 3787 3539 3621 3746 3447 3681 3616 1937 3334 3228 Analiza tabeli 1 prowadzi do wniosku, że zastosowanie próbkowej transformacji potęgowej zmienia rozkład statystyki Shapiro-Wilka na korzyść dużych wartości tej statystyki, które pozwalają uznać rozkład danej cechy za normalny. Można więc powiedzieć, że próbkowa transformacja potęgowa normalizuje rozkład. Taki sam wniosek można otrzymać analizując wyniki dla prób 20-elementowych. Dokładniej mówiąc, można powiedzieć, że daną próbę po transformacji można uznać za pochodzącą z rozkładu normalnego. Na podstawie wyników przedstawionych w tabeli 1 daje się zaobserwować różne tempo normalizacji: o ile można uznać, że cechy d 1, d 2, d 3 mają rozkład normalny, to cecha d 13 nawet po zastosowaniu transformacji nie jest jeszcze normalna. Jest naturalną rzeczą przyjąć, że tempo normalizacji jest tym wolniejsze, im większe jest odchylenie danego rozkładu od rozkładu normalnego. Miernikiem tego odchylenia może być średnia wartość statystyki Shapiro-Wilka przed transformacją (im jest ona mniejsza, tym większe odchylenie). Tabela 2 przedstawia średnie wartości statystyki W x oraz W z dla serii prób 10- i 20-elementowych. Zgodnie z oczekiwaniami w każdym przypadku W x < W z. Zauważmy, że średnie W z stabilizują się na pewnym poziomie. Wyjątkiem jest cecha d 12. Sugerowałoby to możliwość iterowania transformacji potęgowych w przypadku cech, których rozkład znacznie różni się od normalnego. Można mówić także o stabilizacji statystyki Shapiro-Wilka dla ustalonej cechy, jeżeli przejdziemy na dane transformowane. Dało się mianowicie zaobserwować, że varw z < varw x dla każdej cechy. Obie te wariancje zmniejszają się także, jeżeli zwiększamy liczność próby. I tak dla prób o liczności 10 wariancja statystyki W x była rzędu 2.5 10 3, a dla prób o liczności 20 wariancja ta była rzędu 2 10 1. 2
Tabela 2. cechy n = 10 n = 20 W x Wz Wx Wz S 1 0.917 0.950 0.939 0.966 S 2 0.917 0.951 0.940 0.967 S 3 0, 921 0.952 0.945 0.968 d 1 0.925 0.949 0.950 0.968 d 2 0.925 0.950 0.951 0.967 d 3 0.927 0.951 0.953 0.968 S 12 0.906 0.948 0.922 0.962 S 23 0.923 0.951 0.950 0.968 S 13 0.919 0.951 0.943 0.966 d 12 0.892 0.918 0.911 0.937 d 23 0.917 0.945 0.946 0.964 d 13 0.918 0.944 0.945 0.962 4. Wariancja estymatora parametru lambda Zajmijmy się teraz wariancją estymatora parametru λ. Okazuje się, że istnieje związek pomiędzy tą wariancją a stopniem odchylenia, mierzonym średnią wartością statystyki W x, rozkładu danej cechy od rozkładu normalnego. Tabela 3 przedstawia oszacowania wariancji estymatora ˆλ wyznaczone na podstawie prób 10- i 20-elementowych. Tabela 3. cecha S 1 S 2 S 3 d 1 d 2 d 3 S 12 S 23 S 13 d 12 d 23 d 13 n = 10 2.273 2.377 2.692 7.756 8083 8.925 0.797 1.317 1.737 1.055 1.845 2.504 n = 20 0.428 0.439 0.481 1.708 1.747 1.872 0.154 0.252 0.364 0.206 0.313 0.492 Na wykresach przedstawiono dwanaście badanych cech. Na osi poziomej pokazane są wartości średnie statystyki W x, a na osi pionowej wariancje estymatorów ˆλ. Łatwo zauważyć następującą prawidłowość: im bardziej rozkład danej cechy różni się od rozkładu normalnego (im mniejsze W x ), tym mniejsza jest wariancja estymatora ˆλ. Ma to ważne znaczenie praktyczne. Świadczy mianowicie o dobrych własnościach transformacji próbkowej, gdy stosowanie tej transformacji jest konieczne. Natomiast w przypadku, gdy cecha ma rozkład zbliżony do rozkładu normalnego, to wariancja estymatora ˆλ jest bardzo duża. Można by wyprowadzić stąd wniosek, że dla cech o rozkładzie prawie normalnym można stosować omawianą transformację w zasadzie z dowolnym λ. Jest to oczywiście absurdalny wniosek, a w takiej sytuacji nie powinno się w ogóle stosować tej transformacji. W związku z tym, że w niektórych sytuacjach wariancja λ jest dość duża. nasuwa się pytanie, na ile estymator ˆλ może odbiegać od prawdziwej wartości parametru λ, by transformację próbkową można było uznać za normalizującą (np. w tym sensie, że test chi-kwadrat nie wykrywa rozbieżności między rozkładem statystyki W z dla prób transformowanych z tym samym ˆλ a rozkładem Shapiro-Wilka). W niniejszej pracy nie zajmujemy się tym problemem. 5. Uwagi końcowe Omawiana w pracy transformacja potęgowa jest transformacją próbkową w tym sensie, że wymaga ona szacowania nieznanego parametru. Jak widać, jest to transformacja skuteczna, tzn. przekształconą próbę można traktować jako pochodzącą z rozkładu normalnego. Głównym celem dokonywania tej transformacji jest jednak wykorzystanie przekształconej próby w takich postępowaniach jak analiza wariancji, regresji itp. I w tym momencie używanie transformacji próbkowej staje się problematyczne. Głównym powodem jest to, że nieznane są takie własności znanych postępowań statystycznych (analiza wariancji itp.) dla danych transformowanych, jak rzeczywiste rozkłady statystyk czy też prawdopodobieństwa błędów I i II rodzaju. Ponadto 3
stosowanie transformacji znacznie komplikuje i wydłuża obliczenia (oszacowanie λ wymaga numerycznego rozwiązania dość złożonego równania). Wydaje się więc, że dla prób dalekich od normalności lepiej jest bezpośrednio stosować odpowiednie procedury nieparametryczne niż transformować je i wykorzystywać typowy aparat statystyczny. Literatura Shapiro S.S., Wilk M.B. (1965): An analysis ot variance test for normality (complete samples), Biometrika 52, 591-611. Box G.E.P., Cox D.R. (1964): An analysis of transformations, J.R.Statist.Soc. B, 26, 211-252. Wagner W. (1987): Zastosowanie przekształcenia potęgowego do obserwowalnych zmiennych losowych dla sprawdzenia założenia o rozkładzie normalnym błędów losowych w modelu liniowym, XVII Coll. Metod. z Agrobiom. PAN, 75-83. Zieliński A., Górczyński J. (1991): Density distributions of some variables considered in field experiments with fruit trees, Folia Horticulturae, w druku 4
5