Własności estymatora parametru lambda transformacji potęgowej. Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński



Podobne dokumenty
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Zadania ze statystyki, cz.6

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Założenia do analizy wariancji. dr Anna Rajfura Kat. Doświadczalnictwa i Bioinformatyki SGGW

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Kolokwium ze statystyki matematycznej

POLITECHNIKA WARSZAWSKA

Wnioskowanie statystyczne. Statystyka w 5

Testowanie hipotez statystycznych

Wydział Matematyki. Testy zgodności. Wykład 03

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Wykład 3 Hipotezy statystyczne

Pytanie: Kiedy do testowania hipotezy stosujemy test F (Fishera-Snedecora)?

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Przedziały ufności. Poziom istotności = α (zwykle 0.05) Poziom ufności = 1 α Przedział ufności dla parametru μ = taki przedział [a,b], dla którego

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Temat: BADANIE ZGODNOŚCI ROZKŁADU CECHY (EMPIRYCZNEGO) Z ROZKŁADEM TEORETYCZNYM TEST CHI-KWADRAT. Anna Rajfura 1

Statystyka matematyczna i ekonometria

Pobieranie prób i rozkład z próby

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6

Testowanie hipotez statystycznych

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

STATYSTYKA MATEMATYCZNA

Testy zgodności. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 11

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Estymacja parametrów w modelu normalnym

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 4

Testy nieparametryczne

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

O testach wielowymiarowej normalności opartych na statystyce Shapiro-Wilka

PDF created with FinePrint pdffactory Pro trial version

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

HISTOGRAM. Dr Adam Michczyński - METODY ANALIZY DANYCH POMIAROWYCH Liczba pomiarów - n. Liczba pomiarów - n k 0.5 N = N =

Rozkłady statystyk z próby

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Własności statystyczne regresji liniowej. Wykład 4

Wnioskowanie bayesowskie

Porównanie dwóch rozkładów normalnych

Grupowanie materiału statystycznego

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Metody probabilistyczne

Wielkość dziennego obrotu w tys. zł. (y) Liczba ekspedientek (x) ,5 6,6

Metody Statystyczne. Metody Statystyczne.

12/30/2018. Biostatystyka, 2018/2019 dla Fizyki Medycznej, studia magisterskie. Estymacja Testowanie hipotez

Wnioskowanie statystyczne Weryfikacja hipotez. Statystyka

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

S t a t y s t y k a, część 3. Michał Żmihorski

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

Oszacowanie i rozkład t

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Statystyka. #5 Testowanie hipotez statystycznych. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2016/ / 28

Estymacja parametrów rozkładu cechy

ZALICZENIA. W celu uzyskania zaliczenia należy wybrać jeden z trzech poniższych wariantów I, II lub III

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

PODSTAWY WNIOSKOWANIA STATYSTYCZNEGO czȩść I

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Monte Carlo, bootstrap, jacknife

WYKŁAD 5 TEORIA ESTYMACJI II

Weryfikacja hipotez statystycznych

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Statystyka matematyczna. Wykład III. Estymacja przedziałowa

Estymacja punktowa i przedziałowa

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Testowanie hipotez statystycznych.

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Testowanie hipotez statystycznych.

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Z poprzedniego wykładu

Rozkłady statystyk z próby. Statystyka

Pytanie: Kiedy do testowania hipotezy stosujemy rozkład normalny?

Statystyka matematyczna. Wykład V. Parametryczne testy istotności

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Uwaga. Decyzje brzmią różnie! Testy parametryczne dotyczące nieznanej wartości

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 1

STATYSTYKA MATEMATYCZNA

Statystyka matematyczna dla leśników

STATYSTYKA

Spis treści 3 SPIS TREŚCI

Transkrypt:

Własności estymatora parametru lambda transformacji potęgowej Janusz Górczyński, Andrzej Zieliński, Wojciech Zieliński 1. Wstęp Najczęstszym powodem transformowania zmiennej losowej jest jej normalizacja, czyli dążenie do otrzymania zmiennej losowej o rozkładzie normalnym. Jeżeli ograniczymy się do sparametryzowanej rodziny transformacji, to dobór odpowiedniej transformacji będzie zależał od wyboru właściwego parametru. Wybór ten może być ułatwiony dzięki apriorycznej znajomości rozkładu zmiennej losowej. Często jednak jedynym źródłem informacji jest próba. Jeżeli zamiast parametru używamy jego estymatora, to możemy mówić o tzw. transformacji próbkowej. Przykładem sparametryzowanej rodziny transformacji jest rodzina transformacji potęgowych z = { ( x λ 1 ) /λ, dla λ 0, ln x, dla λ = 0 z parametrem λ (Box i Cox, 1964). Parametr λ może być estymowany na podstawie danych x 1,..., x n metodą największej wiarogodności. Sprowadza się to bądź do znalezienia maksimum funkcji bądź do rozwiązania równania ( L(λ; x 1,..., x n ) = n n 2 ln zi 2 1 n ) 2 z i + (λ 1) n n u i z i ( u i ) ( z i ) n z 2 i ( z i ) 2 1 n λ ln x i = 1, n ln x i, gdzie u = x λ ln x (Wagner, 1987). Otrzymany w powyższy sposób estymator ˆλ nie musi być dobrą oceną parametru λ (zakładamy oczywiście, że transformacja z parametrem λ normalizuje rozkład). Dzieje się tak na przykład wtedy, gdy wariancja estymatora ˆλ jest duża i w takiej sytuacji wątpliwa jest przydatność transformacji próbkowej. W pracy badane są niektóre własności estymatora ˆλ. W szczególności przedstawiono próbę odpowiedzi na pytanie, od czego i w jaki sposób zależy wariancja tego estymatora. Zastosowano metodę polegającą na wykonaniu serii doświadczeń symulacyjnych wykorzystujących rzeczywiste dane będące wynikami pomiarów niektórych cech pnia jabłoni. 2. Opis doświadczenia symulacyjnego Jako materiał posłużyły wyniki pomiarów pni kilkunastoletnich jabłoni odmiany Oliwka Inflancka na siewce Antonówki rosnących w RZD SGGW w Łyczynie (dane zostały udostępnione przez Katedrę Sadownictwa SGGW). Wykonywane jesienią przez kilka kolejnych lat pomiary pni drzew pozwoliły na określenie następujących cech: - pole przekroju pnia w latach 1963, 64 i 65 (S 1, S 2, S 3 ); - średnica pnia w tych samych latach (d 1, d 2, d 3 ); - jednoroczny przyrost bezwzględny pola w latach 1964 i 65 (S 12, S 23 ); - dwuletni bezwzględny przyrost pola w roku 1965 (S 13 ); - przyrosty bezwzględne średnic (d 12, d 23, d 13 ). Doświadczenie symulacyjne polegało na wielokrotnym losowaniu n-elementowej próby (n = 10, 20) spośród 262 wartości każdej z wyżej wymienionych cech. Po wylosowaniu pojedynczej próby x 1,..., x n wyznaczano: a) wartość statystyki W x Shapiro- Wilka służącej do testowania hipotezy o normalności rozkładu (Shapiro i Wilk, 1965); b) estymator ˆλ parametru λ transformacji potęgowej; 1

c) wartość statystyki W z Shapiro-Wilka dla danych z 1,..., z n otrzymanych z wartości x 1,..., x n dzięki zastosowaniu transformacji potęgowej z parametrem ˆλA. 3. Rozkład statystyki Shapiro-Wilka Próbę 10-elementową losowano 5000 razy. Umożliwiło to zbadanie rozkładu zarówno statystyki W x jak i W z. Tabela 1 podaje te rozkłady dla każdej z dwunastu cech. Końce przedziałów klasowych są wartościami krytycznymi statystyki Shapiro-Wilka na poziomie α = 0.01, 0.02, 0.05, 0.1 i 0.5. W ostatniej kolumnie tej tabeli podano oczekiwane liczebności wartości statystyki Shapiro-Wilka w poszczególnych przedziałach klasowych. Gdybyśmy do każdej próby n-elementowej stosowali transformację ze stałym parametrem λ takim, że transformacja z tym parametrem normalizuje rozkład danej zmiennej, to statystyka W z miałaby dokładnie rozkład Shapiro-Wilka. Potwierdzają to również badania symulacyjne (Zieliński i Górczyński, 1991). Ponieważ jednak każda próba jest transformowana z innym λ (oszacowanym na podstawie tej próby), należy oczekiwać, że rozkład W z będzie odbiegał od rozkładu Shapiro-Wilka. Interesujący jest wtedy kierunek przesunięcia tego rozkładu w stosunku do rozkładu Shapiro-Wilka. Tablica 1. Rozkłady empiryczne oraz oczekiwane liczebności statystyki Shapiro-Wilka (n = 10) przedziały S 1 S 2 S 3 d 1 d 2 d 3 S 12 S 23 S 13 d 12 d 23 d 13 oczek 0.000; 0.781 W x 103 112 81 53 58 44 202 68 83 238 103 74 50 W z 1 0 2 2 0 1 0 0 0 56 3 2 0.781; 0.806 W x 84 63 70 53 52 44 113 52 84 156 73 68 50 W z 1 0 1 2 3 1 5 1 1 82 5 6 0.806; 0.842 W x 226 217 175 158 132 151 293 194 199 427 234 212 150 W z 25 16 14 27 18 18 26 19 20 178 33 32 0.842; 0.869 W x 308 328 313 248 257 240 400 281 343 559 307 320 250 W z 58 44 47 64 54 52 70 44 47 337 81 98 0.869; 0.938 W x 2283 2252 2181 2208 2236 2137 2380 2156 2187 2587 2286 2303 2000 W z 1348 1291 1150 1366 1304 1182 1452 1264 1316 2410 1544 1634 0.938; 1.000 W x 1996 2028 2180 2280 2265 2384 1612 2249 2104 1033 1997 2023 2500 W z 3567 3649 3787 3539 3621 3746 3447 3681 3616 1937 3334 3228 Analiza tabeli 1 prowadzi do wniosku, że zastosowanie próbkowej transformacji potęgowej zmienia rozkład statystyki Shapiro-Wilka na korzyść dużych wartości tej statystyki, które pozwalają uznać rozkład danej cechy za normalny. Można więc powiedzieć, że próbkowa transformacja potęgowa normalizuje rozkład. Taki sam wniosek można otrzymać analizując wyniki dla prób 20-elementowych. Dokładniej mówiąc, można powiedzieć, że daną próbę po transformacji można uznać za pochodzącą z rozkładu normalnego. Na podstawie wyników przedstawionych w tabeli 1 daje się zaobserwować różne tempo normalizacji: o ile można uznać, że cechy d 1, d 2, d 3 mają rozkład normalny, to cecha d 13 nawet po zastosowaniu transformacji nie jest jeszcze normalna. Jest naturalną rzeczą przyjąć, że tempo normalizacji jest tym wolniejsze, im większe jest odchylenie danego rozkładu od rozkładu normalnego. Miernikiem tego odchylenia może być średnia wartość statystyki Shapiro-Wilka przed transformacją (im jest ona mniejsza, tym większe odchylenie). Tabela 2 przedstawia średnie wartości statystyki W x oraz W z dla serii prób 10- i 20-elementowych. Zgodnie z oczekiwaniami w każdym przypadku W x < W z. Zauważmy, że średnie W z stabilizują się na pewnym poziomie. Wyjątkiem jest cecha d 12. Sugerowałoby to możliwość iterowania transformacji potęgowych w przypadku cech, których rozkład znacznie różni się od normalnego. Można mówić także o stabilizacji statystyki Shapiro-Wilka dla ustalonej cechy, jeżeli przejdziemy na dane transformowane. Dało się mianowicie zaobserwować, że varw z < varw x dla każdej cechy. Obie te wariancje zmniejszają się także, jeżeli zwiększamy liczność próby. I tak dla prób o liczności 10 wariancja statystyki W x była rzędu 2.5 10 3, a dla prób o liczności 20 wariancja ta była rzędu 2 10 1. 2

Tabela 2. cechy n = 10 n = 20 W x Wz Wx Wz S 1 0.917 0.950 0.939 0.966 S 2 0.917 0.951 0.940 0.967 S 3 0, 921 0.952 0.945 0.968 d 1 0.925 0.949 0.950 0.968 d 2 0.925 0.950 0.951 0.967 d 3 0.927 0.951 0.953 0.968 S 12 0.906 0.948 0.922 0.962 S 23 0.923 0.951 0.950 0.968 S 13 0.919 0.951 0.943 0.966 d 12 0.892 0.918 0.911 0.937 d 23 0.917 0.945 0.946 0.964 d 13 0.918 0.944 0.945 0.962 4. Wariancja estymatora parametru lambda Zajmijmy się teraz wariancją estymatora parametru λ. Okazuje się, że istnieje związek pomiędzy tą wariancją a stopniem odchylenia, mierzonym średnią wartością statystyki W x, rozkładu danej cechy od rozkładu normalnego. Tabela 3 przedstawia oszacowania wariancji estymatora ˆλ wyznaczone na podstawie prób 10- i 20-elementowych. Tabela 3. cecha S 1 S 2 S 3 d 1 d 2 d 3 S 12 S 23 S 13 d 12 d 23 d 13 n = 10 2.273 2.377 2.692 7.756 8083 8.925 0.797 1.317 1.737 1.055 1.845 2.504 n = 20 0.428 0.439 0.481 1.708 1.747 1.872 0.154 0.252 0.364 0.206 0.313 0.492 Na wykresach przedstawiono dwanaście badanych cech. Na osi poziomej pokazane są wartości średnie statystyki W x, a na osi pionowej wariancje estymatorów ˆλ. Łatwo zauważyć następującą prawidłowość: im bardziej rozkład danej cechy różni się od rozkładu normalnego (im mniejsze W x ), tym mniejsza jest wariancja estymatora ˆλ. Ma to ważne znaczenie praktyczne. Świadczy mianowicie o dobrych własnościach transformacji próbkowej, gdy stosowanie tej transformacji jest konieczne. Natomiast w przypadku, gdy cecha ma rozkład zbliżony do rozkładu normalnego, to wariancja estymatora ˆλ jest bardzo duża. Można by wyprowadzić stąd wniosek, że dla cech o rozkładzie prawie normalnym można stosować omawianą transformację w zasadzie z dowolnym λ. Jest to oczywiście absurdalny wniosek, a w takiej sytuacji nie powinno się w ogóle stosować tej transformacji. W związku z tym, że w niektórych sytuacjach wariancja λ jest dość duża. nasuwa się pytanie, na ile estymator ˆλ może odbiegać od prawdziwej wartości parametru λ, by transformację próbkową można było uznać za normalizującą (np. w tym sensie, że test chi-kwadrat nie wykrywa rozbieżności między rozkładem statystyki W z dla prób transformowanych z tym samym ˆλ a rozkładem Shapiro-Wilka). W niniejszej pracy nie zajmujemy się tym problemem. 5. Uwagi końcowe Omawiana w pracy transformacja potęgowa jest transformacją próbkową w tym sensie, że wymaga ona szacowania nieznanego parametru. Jak widać, jest to transformacja skuteczna, tzn. przekształconą próbę można traktować jako pochodzącą z rozkładu normalnego. Głównym celem dokonywania tej transformacji jest jednak wykorzystanie przekształconej próby w takich postępowaniach jak analiza wariancji, regresji itp. I w tym momencie używanie transformacji próbkowej staje się problematyczne. Głównym powodem jest to, że nieznane są takie własności znanych postępowań statystycznych (analiza wariancji itp.) dla danych transformowanych, jak rzeczywiste rozkłady statystyk czy też prawdopodobieństwa błędów I i II rodzaju. Ponadto 3

stosowanie transformacji znacznie komplikuje i wydłuża obliczenia (oszacowanie λ wymaga numerycznego rozwiązania dość złożonego równania). Wydaje się więc, że dla prób dalekich od normalności lepiej jest bezpośrednio stosować odpowiednie procedury nieparametryczne niż transformować je i wykorzystywać typowy aparat statystyczny. Literatura Shapiro S.S., Wilk M.B. (1965): An analysis ot variance test for normality (complete samples), Biometrika 52, 591-611. Box G.E.P., Cox D.R. (1964): An analysis of transformations, J.R.Statist.Soc. B, 26, 211-252. Wagner W. (1987): Zastosowanie przekształcenia potęgowego do obserwowalnych zmiennych losowych dla sprawdzenia założenia o rozkładzie normalnym błędów losowych w modelu liniowym, XVII Coll. Metod. z Agrobiom. PAN, 75-83. Zieliński A., Górczyński J. (1991): Density distributions of some variables considered in field experiments with fruit trees, Folia Horticulturae, w druku 4

5