DOKŁADNA METODA BOOTSTRAPOWA I JEJ ZASTOSOWANIE DO ESTYMACJI WARIANCJI 1. WPROWADZENIE JOANNA KISIELIŃSKA

Podobne dokumenty
X i. X = 1 n. i=1. wartość tej statystyki nazywana jest wartością średnią empiryczną i oznaczamy ją symbolem x, przy czym x = 1. (X i X) 2.

Charakterystyki liczbowe zmiennych losowych: wartość oczekiwana i wariancja

3. Tworzenie próby, błąd przypadkowy (próbkowania) 5. Błąd standardowy średniej arytmetycznej

Zadanie 2 Niech,,, będą niezależnymi zmiennymi losowymi o identycznym rozkładzie,.

Statystyka i Opracowanie Danych. W7. Estymacja i estymatory. Dr Anna ADRIAN Paw B5, pok407

ZAGADNIENIE ESTYMACJI. ESTYMACJA PUNKTOWA I PRZEDZIAŁOWA

Lista 6. Estymacja punktowa

16 Przedziały ufności

Estymacja przedziałowa

Estymacja: Punktowa (ocena, błędy szacunku) Przedziałowa (przedział ufności)

Wykład 5 Przedziały ufności. Przedział ufności, gdy znane jest σ. Opis słowny / 2

Wykład 11 ( ). Przedziały ufności dla średniej

Elementy statystyki opisowej Izolda Gorgol wyciąg z prezentacji (wykład I)

Statystyka matematyczna. Wykład II. Estymacja punktowa

Prawdopodobieństwo i statystyka

STATYSTKA I ANALIZA DANYCH LAB II

Trzeba pokazać, że dla każdego c 0 c Mc 0. ) = oraz det( ) det( ) det( ) jest macierzą idempotentną? Proszę odpowiedzieć w

Ćwiczenie 2 ESTYMACJA STATYSTYCZNA

Estymacja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 7

Ćwiczenie nr 14. Porównanie doświadczalnego rozkładu liczby zliczeń w zadanym przedziale czasu z rozkładem Poissona

θx θ 1, dla 0 < x < 1, 0, poza tym,

Wokół testu Studenta 1. Wprowadzenie Rozkłady prawdopodobieństwa występujące w testowaniu hipotez dotyczących rozkładów normalnych

Prawdopodobieństwo i statystyka r.

ZBIEŻNOŚĆ CIĄGU ZMIENNYCH LOSOWYCH. TWIERDZENIA GRANICZNE

STATYSTYKA I ANALIZA DANYCH

WYKŁAD 1. Zdarzenia losowe i prawdopodobieństwo Zmienna losowa i jej rozkłady

STATYSTYKA MATEMATYCZNA

z przedziału 0,1. Rozważmy trzy zmienne losowe:..., gdzie X

Moda (Mo, D) wartość cechy występującej najczęściej (najliczniej).

Matematyka ubezpieczeń majątkowych r.

1 Twierdzenia o granicznym przejściu pod znakiem całki

STATYSTYKA OPISOWA WYKŁAD 1 i 2

Podstawowe oznaczenia i wzory stosowane na wykładzie i laboratorium Część I: estymacja

STATYSTYKA. Rafał Kucharski. Uniwersytet Ekonomiczny w Katowicach 2015/16 ROND, Finanse i Rachunkowość, rok 2

Komputerowa analiza danych doświadczalnych

Statystyka opisowa. (n m n m 1 ) h (n m n m 1 ) + (n m n m+1 ) 2 +1), gdy n jest parzyste

PRZEDZIAŁY UFNOŚCI. Niech θ - nieznany parametr rozkładu cechy X. Niech α będzie liczbą z przedziału (0, 1).

0.1 ROZKŁADY WYBRANYCH STATYSTYK

STATYSTYKA OPISOWA I PROJEKTOWANIE EKSPERYMENTU dr inż Krzysztof Bryś

1. Wnioskowanie statystyczne. Ponadto mianem statystyki określa się także funkcje zmiennych losowych o

Statystyka matematyczna dla leśników

Elementy modelowania matematycznego

Prawdopodobieństwo i statystyka r.

TESTY LOSOWOŚCI. Badanie losowości próby - test serii.

będą niezależnymi zmiennymi losowymi z rozkładu jednostajnego na przedziale ( 0,

Lista 5. Odp. 1. xf(x)dx = xdx = 1 2 E [X] = 1. Pr(X > 3/4) E [X] 3/4 = 2 3. Zadanie 3. Zmienne losowe X i (i = 1, 2, 3, 4) są niezależne o tym samym

DOKŁADNA METODA BOOTSTRAPOWA NA PRZYKŁADZIE ESTYMACJI ŚREDNIEJ

3. Regresja liniowa Założenia dotyczące modelu regresji liniowej

KURS STATYSTYKA. Lekcja 3 Parametryczne testy istotności ZADANIE DOMOWE. Strona 1

ZADANIA NA ĆWICZENIA 3 I 4

ma rozkład złożony Poissona z oczekiwaną liczbą szkód równą λ i rozkładem wartości pojedynczej szkody takim, że Pr( Y

Ciągi liczbowe wykład 3

ANALIZA DANYCH DYSKRETNYCH

Analiza wyników symulacji i rzeczywistego pomiaru zmian napięcia ładowanego kondensatora

n n X n = σ σ = n n n Ponieważ zmienna losowa standaryzowana ma rozkład normalny N(0, 1), więc

O liczbach naturalnych, których suma równa się iloczynowi

PODSTAWY BIOSTATYSTYKI ĆWICZENIA

ZSTA LMO Zadania na ćwiczenia

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH

Komputerowa analiza danych doświadczalnych

Twierdzenia graniczne:

SIGMA KWADRAT LUBELSKI KONKURS STATYSTYCZNO- DEMOGRAFICZNY

2.1. Studium przypadku 1

są niezależnymi zmiennymi losowymi o jednakowym rozkładzie Poissona z wartością oczekiwaną λ równą 10. Obliczyć v = var( X

POLITECHNIKA OPOLSKA

oznaczają łączne wartości szkód odpowiednio dla k-tego kontraktu w t-tym roku. O składnikach naszych zmiennych zakładamy, że:

Rozkłady statystyk z próby Twierdzenia graniczne

Estymacja przedziałowa - przedziały ufności

1 Dwuwymiarowa zmienna losowa

Zdarzenia losowe, definicja prawdopodobieństwa, zmienne losowe

Korelacja i regresja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 12

Obserwacje odstające mają duży wpływ na średnią średnia nie jest odporna.

Miary położenia (tendencji centralnej) to tzw. miary przeciętne charakteryzujące średni lub typowy poziom wartości cechy.

Wykład 13: Zbieżność według rozkładu. Centralne twierdzenie graniczne.

MODELE MATEMATYCZNE W UBEZPIECZENIACH. 1. Renty

2. INNE ROZKŁADY DYSKRETNE

1 Przedziały ufności. ). Obliczamy. gdzie S pochodzi z rozkładu B(n, 1 2. P(2 S n 2) = 1 P(S 2) P(S n 2) = 1 2( 2 n +n2 n +2 n ) = 1 (n 2 +n+2)2 n.

Parametryczne Testy Istotności

2 n < 2n + 2 n. 2 n = 2. 2 n 2 +3n+2 > 2 0 = 1 = 2. n+2 n 1 n+1 = 2. n+1

Zmienna losowa N ma rozkład ujemny dwumianowy z parametrami (, q) = 7,

MINIMALIZACJA PUSTYCH PRZEBIEGÓW PRZEZ ŚRODKI TRANSPORTU

Estymacja przedziałowa:

Numeryczny opis zjawiska zaniku

Metrologia: miary dokładności. dr inż. Paweł Zalewski Akademia Morska w Szczecinie

Plan wykładu. Analiza danych Wykład 1: Statystyka opisowa. Literatura. Podstawowe pojęcia

Testowanie hipotez. H 1 : µ 15 lub H 1 : µ < 15 lub H 1 : µ > 15

Statystyka i rachunek prawdopodobieństwa

Zasada indukcji matematycznej. Dowody indukcyjne.

5. Zasada indukcji matematycznej. Dowody indukcyjne.

Statystyczny opis danych - parametry

Statystyka opisowa. () Statystyka opisowa 24 maja / 8

STATYSTYKA OPISOWA PODSTAWOWE WZORY

Estymacja współczynnika dopasowania w klasycznym modelu ryzyka

(X i X) 2. n 1. X m S

Rozkład normalny (Gaussa)

Estymatory nieobciążone o minimalnej wariancji

Monte Carlo, bootstrap, jacknife

I. Ciągi liczbowe. , gdzie a n oznacza n-ty wyraz ciągu (a n ) n N. spełniający warunek. a n+1 a n = r, spełniający warunek a n+1 a n

Matematyka ubezpieczeń majątkowych r. Zadanie 1. Rozważamy proces nadwyżki ubezpieczyciela z czasem dyskretnym postaci: n

Transkrypt:

PRZEGLĄD STATYSTYCZNY R. LVIII ZESZYT 1-2 2011 JOANNA KISIELIŃSKA DOKŁADNA METODA BOOTSTRAPOWA I JEJ ZASTOSOWANIE DO ESTYMACJI WARIANCJI 1. WPROWADZENIE Daa jest zmiea losowa X o iezaym rozkładzie F. Iteresuje as parametr rozkładu, który ozaczymy jako θ. Jeśli parametru ie moża wyzaczyć bezpośredio, koiecze jest pobraie próby losowej oraz dobraie odpowiediego estymatora parametru θ. Estymator jest statystyką określoą a przestrzei prób. Próbę losową ozaczymy jako X =(X 1, X 2,..., X ), jej realizację jako x =(x 1, x 2,..., x ), zaś estymator parametru θ jako ˆθ = t (X). Efro [4] zapropoował metodę, którą azwał bootstrap polegającą a losowaiu z uzyskaej próby (próby pierwotej) x, kolejych prób wtórych (prób bootstrapowych) o liczebości. Losowaie odbywa się ze zwracaiem przy założeiu jedakowych prawdopodobieństw rówych 1/ wylosowaia, każdej z wartości x i, dla,...,. Geeroway jest w te sposób rozkład ˆF, zway rozkładem bootstrapowym z próby. Próba bootstrapowa ozaczaa jest jako X = ( X 1, X 2,, X ), a dowola jej realizacja jako x = ( x 1, x 2,, x ). Statystyka ˆθ dla próby bootstrapowej ozaczaa jest jako ˆθ = t (X ). Istotą metody jest aproksymacja rozkładu statystyki ˆθ, rozkładem statystyki bootstrapowej ˆθ. Efro [4] zapropoował trzy metody wyzaczaia rozkładu ˆθ : 1. przeprowadzeie właściwych rozważań teoretyczych, 2. zastosowaie aproksymacji Mote Carlo, 3. aproksymację rozkładu ˆθ poprzez rozwiięcie fukcji t w szereg Taylora. Jeśli wybrae zostaie rozwiązaie 2 koiecze jest określeie liczby losowaych prób bootstrapowych N. Efro [5] opierając się a bootstrapowej wariacji stwierdza, że wystarczy iewielka liczba losowań, aby otrzymać wystarczającą dokładość. Z taką oceą ie zgadzają się Booth i Sarkar [1], którzy zastosowali aproksymację rozkładu względej wariacji bootstrapowej rozkładem ormalym. Pozwoliło to a oszacowaie N dla określoego poziomu błędu a założoym poziomie ufości. Okazało się, że uzyskaie błędu poiżej 10% przy poziomie ufości 0,95 wymaga przyjęcia N około 800. Domański i Pruska [3] (str. 261) stwierdzają, że przyjmuje się N 1000. Prowadząc rozważaia ad metodą bootstrapową zadać moża sobie pytaie, czy losowaie próby bootstrapowej X, z wcześiej już uzyskaej próby pierwotej X jest koiecze? Losowaie próby jest iezbęde, jeśli zbadaie całej populacji ie jest

Dokłada metoda bootstrapowa i jej zastosowaie do estymacji wariacji 61 możliwe lub jest zbyt kosztowe. Posługiwaie się próbą zamiast populacją ma swoje istote implikacje będące w obszarze zaiteresowań statystyki matematyczej. Zwróćmy uwagę, że podstawową własością próby jest jej skończoy rozmiar. Określoy dla iej rozkład bootstrapowy ˆF jest prostym rozkładem dyskretym. Rozkład dowoliej statystyki określoej dla dyskretych zmieych losowych o skończoej liczbie realizacji, ie musi być szacoway, poieważ może być po prostu wyzaczoy. Kwestią otwartą pozostaje jedyie, jak dużego akładu obliczeń wymaga takie podejście, o czym mowa będzie dalej. Rozkład bootstrapowy jest w istocie rozkładem empiryczym określoym dystrybuatą 1) : F (t) = # {1 i :X i t} dla t R 1 (1) gdzie X 1, X 2,..., X jest ciągiem ciągłych i iezależych zmieych losowych o jedakowych rozkładach określoych dystrybuatą F. Z twierdzeia Gliwieki-Catelliego (podstawowego twierdzeia statystyki matematyczej) wyika, że: D = sup F (x) F (x) (2) <x<+ dąży do 0 z prawdopodobieństwem 1. Twierdzeie to upoważia do wioskowaia statystyczego formułowaia stwierdzeń dotyczących populacji a podstawie próby. 2. DOKŁADNA METODA BOOTSTRAPOWA Załóżmy, że z populacji opisaej zmieą losową X wylosowao elemetową próbę pierwotą x =(x 1, x 2,..., x ). Poieważ dla iektórych i j może zachodzić x i = x j, zredukujmy 2) rozmiar wylosowaej próby do k różych wartości. Prawdopodobieństwa p i wylosowaia z próby realizacji x i, gdzie, 2,..., k ie muszą być wówczas jedakowe (jak to ma miejsce dla próby bootstrapowej). W próbie x, każda wartość x i jest realizacją zmieej losowej X o rozkładzie F. Zgodie z twierdzeiem Gliwieki-Catelliego, rozkład F może być przybliżoy rozkładem empiryczym F. Wprowadźmy pojecie dyskretej zmieej losowej próby, którą ozaczyć moża jako X D. Zbiorem realizacji tej zmieej jest pierwota próba losowa {x 1, x 2,..., x k }. Poszczególe wartości przyjmowae są z prawdopodobieństwami p D i = P ( X D = x i ) = p i 3), dla i= 1,2,...,k. Rozkład te jest rówoważy rozkładowi empiryczemu 1) Zapis zgodie z Zieliński [9] str. 11, gdzie # ozacza liczebość. 2) Redukcja ta ie jest koiecza, lecz wskazaa, poieważ pozwala a zmiejszeie wymiaru problemu. 3) Prawdopodobieństwa te byłyby jedakowe i rówe 1/ gdyby ie przeprowadzoo redukcji wymiaru próby do k różych wartości.

62 Joaa Kisielińska i ozaczoy zostaie jako F D. W takim przypadku elemetową wtórą próbę losową moża zapisać jako X D = ( X1 D, XD 2,, ) XD, a dowolą jej realizację jako x D = ( x1 D, xd 2,, ) xd. Zmiee X D i, dla i= 1,2,..., mają rozkłady F D. Statystykę ˆθ dla próby bootstrapowej ozaczyć moża wówczas jako ˆθ D = t ( X D). Rozkład statystyki ˆθ przybliżać będziemy rozkładem statystyki ˆθ D. Zauważmy, że problemy związae z ewetualym obciążeiem, zgodością i efektywością estymatora dotyczą estymatora ˆθ. W dokładej metodzie bootstrapowej wartość estymatora ˆθ D jest obliczaa, a ie szacowaa a podstawie próby. Metoda ie wprowadza więc dodatkowego obciążeia. Dla pojedyczej b-tej realizacji wtórej próby x Db = ( ) x Db,, xdb ależy obliczyć wartość ˆθ D (b) = t ( x Db) = t ( x1 Db, ) xdb 2,, xdb oraz prawdopodobieństwo jej wylosowaia. Ze względu a redukcję wymiaru elemetowej próby do k różych wartości, prawdopodobieństwa wylosowaia poszczególych prób bootstrapowych ie są już jedakowe. Prawdopodobieństwo wylosowaia b-tej próby jest rówe p Db = P ( ˆθ D = ˆθ D (b) ) = p Db i, gdzie p Db i = P ( X D = x Db i 1, xdb 2 ). Liczba możliwych realizacji wtórej próby jest rówa B = k. Poprawie apisay algorytm powiie zapewić B spełieie waruku: p Db = 1. b=1 Mając wyzaczoe wartości ˆθ D (b) oraz prawdopodobieństwa p Db, dla b=1,2,...,b moża określić rozkład estymatora ˆθ D. Estymator te, będąc fukcją dyskretych zmieych losowych o jedakowym rozkładzie F D, jest rówież zmieą losową dyskretą. Rozkład estymatora pozwala budować przedziały ufości, czy testować hipotezy statystycze. Jeżeli zay jest rozkład estymatora moża wyzaczyć jego wartość oczekiwaą i odchyleie stadardowe. Wartość oczekiwaa jest bootstrapowym oszacowaiem parametru θ, zaś odchyleie stadardowe błędem tego szacuku. Wartość oczekiwaa i odchyleie stadardowe obliczyć ależy tak jak dla zmieej dyskretej. Ozaczając oceę parametru jako ˆθ D ( ), a błąd jako s Ḓ θ D 4) otrzymujemy: ˆθ D ( ) = B B ( ˆθ D (b) p Db, s Ḓ = θ ˆθ D (b) ˆθ D ( ) ) 2 p Db (3) D b=1 Chcąc zastosować metodę dokładego bootstrapu warto zastaowić się, jak ma się liczba wszystkich możliwych prób wtórych B wobec zalecaej liczby prób wtórych w klasyczej metodzie bootstrapowej. Np. dla k=10 i =20 otrzymujemy B =10 20, 4) Formuła (3) obowiązuje gdy brae są pod uwagę wszystkie próby bootstrapowe. Jeśli rozważay jest jedyie ich podzbiór ależałoby dokoać korekty o czyik 1. b=1

Dokłada metoda bootstrapowa i jej zastosowaie do estymacji wariacji 63 co jest liczbą bardzo dużą, zaczie większą iż przykładowe N=1000. Jak pokazae zostaie dalej tak dużą liczbę powtórzeń moża aktualie wygeerować. Pioierska praca Efroa pochodzi z roku 1979. W tamtym okresie wykoaie tej liczby obliczeń w sesowym czasie było iemożliwe. Poieważ ie moża było zbadać całej populacji określoej próbą pierwotą, koiecze było pobieraie z próby traktowaej jako populację kolejych prób prób wtórych. W metodzie bootstrapowej ciąg uzyskaych wartości estymatora porządkoway jest w kolejości od ajmiejszego do ajwiększego, co pozwala p. wyzaczyć graice przedziałów ufości metodą percetyli (Efro, Tibshirai [6]). W dokładej metodzie bootstrapowej teoretyczie moża rówież tak postąpić. Liczba możliwych realizacji statystyki ˆθ D jest wprawdzie bardzo duża, ale po pierwsze, część realizacji z pewością będzie się powtarzać, a po drugie i tak wskazae jest pogrupowaie rezultatów w histogramie. Utworzeie histogramu będzie dla dużych problemów iezbęde 5), ale wiązać się będzie z utratą pewej iformacji. Podkreślić ależy, że mimo tego dokładą metodą bootstrapową moża uzyskać bardzo dokłade oszacowaie graic przedziałów ufości, poieważ szerokość przedziałów w histogramie ie musi być jedakowa. W zakresach wymagających podaia dokładych prawdopodobieństw (czy dystrybuaty), szerokość przedziału może być bardzo, iemal dowolie mała. Najprostszym sposobem wygeerowaia wszystkich wtórych prób dla rozkładu dyskretego będzie rekurecyje pobieraie kolejych elemetów z próby. Jeśli wystąpiły powtórzeia, zbiór z którego pobierae są wartości redukuje się do wymiaru k. Tak skostruoway algorytm zaliczyć moża do kategorii brute force. Algorytmy tego typu są uzawae za ieefektywe. Liczbę geerowaych realizacji prób bootstrapowych moża zredukować, poieważ w próbie wtórej iektóre wartości będą się powtarzać losowaie odbywa się z powtórzeiami. Problem taki dla przypadku gdy prawdopodobieństwo wylosowaia każdego elemetu próby jest jedakowe i elemety są jedakowe, przedstawioy jest w książce Fellera [7] w rozdziale II.5 str. 38 6). Dalsze rozważaia prowadzoe będą dla przypadku, gdy prawdopodobieństwa te ie są jedakowe, a losowae elemety mogą być róże. Każdą elemetową wtórą b-tą próbę bootstrapową losowaą ze zbioru k elemetowego moża zapisać jako: x Db = (a 1b x 1, a 2b x 2,, a kb x k ) (4) gdzie każde a ib 0, dla i= 1, 2,..., k jest liczbą wystąpień w próbie b-tej i-tego elemetu próby pierwotej. Liczby te muszą spełiać waruek: k a ib = (5) 5) Przykładowo liczba realizacji 10 20 wymaga poad 80 eksbibajtów komórek pamięci. 6) Jak zauważa Booth [2] w prezetacji elektroiczej: Mote Carlo ad the boothstrap.

64 Joaa Kisielińska przy czym część z ich może być rówa 0. Jeżeli dla wybraego i zachodzi a ib =0, ozacza to, że elemet x i ie wystąpił w b-tej próbie wtórej. Prawdopodobieństwo wylosowaia pojedyczej próby określoej (4) jest rówe: p Db = k ( ) p Db aib i (6) Pozostaje jeszcze określeie ile prób moża wygeerować dla daego ciągu liczb a ib 0, dla,2,...,k, spełiających waruek (5). Trzeba uwzględić wszystkie m b elemetowe kombiacje, gdzie m b = # {a ib 0:i = 1, 2,..., k} ze zbioru k elemetowego. Kombiacje ależy astępie permutować, ale jedyie a pozycjach, dla których współczyiki a ib są uikale. 3. ROZKŁAD GRANICZNY ESTYMATORA WARIANCJI Z PRÓBY BOOTSTRAPOWEJ Dokłada metoda bootstrapowa wykorzystaa zostaie do szacowaia wariacji pewej zmieej losowej o iezaym rozkładzie. Weryfikację poprawości metody moża przeprowadzić porówując rozkład estymatora wariacji z rozkładem graiczym, który stosować moża gdy próba jest duża ( 30). Pobierając elemetową próbę losową określamy dyskretą zmieą losową próby X D o zbiorze realizacji {x 1,x 2,..., x k } i rozkładzie prawdopodobieństwa określoym k wartościami p i =P(X D = x i ), dla i= 1,2,..., k, przy czym p i = 1. Wartość oczekiwaa μ D, odchyleie stadardowe σ D oraz czwarty momet cetraly μ D 4 zmieej X D są rówe odpowiedio: μ D = k x i p i, σ D = k ( k xi μ D)2 p i, μ D 4 = ( xi μ D) 4 pi (7) Wiadomo, że rozkład wariacji z próby S 2 = 1 ( Xi X ) 2 pobraej z populacji o rozkładzie ormalym N(μ,σ) jest rozkładem asymptotyczie ormalym N 1 σ 2, 2 σ4. Rozkład graiczy wariacji z próby S 2 pobraej z populacji o dowolym rozkładzie z parametrami μ i σ będzie też rozkładem ormalym (wariacja jest uśredioym

Dokłada metoda bootstrapowa i jej zastosowaie do estymacji wariacji 65 kwadratem odchyleń od wartości przeciętych). Wartość oczekiwaa rozkładu graiczego oraz jego wariacja są określoe wzorem 7) : ES 2 = 1 σ 2, D 2 S 2 = μ 4 σ 4 2 (μ 4 2 σ 4) + μ 4 3 σ 4 (8) 2 3 gdzie: μ 4 jest mometem cetralym rzędu czwartego rozpatrywaego rozkładu. Rozkłady, o których mowa powyżej są rozkładami graiczymi dla estymatora S 2, a ie estymatora Ŝ 2 1 ( = Xi X ) 2. Poieważ Ŝ 2 = 1 1 S2, ależy dokoać korekty parametrów rozkładów graiczych. Wartość oczekiwaą estymatora S 2 ależy pomożyć 8) ( przez 1, a wariację przez ) 2. 1 Rozkłady graicze ieobciążoego estymatora wariacji ozaczoe zostaą jako GV1 (rozkład graiczy ie wymagający ormalości rozkładu zmieej losowej w populacji) i GV2 (wymagający ormalości rozkładu) są więc astępujące: ( GV1 : N ) σ D 2, 1 μ D 4 ( σ D) 4 2 (μ D 4 2 (σ D) ) 4 + μd 4 3 ( σ D ) 4 2 3 ( GV2:N ) σ D 2, 1 2 (σ D) 4 (9) 4. WYNIKI Zakładamy, że daa jest zmiea losowa X o iezaym rozkładzie, którego wariację chcemy oszacować. Pobieramy elemetową próbę losową i zakładamy postać estymatora wariacji Ŝ 2 = 1 ( Xi X ) 2. Przykładowy rozkład empiryczy 1 próby przedstawioy jest w tabeli 1. Niech rozkład te reprezetuje zmiea losowa X D. Wartość oczekiwaa i wariacja zmieej X D są odpowiedio rówe μ D = 5,174 oraz ( σ D) 2 = 3,989724. Rozkład estymatora wariacji zmieej losowej X przybliżamy rozkładem statystyki bootstrapowej. Pobraie próby losowej moża iterpretować jako dyskretyzację ciągłej zmieej X. Stosując metodę bootstrapową rozkład estymatora pewego parametru rozkładu zmieej X, przybliżamy rozkładem estymatora dyskretej zmieej X D reprezetującej próbę. Różica miedzy klasyczą metodą, a dokładą 7) Smirow, Dui-Barkowski [8] str. 237. 8 ) Jeżeli jest bardzo duże iloraz jest praktyczie rówy jede. Dla próby 30 elemetowej 1 (a dla tej liczebości próby moża już stosować rozkłady graicze) jest rówy 1,0345, zaś jego kwadrat 1,0702 otylewięc ależałoby skorygować wariację.

66 Joaa Kisielińska polega jedyie a liczbie wziętych pod uwagę prób wtórych. W metodzie klasyczej losoway jest pewie podzbiór możliwych prób wtórych, w metodzie dokładej zaś brae są pod uwagę wszystkie próby wtóre. W klasyczej metodzie bootstrapowej zamiast populacji prób wtórych badamy więc jedyie pewie jej podzbiór. W dokładej metodzie bootstrapowej bierzemy pod uwagę całą populację prób wtórych. Mając do dyspozycji całą populację rozkład, bądź jego parametry ie muszą być szacowae, poieważ mogą być obliczae problem a tym etapie jest zagadieiem z zakresu statystyki opisowej, a ie matematyczej. Rozkład zmieej losowej X D reprezetującej próbę pierwotą Tabela 1 x i p i 1 0,010 2 0,050 3 0,180 4 0,253 5 0,040 6 0,127 7 0,210 8 0,100 9 0,020 10 0,010 Źródło: Opracowaie włase W tabeli 2 przedstawioo stablicoway rozkład estymatora wariacji zmieej losowej X D (staowiący przybliżeie rozkładu estymatora wariacji zmieej ciągłej X), wyzaczoy metodą dokładego bootstrapu i ozaczoy jako DBV, oraz dwa ormale rozkłady graicze dla wariacji GV1 i GV2 określoe wzorem (9). Rozkłady podao w dwóch wariatach. W pierwszym założoo =20, w drugim =30. Podkreślić ależy, że w przypadku stosowaia metod bootstrapowych wartość wyika bezpośredio z liczebości próby. Założeie dwóch wartości dla traktować ależy jedyie jako eksperymet symulacyjy mający a celu zbadaie ewetualych podobieństw i różic między faktyczym rozkładem estymatora a rozkładami graiczymi. Pewego kometarza wymaga jeszcze sposób doboru szerokości przedziału tablicowaia. W ogólym przypadku może być oa dowolie mała. Dla rozkładów graiczych (ciągłych), dla każdego dowolie małego przedziału istieje większe od 0

Dokłada metoda bootstrapowa i jej zastosowaie do estymacji wariacji 67 Tabela 2 Rozkład estymatora wariacji zmieej losowej X D uzyskay dokładą metodą bootstrapową oraz rozkłady graicze =20 =30 DBV GV1 GV2 DBV GV1 GV2 Średia 3,98972 3,98972 3,98972 3,98972 3,98972 3,98972 Odchyleie st. 0,91790 0,91790 1,32806 0,73650 0,73650 1,06566 Przedziały DBV GV1 GV2 DBV GV1 GV2 <0,00; 0,25) 2,77E-08 2,31E-05 0,002432 8,73E-12 1,91E-07 0,000225 <0,25; 0,50) 9,47E-07 4,87E-05 0,001867 1,52E-09 8,87E-07 0,000304 <0,50; 0,75) 5,73E-06 1,36E-04 0,003057 3,14E-08 4,36E-06 0,000654 <0,75; 1,00) 2,91E-05 0,000355 0,004832 3,66E-07 1,92E-05 0,001329 <1,00; 1,25) 9,40E-05 0,000856 0,007372 2,84E-06 7,50E-05 0,002560 <1,25; 1,50) 0,000361 0,001921 0,010858 2,03E-05 0,000262 0,004666 <1,50; 1,75) 0,001463 0,004003 0,015437 0,000110 0,000817 0,008051 <1,75; 2,00) 0,003616 0,007749 0,021185 0,000607 0,002272 0,013153 <2,00; 2,25) 0,009544 0,013933 0,028064 0,002482 0,005634 0,020342 <2,25; 2,50) 0,021507 0,023274 0,035886 0,008270 0,012467 0,029782 <2,50; 2,75) 0,037907 0,036112 0,044296 0,022408 0,024610 0,041280 <2,75; 3,00) 0,063318 0,052051 0,052778 0,045941 0,043341 0,054165 <3,00; 3,25) 0,073398 0,069692 0,060702 0,076109 0,068095 0,067284 <3,25; 3,50) 0,097465 0,086681 0,067391 0,110997 0,095448 0,079124 <3,50; 3,75) 0,121196 0,100148 0,072221 0,124357 0,119359 0,088088 <3,75; 4,00) 0,102042 0,107484 0,074710 0,139018 0,133161 0,092839 <4,00; 4,25) 0,102419 0,107159 0,074601 0,126058 0,132538 0,092630 <4,25; 4,50) 0,093798 0,099241 0,071907 0,107751 0,117691 0,087495 <4,50; 4,75) 0,074792 0,085377 0,066904 0,085236 0,093235 0,078239 <4,75; 5,00) 0,062212 0,068230 0,060088 0,059421 0,065896 0,066232 <5,00; 5,25) 0,040503 0,050651 0,052093 0,038703 0,041549 0,053079 <5,25; 5,50) 0,032387 0,034929 0,043594 0,024514 0,023373 0,040270 <5,50; 5,75) 0,024813 0,022375 0,035215 0,013139 0,011729 0,028923 <5,75; 6,00) 0,013530 0,013314 0,027459 0,007679 0,005251 0,019666 <6,00; 6,25) 0,009445 0,007359 0,020668 0,003776 0,002097 0,012659 <6,25; 6,50) 0,006109 0,003779 0,015017 0,001875 0,000747 0,007714 <6,50; 6,75) 0,003479 0,001802 0,010532 0,000887 0,000238 0,004450 <6,75; 7,00) 0,002140 0,000799 0,007130 0,000377 6,74E-05 0,002430 <7,00; 7,25) 0,001051 0,000329 0,004659 0,000159 1,7E-05 0,001257 <7,25; 7,50) 0,000650 1,26E-04 0,002939 6,56E-05 3,85E-06 0,000615 <7,50; + ) 0,000724 4,46E-05 0,001790 3,83E-05 7,74E-07 0,000285 Źródło: Badaia włase

68 Joaa Kisielińska prawdopodobieństwo, że zmiea losowa przyjmuje wartości z tego przedziału. Dla rozkładu dyskretego, a takim jest bootstrapowy (zarówo klasyczy jak i dokłady) rozkład estymatora wariacji zmieej X D, tak ie jest. Im miejsza szerokość, tym większej liczbie przedziałów będzie odpowiadało prawdopodobieństwo rówe 0. W tabeli 2 podao rówież wartości oczekiwae estymatorów wariacji zmieej X D oraz ich odchyleia stadardowe. Są to wartości dokłade obliczoe. Podae w tabeli rozkłady są tablicowae dla przedziałów. Obliczeie a ich podstawie parametrów rozkładów prowadzić ależy jak dla daych pogrupowaych, wobec czego wyiki różić się mogą od wartości dokładych. Wartości oczekiwae obydwu rozkładów graiczych GV1 i GV2 są z założeia rówe wariacji próby. W przypadku rozkładu DBV rówież otrzymao wartość oczekiwaą rówą wariacji próby, co potwierdza poprawość użytego algorytmu. Dokłada metoda bootstrapowa ie wprowadza dodatkowego obciążeia estymatora (w przeciwieństwie do metody bootstrapowej z losowaiem prób, gdzie obciążeie jest możliwe). Na uwagę zasługuje fakt, że odchyleie stadardowe rozkładu DBV jest rówe z dokładością do piątego miejsca po przeciku odchyleiu stadardowemu rozkładu GV1. Potwierdza to poprawość algorytmu realizującego dokłady bootstrap. W przypadku rozkładu graiczego GV2 odchyleie jest zawyżoe. Zawyżeie to wyika z iespełieia waruku ormalości. Różica jest wyraźa i wskazuje a koieczość obliczaia wariacji estymatora ze wzoru (8). Na wykresie 1 przedstawioo rozkłady estymatorów wariacji zmieej X D dla =20 oraz =30. Wyika z ich, że rozkład GV2 (rozkład graiczy wymagający założeia ormalości) ie staowi właściwego przybliżeia rozkładu DBV dla rozpatrywaej zmieej losowej. Ozacza to, że w przypadku estymatorów wariacji iespełieie waruku ormalości ie może być igorowae. Nie moża wówczas stosować rozkładu graiczego, wymagającego założeia, że próba pierwota ma rozkład ormaly. Rozkład GV1 atomiast jest przybliżeiem dobrym. Zauważmy poadto, że rozkład DBV jest miimalie asymetryczy, podczas gdy rozkład graiczy jest oczywiście symetryczy. Zgodość rozkładów GV1 i DBV potwierdził test zgodości Pearsoa, zarówo dla =30 jak dla =20. W tabeli 3 przedstawioo przedziały ufości dla wariacji wyzaczoe przy użyciu dokładej metody bootstrapowej DBV, rozkładu graiczego ie wymagającego założeia ormalości próby GV1 oraz wymagającego założeia ormalości GV2. Porówując rozstępy poszczególych przedziałów stwierdzamy, że ajprecyzyjiejszego oszacowaia dokoao przy pomocy dokładej metody bootstrapowej (i jest to oszacowaie dokłade), astępie rozkładu graiczego GV1 (z wyjątkiem =20 i1-α = 0,99, dla których przedział ufości rozkładu GV1 był węższy od DBV). Najszersze przedziały ufości ma rozkład GV2.

Dokłada metoda bootstrapowa i jej zastosowaie do estymacji wariacji 69 Wykres 1. Rozkłady estymatorów wariacji DBV, GV1 i GV2 Źródło: Badaia włase Przesuięcie w lewo przedziałów dla rozkładu GV1 wobec DBV wyika z asymetrii drugiego z ich. Przedstawioe obliczeia wskazują, że rozkład GV1 jest dobrym przybliżeiem rozkładu DBV. W celu dokładiejszej prezetacji metody przedstawioe zostaą wyiki estymacji dla małej próby obejmującej wartości {1, 2, 3, 4, 5} gdzie = k=5 przy założeiu jedakowych prawdopodobieństw wylosowaia każdego elemetu, rówych 0,2. Rozkład te reprezetuje dyskreta zmiea losowa X D o wartości oczekiwaej i wariacji

70 Joaa Kisielińska Tabela 3 Przedziały ufości dla wariacji wyzaczoe dokładą metodą bootstrapową oraz przy użyciu rozkładów graiczych Poziom ufości 1-α = 0,95 1-α = 0,99 =20 =30 DBV GV1 GV2 DBV GV1 GV2 graice 2,3685 2,1907 1,3868 2,6715 2,5462 1,9011 5,9565 5,7888 6,5927 5,0845 5,4332 6,0784 rozstęp 3,5880 3,5981 5,2059 2,4130 2,8870 4,1773 graice 1,9575 1,6254 0,5689 2,3265 2,0926 1,2448 6,6945 6,3541 7,4106 6,1185 5,8868 6,7347 rozstęp 4,7370 4,7287 6,8417 3,7920 3,7942 5,4899 Źródło: Badaia włase odpowiedio rówych μ D = 3, oraz ( σ D) 2 = 2. Wartość oczekiwaa ieobciążoego estymatora wariacji jest rówa 2, a jego wariacja 0,96 (zgodie ze wzorem (8) po korekcie odpowiedio o czyiki 5/4 i (5/4) 2 ). Z 5 elemetowej próby pierwotej moża wylosować 5 5 =3125 prób wtórych, przy czym prawdopodobieństwo wylosowaie każdej z ich jest w zadaych warukach jedakowe i wyosi 1/3125. Estymator wariacji dla przyjętej próby pierwotej przybiera jedyie 26 różych wartości. W tabeli 4 oraz a wykresie 2 przedstawioy został rozkład ieobciążoego estymatora wariacji wyzaczoego dokładą metodą bootstrapową. Wartość oczekiwaa i wariacja tego rozkładu są dokładie rówe 2 oraz 0,96, czego ależało oczekiwać. Warto dodać, że dla tak małej próby łatwo wykoać iezbęde kalkulacje z poziomu arkusza kalkulacyjego programu Excel, bez koieczości używaia specjalego oprogramowaia. Wykres 2. Rozkłady estymatora wariacji dla próby obejmującej wartości {1, 2, 3, 4, 5} Źródło: Badaia włase

Dokłada metoda bootstrapowa i jej zastosowaie do estymacji wariacji 71 Tabela 4 Rozkład estymatora wariacji uzyskay dokładą metodą bootstrapową dla 5-cio elemetowej próby obejmującej wartości {1, 2, 3, 4, 5} Wartości Prawdopodobieństwa Wartości Prawdopodobieństwa 0,0 0,0016 2,2 0,0384 0,2 0,0128 2,3 0,0896 0,3 0,0256 2,5 0,0384 0,5 0,0192 2,7 0,0704 0,7 0,0576 2,8 0,0576 0,8 0,0480 3,0 0,0128 1,0 0,0288 3,2 0,0544 1,2 0,0448 3,3 0,0384 1,3 0,0768 3,5 0,0192 1,5 0,0384 3,8 0,0128 1,7 0,1024 4,0 0,0096 1,8 0,0448 4,2 0,0192 2,0 0,0320 4,8 0,0064 Źródło: Badaia włase 5. PODSUMOWANIE W artykule omówioo dokładą metodę bootstrapową, którą moża wykorzystać do szacowaia estymatorów parametrów zmieych losowych o iezaym rozkładzie. Metoda pozwala wyzaczyć oszacowaie dowolego parametru, błąd tego oszacowaia, rozkład estymatora, czy przedziały ufości. Tradycyjie zadaie takie realizowae jest przy pomocy metody bootstrapowej, która polega a losowaiu prób wtórych z pierwotej próby losowej. Losowaie próby stosowae jest w statystyce, jeśli ie może być zbadaa cała populacja, lub badaie całej populacji jest zbyt kłopotliwe. Próba pierwota jest po pierwsze skończoa, a po drugie zay jest jej rozkład jest to rozkład empiryczy. Zamiast wtórie próbkować próbę pierwotą moża wygeerować automatyczie całą przestrzeń prób wtórych i wyzaczyć dla iej wartości statystyki będącej estymatorem poszukiwaego parametru. W artykule przedstawioo propozycję algorytmu realizującego to zadaie. Poprawość metody sprawdzoo a przykładzie wariacji. Pokazao, że wartość oczekiwaa estymatora obliczoego dokładą metodą bootstapową jest rówa dokładie wariacji próby. Metoda ie wprowadza więc obciążeia wyikającego z wtórego próbkowaia jak ma to miejsce w klasyczym bootstrapie. Wiosek te jest jedyie potwierdzeiem

72 Joaa Kisielińska oczywistego faktu, że badając całą populacje uzyskujemy wyiki dokładiejsze iż jeśli bierzemy pod uwagę próbę losową. Rozkład ieobciążoego estymatora wariacji wyzaczoy dokładą metodą bootstrapową porówao z rozkładem graiczym dla wariacji, ie wymagającym założeia ormalości próby pierwotej. Podobieństwo obydwu rozkładów wskazuje, a możliwość przybliżeia rozkładu dokładego rozkładem graiczym. Badaia pokazały, że w przypadku estymatora obciążoego ie moża pomiąć kwestii ormalości próby pierwotej. Rozkład graiczy estymatora wariacji, jeśli próba ie ma rozkładu ormalego, ie może być przybliżoy rozkładem N σ2, 1 2 σ 4 N σ2,. Rozkładem graiczym jest rozkład μ4 σ 4 2 (μ 4 2 σ 4) 1 + μ 4 3 σ 4 2 3. Przeprowadzoe eksperymety symulacyje polegające a estymacji parametrów dla różych rozmiarów próby pierwotej pokazały, że w przypadku prób małych ( 15 i k = ) czas iezbędy do wygeerowaia całej przestrzei prób wtórych jest krótki (poiżej 10 sek. a komputerze średiej klasy). Ozacza to, że ie ma wówczas potrzeby przeprowadzać wtórego losowaia próby. Dla prób większych, czas te jest zdecydowaie dłuższy i wymaga kilku godzi obliczeń (dla =20 i k = obliczeia trwały 5 godz. 30 mi.) Wzrost wymiarowości problemu powoduje bardzo sile wydłużeie czasu obliczeń. Z drugiej stroy pamiętać ależy, że metoda bootstrapowa stosowaa jest w przypadku małych prób dla prób dużych moża wykorzystać graicze rozkłady estymatorów. Biorąc jedak pod uwagę postęp w techice komputerowej, dokłady bootstrap będzie mógł być w przyszłości stosoway rówież dla prób większych. Szkoła Główa Gospodarstwa Wiejskiego LITERATURA [1] Boot J.G., Sarkar S. [1998]: Mote Carlo Approximatio of Bootstrap Variaces. The America Statisticia. Nr. 52, Assue 4. 354-357. [2] Boot J.G.: Mote Carlo ad the boothstrap. Prezetacja elektroicza: http://www.stat.ufl.edu/ jbooth/documets/talks/bootse.pdf (2010.1.3). [3] Domański C., Pruska K. [2000]: Nieklasycze metody statystycze. Polskie Wydawictwo Ekoomicze, Warszawa. [4] Efro B. [1979]: Bootstrap methods: aother look at the jackkife. The Aals of Statistics. Vol. 7, No. 1, 1-26. [5] Efro B. [1987]: Better Bootstrap Cofidece Itervals (with discussio). Joural of the America Statistical Associatio. Vol. 82, No. 397, 171-185. [6] Efro B., Tibshirai R.J. [1993]: A itroductio to the Bootstrap. Chapma & Hall. Lodo.

Dokłada metoda bootstrapowa i jej zastosowaie do estymacji wariacji 73 [7] Feller W. [1950]: A itroductio to probability theory ad its applicatio. Joh Wiley & Sos. New York, Lodo, Sydey. [8] Smirow N.W., Dui-Barkowski I.W. [1973]: Kurs rachuku prawdopodobieństwa i statystyki matematyczej dla zastosowań techiczych. Państwowe Wydawictwo Naukowe, Warszawa. [9] Zieliński R. [2004]: Siedem wykładów wprowadzających do statystyki matematyczej. Publikacja elektroicza: http://www.impa.pl/ rziel/7all.pdf (2009.08.09) DOKŁADNA METODA BOOTSTRAPOWA I JEJ ZASTOSOWANIE DO ESTYMACJI WARIANCJI Streszczeie W artykule przedstawioo dokładą metodę bootstrapową, którą moża wykorzystać do szacowaia estymatorów parametrów zmieych losowych o iezaym rozkładzie. Metoda pozwala wyzaczyć oszacowaie dowolego parametru, błąd tego oszacowaia, rozkład estymatora, czy przedziały ufości. Tradycyjie zadaie takie realizowae jest przy pomocy metody bootstrapowej, która polega a wtórym próbkowaiu aalizowaej, pierwotej próby losowej. Losowaie próby stosowae jest w statystyce, jeśli ie może być zbadaa cała populacja, lub badaie całej populacji jest zbyt kłopotliwe. Próba pierwota jest po pierwsze skończoa, a po drugie zay jest jej rozkład jest to rozkład empiryczy. Zamiast wtórie próbkować próbę pierwotą moża wygeerować automatyczie całą przestrzeń prób wtórych i wyzaczyć dla iej wartości statystyki będącej estymatorem poszukiwaego parametru. W artykule przedstawioo propozycję algorytmu realizującego metodę dokładego bootstrapu, którego poprawość sprawdzoo a przykładzie ieobciążoego estymatora wariacji. Pokazao, że wartość oczekiwaa estymatora obliczoego dokładą metodą bootstapową jest rówa dokładie wariacji próby. Metoda ie wprowadza więc obciążeia wyikającego z wtórego próbkowaia jak ma to może mieć miejsce w klasyczym bootstrapie. Rozkład estymatora wyzaczoy dokładą metodą bootstrapową porówao z rozkładem graiczym estymatora wariacji, ie wymagającym założeia ormalości próby pierwotej. Badaia pokazały, że w przypadku wariacji ie moża pomiąć kwestii ormalości próby pierwotej. EXACT BOOTSTRAP METHOD AND IT S APPLICATION IN ESTIMATION OF VARIANCE Summary The article presets the exact bootstrap method, which ca be used to estimate the parameters of the estimators of radom variables with ukow distributio. The method allows to determie a estimate of ay parameter, the error of estimatio, the distributio of the estimator ad cofidece itervals. Traditioally this task is carried out usig the bootstrap method, which cosists of resamplig of the origial sample. Radom samplig is ecessary if examiig the etire populatio data is impossible or too costly. Note that the fudametal sample property is of fiite size ad we kow its distributio it is the empirical distributio. Rather tha drivig a resample, we ca geerate automatically the etire resample space ad calculate the values of a statistic which is lookig for a parameter estimator. This article describes a method for performig exact algorithm for bootstrappig, which correctess was verified o a example of the ubiased estimator of variace. It is show that the expected value of the

74 Joaa Kisielińska estimator calculated with exact bootstrap is exactly equal the variace of the sample. The method does ot itroduce bias of the resamplig, as it may be for the classic bootstrap. The distributio of the estimator determied by the exact bootstrap compared with the limit distributio for estimator of variace, which does ot require assumptios of ormality of the origial sample. Research has show that if we estimate variace we caot igore the issue of ormality of the origial sample.