Monte Carlo, bootstrap, jacknife
Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział 10 Slajdy 4-31 wykorzystują materiały z tego podręcznika 2
Literatura B. Efron (1979) Bootstrap methods: another look at the jackknife, Annals of Statistics 7, 1-26. C.F.J.Wu (1986) Jackknife, bootstrap and other resampling methods in regression analysis, Annals of Statistics 14, 1261-1295. J.Shao, C.F.J.Wu (1989) A general theory for jackknife variance estimation, Annals of Statistics 17, 1176-1197. C.F.J.Wu (1990) On the asymptotic properties of the jacknife histogram, Annals of Statistics 18, 1438-1452. 3
Monte Carlo Niech oznaczają obserwacje losowo wybrane z populacji Niech oznacza parametr, a niech będzie interesującą nas statystyką, np. estymatorem lub statystyką t: 4
Monte Carlo Dystrybuanta statystyki oznaczona będzie jako: Często rozkład statystyki nie jest znany w skończonych próbach. Metoda Monte Carlo symuluje numerycznie prawdziwy rozkład statystyki dla wybranych (w skończonych próbach, dla wybranych przypadków) 5
Opis metody Monte Carlo Wybieramy rozkład i wielkość próby rozkład określa lub jest bezpośrednio ustalony Losujemy niezależnie par z rozkładu (stosując generator liczb pseudolosowych) Liczymy interesującą nas statystykę: 6
Opis metody Monte Carlo Powtarzamy losowanie B razy (zwykle 1000, 5000) i zapamiętujemy każdy wynik: Wyniki te stanowią próbę losową o wielkości B z rozkładu: ( B experiments, replications) 7
Zastosowania Monte Carlo Na podstawie próby możemy policzyć różne charakterystyki rozkładu statystyki. Na przykład: obciążenie (ang. bias) błąd średniokwadratowy wariancja rozkładu gdzie: 8
Zastosowania Monte Carlo Obliczenia błędu 1. rodzaju, np. dla ( ) dwustronnego testu t : Obliczamy Obliczenia kwantyla rozkładu : sortujemy próbę rosnąco kwantyl to liczba nr 9
Zastosowanie Monte Carlo Precyzja symulacji: We wcześniejszym przykładzie zmienna losowa ma rozkład Bernoulliego przyjmuje wartość 1 z prawdopodobieństwem: jest zatem niebciążonym estymatorem z odchyleniem standardowym Na przykład dla testu z 5% poziomem istotności Dla B =100, 1000, 5000 0,022 ; 0,007 ; 0,003 10
Przykład 1 Prosty model: Testujemy hipotezę: Statystyka testowa: Teraz testujemy równoważną hipotezę: 11
Przykład 1 Statystyka testowa ma rozkład: Przyjmijmy dla 12
Zastosowanie Monte Carlo Dla różnych r mamy różne wartości statystyki Walda, a powinny być identyczne, bo hipoteza H0 jest identyczna, a r wybrane arbitralnie. Przeanalizujmy symulacyjnie błąd 1. rodzaju: 50000 wylosowanych prób obserwacji o odpowiedniej długości, odchyleniu stand., parametrze i przy założeniu, że. 13
Zastosowanie Monte Carlo Najlepsze wyniki dla r = 1. 14
Przykład 2 Model: Testujemy hipotezę: Niech będą oszacowaniami MNK modelu, a wariancją oszacowań. 15
Przykład 2 Niech. Odchylenie standardowe to: gdzie: to wektor 16
Przykład 2 Statystyka testowa. Inny zapis hipotezy: Statystyka testowa: gdzie: 17
Zastosowanie Monte Carlo Niech i niezależne z rozkładu N(0,1) Załóżmy,, Generujemy 50000 prób i liczymy błędy 1. rodzaju: 18
Bootstrap Niech oznaczają obserwacje losowo wybrane z populacji Niech oznacza parametr, a niech będzie interesującą nas statystyką, Dystrybuanta statystyki oznaczona będzie jako: 19
Bootstrap Próbujemy przybliżać rozkład statystyki wykorzystując zgodne oszacowanie Rozkładem bootstrap nazywamy rozkład: Niech oznaczają obserwacje losowe wybrane z rozkładu 20
Bootstrap Statystyka ma rozkład, czyli (bootstrap statistic) Rozkład statystyki jest zmienną losową zależną od 21
Empiryczna dystrybuanta Rozkład: Analogicznie, zgodnie z metodą momentów: zgodny estymator nieparametryczny dla 22
Bootstrap Empiryczna dystrybuanta: nieparametryczna metoda bootstrap Funkcje obserwacji z próby: średnia z próby empirycznej 23
Opis metody bootstrrap Wielkość próby równa wielkości oryginalnej próby Losujemy niezależnie par z rozkładu empirycznego (ze zwracaniem) Liczymy interesującą nas statystykę: Liczba replikacji: B=1000 zwykle wystarcza (teoria: Andrews, Buchinsky 2000) 24
Bootstrap - zastosowania Obciążenie to. Niech, to Odpowiedniki bootstrapowe : Estymator: Bootstrapowe oszacowanie obciążenia: 25
Bootstrap - zastosowania Oszacowanie obciążenia można policzyć: Estymator z (oszacowaną) korektą obciążenia: można by, ale nieznane zatem 26
Bootstrap - zastosowania Niech. Wariancja Niech. Wariancja Oszacowanie z symulacji bootstrap: wariancja odchylenie standardowe 27
Bootstrap - zastosowania Przedziały ufności dla : Niech kwantyl z oryginalnego rozkładu, a kwantyl z rozkładu bootstrapowego Można policzyć przedział ufności dla sortując i wyliczając: Lepiej jednak posortować i wstawić kwantyle do: 28
Bootstrap w modelach regresji Model oryginalny: Symulowanie danych metodą bootstrap prowadzi do modelu: ale 29
Bootstrap w modelach regresji Rozwiązanie 1: niezależne i losujemy z EDF lub losujemy z rozkładu parametrycznego lub przyjmujemy stałe w replikacjach losujemy z reszt liczonych MNK lub losujemy z rozkładu parametrycznego np. 30
Bootstrap w modelach regresji Rozwiązanie 2: wild bootstrap konstruujemy taki rozkład, że: dla każdego symulujemy z rozkładu dwupunktowego 31
Metoda jackknife Umożliwia próbkowanie z oryginalnego, często nieznanego rozkładu wybieramy podpróby (m<n) z próby (n) zwykle w sposób deterministyczny Bootstrap - próbkowanie z rozkładu empirycznego 32
delete-1 jackknife Podpróby budujemy poprzez usunięcie 1 obsewacji (m=n-1) Nie losujemy podprób, wybieramy wszystkie n możliwych podprób Podpróba bez i-tej obserwacji: x(i) 33
delete-1 jackknife pojedyncza replikacja statystyki metodą jackknife: ˆ θi = s( x( i) ) i = 1,..., n Na przykład: replikacja średniej 1 nx x s = = ˆ θ = s( x) i ( x( i) ) x j = x( i) n 1 j i n 1 Wyliczenie końcowej statystyki wymaga wyliczenia wszystkich n replikacji 34
delete-1 jackknife Oszacowanie średniej metodą jacknife: n n 1 1 θˆ J = ˆ (1) θi = x( i) = n n Oszacowanie wariancji metodą jacknife v i= 1 i= 1 n 1 n 2 J ( 1) = ( ˆ θ J (1) ˆ θi ) n i= 1 Oszacowanie obciążenia estymatora ( ˆ θ ˆ θ ) B J ( 1) = ( n 1) J (1) x 35
Jackknife w modelu regresji Oszacowanie parametrów MNK ˆ 1 = β ( X ' X X ' Y Oszacowanie jacknife: ) w i-tej replikacji usuwamy parę xi, yi obliczamy pseudowartości p = n ˆ θ ( n 1) ˆ θ oszacowanie parametrów (zwykle większa wariancja niż MNK) n 1 θˆ = J (1) p i n i= 1 szacunek wariancji parametrów zwykle obciążony v J n 1 ( 1) = ( pi ˆ θ J (1) )( pi ˆ θ J (1) )' n( n 1) i= 1 i ( i) 36
Problem Metoda delete-1 jackknife nie nadaje się do wyliczania mediany, kwantyli, histogramu niezgodne i asymptotycznie obciążone oszacowania dla funkcji statystyk niedostatecznie gładkich (ang. smooth, gdzie małe zmiany w danych powodują duże zmiany w wartości statystyki) 37
delete-d jackknife Podpróby budujemy poprzez usunięcie d obsewacji (m=n-d) Wybieramy wszystkie możliwe podpróby J = n d = n! d!( n d)! Do wyliczania kwantyli, histogramu wybieramy n < d < n 38
delete-d jackknife Oszacowanie średniej metodą jacknife: Oszacowanie wariancji metodą jacknife v J 1 θˆ = ˆ θ J ( d ) m J i= 1 J 2 J ( d ) = ( ˆ θ J ( d ) ˆ θi ) dj i= 1 i 39
delete-d jackknife Możliwość zmniejszenia liczby replikacji balanced subsampling : m<<j 1. Każdy i występuje w tej samej liczbie f podprób 2. Każda para (i,j), i<j, występuje razem w tej samej liczbie podprób ewentualnie (ale gorsze własności) grouped jacknife : n=gh (h rozmiar grupy usuniętej z próby w i-tej replikacji, g liczba grup) v g 1 J 2 J ( d ) = ( ˆ θ i ˆ θi ) g i= 1 40