Monte Carlo, bootstrap, jacknife

Podobne dokumenty
Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

STATYSTYKA MATEMATYCZNA

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Niech X i Y będą niezależnymi zmiennymi losowymi o rozkładach wykładniczych, przy czym Y EX = 4 i EY = 6. Rozważamy zmienną losową Z =.

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Własności statystyczne regresji liniowej. Wykład 4

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

METODY STATYSTYCZNE W BIOLOGII

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

DOKŁADNA METODA BOOTSTRAPOWA NA PRZYKŁADZIE ESTYMACJI ŚREDNIEJ

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

R ozkład norm alny Bardzo często używany do modelowania symetrycznych rozkładów zmiennych losowych ciągłych

Kolokwium ze statystyki matematycznej

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

NOWY PROGRAM STUDIÓW 2016/2017 SYLABUS PRZEDMIOTU AUTORSKIEGO: Wprowadzenie do teorii ekonometrii. Część A

Metody bootstrapowe w statystyce

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Weryfikacja hipotez statystycznych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wnioskowanie statystyczne. Statystyka w 5

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Spis treści 3 SPIS TREŚCI

Prawdopodobieństwo i statystyka r.

Testowanie hipotez statystycznych.

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Metody Statystyczne. Metody Statystyczne.

Testowanie hipotez statystycznych.

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Statystyka matematyczna dla leśników

STATYSTYKA MATEMATYCZNA

Rozkłady statystyk z próby

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Testowanie hipotez statystycznych

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez statystycznych.

Natalia Neherbecka. 11 czerwca 2010

STATYSTYKA

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Wykład 9 Testy rangowe w problemie dwóch prób

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

Testowanie hipotez statystycznych.

Wykład 9 Wnioskowanie o średnich

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Prawdopodobieństwo i statystyka

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Hipotezy statystyczne

Statystyka w przykładach

Hipotezy statystyczne

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Przedziały ufności. Poziom istotności = α (zwykle 0.05) Poziom ufności = 1 α Przedział ufności dla parametru μ = taki przedział [a,b], dla którego

Sterowanie wielkością zamówienia w Excelu - cz. 3

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Inżynieria Środowiska. II stopień ogólnoakademicki. przedmiot podstawowy obowiązkowy polski drugi. semestr zimowy

BIOINFORMATYKA. Copyright 2011, Joanna Szyda

Pobieranie prób i rozkład z próby

Statystyka matematyczna i ekonometria

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Testowanie hipotez statystycznych

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Zaliczenie. Ćwiczenia (zaliczenie = min. 15 punktów)

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

ZMIENNE LOSOWE. Zmienna losowa (ZL) X( ) jest funkcją przekształcającą przestrzeń zdarzeń elementarnych w zbiór liczb rzeczywistych R 1 tzn. X: R 1.

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Testowanie hipotez statystycznych

TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Definicja 1 Statystyką nazywamy (mierzalną) funkcję obserwowalnego wektora losowego

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

166 Wstęp do statystyki matematycznej

Wykład 10 Testy jednorodności rozkładów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Estymacja punktowa i przedziałowa

Testowanie hipotez statystycznych

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Ekonometryczne modele nieliniowe

Testowanie hipotez statystycznych

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

PDF created with FinePrint pdffactory Pro trial version

Wykorzystanie metod bootstrapowych do oceny siły zależności korelacyjnych

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

ROZKŁADY WYBRANYCH BOOTSTRAPOWYCH ESTYMATORÓW MEDIANY ORAZ ZASTOSOWANIE DOKŁADNEJ METODY PERCENTYLI DO JEJ PRZEDZIAŁOWEGO SZACOWANIA

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Transkrypt:

Monte Carlo, bootstrap, jacknife

Literatura Bruce Hansen (2012 +) Econometrics, ze strony internetowej: http://www.ssc.wisc.edu/~bhansen/econometrics/ Monte Carlo: rozdział 8.8, 8.9 Bootstrap: rozdział 10 Slajdy 4-31 wykorzystują materiały z tego podręcznika 2

Literatura B. Efron (1979) Bootstrap methods: another look at the jackknife, Annals of Statistics 7, 1-26. C.F.J.Wu (1986) Jackknife, bootstrap and other resampling methods in regression analysis, Annals of Statistics 14, 1261-1295. J.Shao, C.F.J.Wu (1989) A general theory for jackknife variance estimation, Annals of Statistics 17, 1176-1197. C.F.J.Wu (1990) On the asymptotic properties of the jacknife histogram, Annals of Statistics 18, 1438-1452. 3

Monte Carlo Niech oznaczają obserwacje losowo wybrane z populacji Niech oznacza parametr, a niech będzie interesującą nas statystyką, np. estymatorem lub statystyką t: 4

Monte Carlo Dystrybuanta statystyki oznaczona będzie jako: Często rozkład statystyki nie jest znany w skończonych próbach. Metoda Monte Carlo symuluje numerycznie prawdziwy rozkład statystyki dla wybranych (w skończonych próbach, dla wybranych przypadków) 5

Opis metody Monte Carlo Wybieramy rozkład i wielkość próby rozkład określa lub jest bezpośrednio ustalony Losujemy niezależnie par z rozkładu (stosując generator liczb pseudolosowych) Liczymy interesującą nas statystykę: 6

Opis metody Monte Carlo Powtarzamy losowanie B razy (zwykle 1000, 5000) i zapamiętujemy każdy wynik: Wyniki te stanowią próbę losową o wielkości B z rozkładu: ( B experiments, replications) 7

Zastosowania Monte Carlo Na podstawie próby możemy policzyć różne charakterystyki rozkładu statystyki. Na przykład: obciążenie (ang. bias) błąd średniokwadratowy wariancja rozkładu gdzie: 8

Zastosowania Monte Carlo Obliczenia błędu 1. rodzaju, np. dla ( ) dwustronnego testu t : Obliczamy Obliczenia kwantyla rozkładu : sortujemy próbę rosnąco kwantyl to liczba nr 9

Zastosowanie Monte Carlo Precyzja symulacji: We wcześniejszym przykładzie zmienna losowa ma rozkład Bernoulliego przyjmuje wartość 1 z prawdopodobieństwem: jest zatem niebciążonym estymatorem z odchyleniem standardowym Na przykład dla testu z 5% poziomem istotności Dla B =100, 1000, 5000 0,022 ; 0,007 ; 0,003 10

Przykład 1 Prosty model: Testujemy hipotezę: Statystyka testowa: Teraz testujemy równoważną hipotezę: 11

Przykład 1 Statystyka testowa ma rozkład: Przyjmijmy dla 12

Zastosowanie Monte Carlo Dla różnych r mamy różne wartości statystyki Walda, a powinny być identyczne, bo hipoteza H0 jest identyczna, a r wybrane arbitralnie. Przeanalizujmy symulacyjnie błąd 1. rodzaju: 50000 wylosowanych prób obserwacji o odpowiedniej długości, odchyleniu stand., parametrze i przy założeniu, że. 13

Zastosowanie Monte Carlo Najlepsze wyniki dla r = 1. 14

Przykład 2 Model: Testujemy hipotezę: Niech będą oszacowaniami MNK modelu, a wariancją oszacowań. 15

Przykład 2 Niech. Odchylenie standardowe to: gdzie: to wektor 16

Przykład 2 Statystyka testowa. Inny zapis hipotezy: Statystyka testowa: gdzie: 17

Zastosowanie Monte Carlo Niech i niezależne z rozkładu N(0,1) Załóżmy,, Generujemy 50000 prób i liczymy błędy 1. rodzaju: 18

Bootstrap Niech oznaczają obserwacje losowo wybrane z populacji Niech oznacza parametr, a niech będzie interesującą nas statystyką, Dystrybuanta statystyki oznaczona będzie jako: 19

Bootstrap Próbujemy przybliżać rozkład statystyki wykorzystując zgodne oszacowanie Rozkładem bootstrap nazywamy rozkład: Niech oznaczają obserwacje losowe wybrane z rozkładu 20

Bootstrap Statystyka ma rozkład, czyli (bootstrap statistic) Rozkład statystyki jest zmienną losową zależną od 21

Empiryczna dystrybuanta Rozkład: Analogicznie, zgodnie z metodą momentów: zgodny estymator nieparametryczny dla 22

Bootstrap Empiryczna dystrybuanta: nieparametryczna metoda bootstrap Funkcje obserwacji z próby: średnia z próby empirycznej 23

Opis metody bootstrrap Wielkość próby równa wielkości oryginalnej próby Losujemy niezależnie par z rozkładu empirycznego (ze zwracaniem) Liczymy interesującą nas statystykę: Liczba replikacji: B=1000 zwykle wystarcza (teoria: Andrews, Buchinsky 2000) 24

Bootstrap - zastosowania Obciążenie to. Niech, to Odpowiedniki bootstrapowe : Estymator: Bootstrapowe oszacowanie obciążenia: 25

Bootstrap - zastosowania Oszacowanie obciążenia można policzyć: Estymator z (oszacowaną) korektą obciążenia: można by, ale nieznane zatem 26

Bootstrap - zastosowania Niech. Wariancja Niech. Wariancja Oszacowanie z symulacji bootstrap: wariancja odchylenie standardowe 27

Bootstrap - zastosowania Przedziały ufności dla : Niech kwantyl z oryginalnego rozkładu, a kwantyl z rozkładu bootstrapowego Można policzyć przedział ufności dla sortując i wyliczając: Lepiej jednak posortować i wstawić kwantyle do: 28

Bootstrap w modelach regresji Model oryginalny: Symulowanie danych metodą bootstrap prowadzi do modelu: ale 29

Bootstrap w modelach regresji Rozwiązanie 1: niezależne i losujemy z EDF lub losujemy z rozkładu parametrycznego lub przyjmujemy stałe w replikacjach losujemy z reszt liczonych MNK lub losujemy z rozkładu parametrycznego np. 30

Bootstrap w modelach regresji Rozwiązanie 2: wild bootstrap konstruujemy taki rozkład, że: dla każdego symulujemy z rozkładu dwupunktowego 31

Metoda jackknife Umożliwia próbkowanie z oryginalnego, często nieznanego rozkładu wybieramy podpróby (m<n) z próby (n) zwykle w sposób deterministyczny Bootstrap - próbkowanie z rozkładu empirycznego 32

delete-1 jackknife Podpróby budujemy poprzez usunięcie 1 obsewacji (m=n-1) Nie losujemy podprób, wybieramy wszystkie n możliwych podprób Podpróba bez i-tej obserwacji: x(i) 33

delete-1 jackknife pojedyncza replikacja statystyki metodą jackknife: ˆ θi = s( x( i) ) i = 1,..., n Na przykład: replikacja średniej 1 nx x s = = ˆ θ = s( x) i ( x( i) ) x j = x( i) n 1 j i n 1 Wyliczenie końcowej statystyki wymaga wyliczenia wszystkich n replikacji 34

delete-1 jackknife Oszacowanie średniej metodą jacknife: n n 1 1 θˆ J = ˆ (1) θi = x( i) = n n Oszacowanie wariancji metodą jacknife v i= 1 i= 1 n 1 n 2 J ( 1) = ( ˆ θ J (1) ˆ θi ) n i= 1 Oszacowanie obciążenia estymatora ( ˆ θ ˆ θ ) B J ( 1) = ( n 1) J (1) x 35

Jackknife w modelu regresji Oszacowanie parametrów MNK ˆ 1 = β ( X ' X X ' Y Oszacowanie jacknife: ) w i-tej replikacji usuwamy parę xi, yi obliczamy pseudowartości p = n ˆ θ ( n 1) ˆ θ oszacowanie parametrów (zwykle większa wariancja niż MNK) n 1 θˆ = J (1) p i n i= 1 szacunek wariancji parametrów zwykle obciążony v J n 1 ( 1) = ( pi ˆ θ J (1) )( pi ˆ θ J (1) )' n( n 1) i= 1 i ( i) 36

Problem Metoda delete-1 jackknife nie nadaje się do wyliczania mediany, kwantyli, histogramu niezgodne i asymptotycznie obciążone oszacowania dla funkcji statystyk niedostatecznie gładkich (ang. smooth, gdzie małe zmiany w danych powodują duże zmiany w wartości statystyki) 37

delete-d jackknife Podpróby budujemy poprzez usunięcie d obsewacji (m=n-d) Wybieramy wszystkie możliwe podpróby J = n d = n! d!( n d)! Do wyliczania kwantyli, histogramu wybieramy n < d < n 38

delete-d jackknife Oszacowanie średniej metodą jacknife: Oszacowanie wariancji metodą jacknife v J 1 θˆ = ˆ θ J ( d ) m J i= 1 J 2 J ( d ) = ( ˆ θ J ( d ) ˆ θi ) dj i= 1 i 39

delete-d jackknife Możliwość zmniejszenia liczby replikacji balanced subsampling : m<<j 1. Każdy i występuje w tej samej liczbie f podprób 2. Każda para (i,j), i<j, występuje razem w tej samej liczbie podprób ewentualnie (ale gorsze własności) grouped jacknife : n=gh (h rozmiar grupy usuniętej z próby w i-tej replikacji, g liczba grup) v g 1 J 2 J ( d ) = ( ˆ θ i ˆ θi ) g i= 1 40