Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Podobne dokumenty
Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Monte Carlo, bootstrap, jacknife

Wykład 8 Dane kategoryczne

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Metoda najmniejszych kwadratów

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

Wykład 12 Testowanie hipotez dla współczynnika korelacji

Wykład 5 Teoria eksperymentu

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Statystyka matematyczna i ekonometria

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

STATYSTYKA MATEMATYCZNA

WYKŁAD 8 TESTOWANIE HIPOTEZ STATYSTYCZNYCH

Wykład 3 Testowanie hipotez statystycznych o wartości średniej. średniej i wariancji z populacji o rozkładzie normalnym

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

WYKŁAD 8 ANALIZA REGRESJI

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

Wstęp do probabilistyki i statystyki. Wykład 4. Statystyki i estymacja parametrów

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Wykład 7 Testowanie zgodności z rozkładem normalnym

Statystyczna analiza danych 1

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

Własności statystyczne regresji liniowej. Wykład 4

Metody Ekonometryczne

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Testowanie hipotez statystycznych

Weryfikacja hipotez statystycznych

STATYSTYKA

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Hipotezy statystyczne

Hipotezy statystyczne

VII WYKŁAD STATYSTYKA. 30/04/2014 B8 sala 0.10B Godz. 15:15

STATYSTYKA MAŁYCH OBSZARÓW IV. EMPIRYCZNY NAJLEPSZY PREDYKTOR

Statystyka Matematyczna Anna Janicka

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Rozdział 8. Regresja. Definiowanie modelu

Statystyczna analiza danych (molekularnych) analiza wariancji ANOVA

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

166 Wstęp do statystyki matematycznej

Stanisław Cichocki. Natalia Nehrebecka

1.9 Czasowy wymiar danych

Statystyka matematyczna Testowanie hipotez dla średnich w rozkładzie normalnym. Wrocław, r

Czasowy wymiar danych

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Natalia Neherbecka. 11 czerwca 2010

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez statystycznych. Wprowadzenie

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Stosowana Analiza Regresji

Wprowadzenie do analizy korelacji i regresji

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Statystyka matematyczna dla leśników

METODY STATYSTYCZNE W BIOLOGII

Regresja liniowa wprowadzenie

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Problem dwóch prób: porównywanie średnich i wariancji z populacji o rozkładach normalnych. Wrocław, 23 marca 2015

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński

Estymacja parametrów w modelu normalnym

Testowanie hipotez dla frakcji. Wrocław, 29 marca 2017

Statystyka matematyczna i ekonometria

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Wykład 10 Skalowanie wielowymiarowe

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Analiza niepewności pomiarów

Testowanie hipotez statystycznych.

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Testowanie hipotez statystycznych

Statystyczna analiza danych

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Metody Statystyczne. Metody Statystyczne.

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Testowanie hipotez statystycznych

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

WYKŁAD 5 TEORIA ESTYMACJI II

Metody bootstrapowe w statystyce

STATYSTYKA MATEMATYCZNA

Testowanie hipotez statystycznych.

Wykład 9 Testy rangowe w problemie dwóch prób

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Transkrypt:

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów regresji z wykorzystaniem metody bootstrap. Wrocław, 22.03.2017r

Wybór najlepszej procedury - podsumowanie

Co nas interesuje przed przeprowadzeniem procedury testowania: moc testu odporność testu wpływ brakujących danych wpływ obserwacji odstających

Błędy w testowaniu hipotez Definicja Błędem I rodzaju nazywamy błędne odrzucenie hipotezy H 0, gdy jest ona prawdziwa. Definicja Błędem II rodzaju podjęcie decyzji o nieodrzuceniu hipotezy H 0, gdy jest ona fałszywa. Który błąd groźniejszy w skutkach?

Moc testu Moc testu - prawdopodobieństwo nie popełnienia błędu II rodzaju. Moc testu zależy od: 1 rzeczywistej wielkości efektu 2 zmienności w populacji 3 poziomu istotności 4 rozmiaru próby 5 metod użytych do testowania

Jakiego testu użyć? 1 Typ danych: porządkowe (metryczne, kategoryczne) 2 Założenia: 1 procedury bootstrapowe: 1 przy prawdziwości hipotezy zerowej wszystkie obserwacje z próby pochodzą z populacji z tym samym parametrem 2 obserwacje wzajemnie niezależne 2 testy permutacyjne - prawie brak założeń 1 przy prawdziwości hipotezy zerowej wszystkie obserwacje są wymienialne (ang.exchangeable), tj. niezależne jednakowo rozłożone, uzyskane w efekcie losowania bez powtórzeń z tej samej skończonej populacji 3 procedury parametryczne: 1 wszystkie obserwacje niezależne jednakowo rozłożone 2 określony rozkład

Estymacja parametrów regresji z wykorzystaniem metody bootstrap

Modele liniowe Modelem liniowym nazywamy taki model statystyczny, w którym obserwacje Y 1, Y 2,... Y n są postaci Y i = X i,1 β 1 + X i,2 β 2 +... + X i,k β k + ɛ i, i = 1, 2,..., n, gdzie x i,j są znanymi wielkościami, ɛ i są błędami losowymi, a (β 1, β 2,..., β n ) jest wektorem nieznanych parametrów.

Model liniowy Gaussa - Markowa Y = (Y 1, Y 2,..., Y n ) Y = Xβ + ɛ, gdzie E(ɛ) = 0, Cov(ɛ) = σ 2 I, X - znana macierz nxm β = (β 1, β 2,..., β m ), σ - nieznane parametry. Pojedyncza zmienna objaśniana jest postaci: Y i = X i1 β 1 + X i2 β 2 + + X im β m + ɛ i, i = 1, 2..., n.

Model liniowy - estymacja parametrów Metody estymacji współczynników modelu: 1 Metoda najmniejszych kwadratów (ang. ordinary-least-squares (OLS)): Polega na minimalizacji wyrażenia: n (Y i X i1 β 1 + X i2 β 2 + + X in β m ) 2 i=1 2 Metoda najmniejszego całkowitego odchylenia (ang. east-absolute-deviation (LAD)): Polega na minimalizacji wyrażenia: n Y i X i1 β 1 + X i2 β 2 + + X in β m i=1

Model liniowy - estymacja parametrów Pojedynczą zmienną losową można zapisać jako: Y i = f (X i, β) + ɛ i, i = 1, 2..., n. Zakładamy, że błędy losowe ɛ i F, i = 1, 2,..., n. Nieznany wektor parametrów β szacujemy przez ˆβ, korzystając z metody najmniejsztch kwadratów. Błędy losowe szacujemy przez: ˆɛ i = Y i f (X i, ˆβ) i = 1, 2..., n.,

Model liniowy - estymacja parametrów Definiujemy rozkład P(Z = ˆɛ i ) = 1 n i = 1, 2..., n., Według tego rozkładu generujemy próbę (ˆɛ 1, ˆɛ 2,..., ˆɛ n), dla których wyznaczamy wartości zmiennych losowych: Y i = f (X i, ˆβ) + ɛ i, i = 1, 2..., n. Wyznaczamy wektory ˆβ - estymatory wektora parametrów β korzystając z metody najmniejszych kwadratów dla modelu Y i = f (X i, β) + ɛ i, i = 1, 2..., n. Procedurę powtarzamy B-razy, otrzymując ciąg estymatorów ˆβ 1, ˆβ 2,..., ˆβ B, który określa bootstrapowy rozkład estymatora metody najmniejszych kwadratów parametru β.

Model liniowy - estymacja parametrów Niech ˆβ oznacza estymator bootstrapowy parametru β, wówczas: cov( ˆβ ) = 1 n n i=1 E( ˆβ ) = ˆβ [ Y i f (X i, ˆβ) ] 2 (X X ) 1

Przykład 4.1 Guests 289 391 482 358 365 561 339 479 500 160 319 331 Meals 235 355 475 275 345 522 315 399 441 158 305 225 Meals 200 300 400 500 200 300 400 500 Guests

Przykład 4.1 - c.d. Guests <-c (289,391,482,358,365,561,339,479,500,160,319,331) Meals <-c (235,355,475,275,345,522,315,399,441,158,305,225) data <-as. data. frame ( cbind ( Meals, Gueasts )) library ( boot ) # funkcja do wyznaczania współczynników regresji bootreg <- function ( formula, data, ind ){ d <- data [ ind,] # allows boot to select sample f <-lm(formula, data =d) return ( coef (f)) } # bootstrap z 500 powtórzeń results <- boot ( data =data, statistic = bootreg, R =500, formula = Meals ~ Guests )

Przykład 4.1 - c.d. ORDINARY NONPARAMETRIC BOOTSTRAP Call: boot(data = data, statistic = bootreg, R = 1000, formula = Meals~Guests) Bootstrap Statistics : original bias std. error t1* -20.5500137-6.55244193 39.97996692 t2* 0.9393529 0.01410571 0.09815506

Histogram of t Density 0.000 0.004 0.008 0.012 t* 150 50 0 50 100 200 100 0 100 t* 3 2 1 0 1 2 3 Quantiles of Standard Normal Histogram of t Density 0 1 2 3 4 5 t* 0.6 0.8 1.0 1.2 0.6 0.8 1.0 1.2 1.4 3 2 1 0 1 2 3 t* Quantiles of Standard Normal

boot.ci(results, index =1) BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS Based on 400 bootstrap replicates CALL : boot.ci(boot.out = results, index = 1) Intervals : Level Normal Basic 95% (-95.63, 59.91 ) (-75.82, 81.42 ) Level Percentile BCa 95% (-122.52, 34.72 ) (-139.57, 28.34 )

boot.ci(results, index =2) BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS Based on 400 bootstrap replicates CALL : boot.ci(boot.out = results, index = 2) Intervals : Level Normal Basic 95% (0.7461, 1.1249) (0.6905, 1.0909) Level Percentile BCa 95% (0.7878, 1.1882) (0.7939, 1.2008)

# obtain LAD regression coefficients and test slope to see if greater than zero library (" quantreg ") Guests <-c (289,391,482,358,365,561,339,479,500,160,319,331) Meals <-c (235,355,475,275,345,522,315,399,441,158,305,225) N <-500 f <- coef (rq( formula = Meals ~ Guests )) names (f) <- NULL stat0 <-f [2] cnt <-0 for (i in 1:N){ guestp = sample ( Guests ) fp <- coef (rq( formula = Meals ~ guestp )) names (fp) <- NULL if (fp [2] >= stat0 ) cnt <-cnt +1 } f cnt /N

# otrzymujemy bootstrapowe przedziały ufności dla współczynników regresji wyznaczonych metodą LAD library (" quantreg ") Guests <-c (289,391,482,358,365,561,339,479,500,160,319,331) Meals <-c (235,355,475,275,345,522,315,399,441,158,305,225) n <- length ( Guests ) data <- cbind ( Guests, Meals ) # ustalamy liczbę prób bootstrapowych na 500 N <-500 stat <- numeric ( N) # tworzymy wektor wyników for (i in 1:N){ ind <- sample (n,n, replace =T) guestp <- data [ind,] fp <- coef (rq( formula = Meals ~ guestp )) stat [i] <-fp [2] } quantile (stat, prob =c (0.05,0.95) )

Polecane literatura: A.C. Davison, D.V. Hinkley Bootstrap Methods and their Application, 1997, University Press, Cambridge, U.K. P.I. Good, Resampling Methods. A Practical Guide to Data Analysis, 2005 E.L. Lehmann,Teoria estymacji punktowej, PWN Warszawa 1991