Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

Podobne dokumenty
Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Testowanie hipotez statystycznych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 10

Egzamin z ekonometrii wersja IiE, MSEMAT

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Budowa modelu i testowanie hipotez

Ekonometria egzamin 02/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Natalia Nehrebecka Stanisław Cichocki. Wykład 6

Stanisław Cichocki. Natalia Nehrebecka. Wykład 14

Metoda najmniejszych kwadratów

Ekonometria Ćwiczenia 19/01/05

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

Wprowadzenie Testy własności składnika losowego. Diagnostyka modelu. Część 1. Diagnostyka modelu

Stanisław Cichocki Natalia Nehrebecka. Wykład 1

Egzamin z ekonometrii - wersja ogólna

Diagnostyka w Pakiecie Stata

Egzamin z ekonometrii wersja ogolna

Egzamin z ekonometrii wersja IiE, MSEMAT

Diagnostyka w Pakiecie Stata

Testy własności składnika losowego Testy formy funkcyjnej. Diagnostyka modelu. Część 2. Diagnostyka modelu

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

Ekonometria. Metodologia budowy modelu. Jerzy Mycielski. Luty, 2011 WNE, UW. Jerzy Mycielski (WNE, UW) Ekonometria Luty, / 18

Ekonometria egzamin 07/03/2018

Stanisław Cichocki. Natalia Nehrebecka. Wykład 4

Egzamin z ekonometrii wersja IiE, MSEMat Pytania teoretyczne

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Egzamin z ekonometrii wersja IiE, MSEMAT

1 Modele ADL - interpretacja współczynników

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Własności statystyczne regresji liniowej. Wykład 4

Przyczynowość Kointegracja. Kointegracja. Kointegracja

Czasowy wymiar danych

Ekonometria egzamin wersja Informatyka i Ekonometria 26/06/08

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Stanisław Cichocki. Natalia Nehrebecka. Wykład 13

, a reszta dla pominiętej obserwacji wynosi 0, RSS jest stałe, T SS rośnie, więc zarówno R 2 jak i R2 rosną. R 2 = 1 n 1 n. rosnie. n 2 (1 R2 ) = 1 59

Ekonometria egzamin wersja ogólna 17/06/08

Stanisław Cichocki. Natalia Nehrebecka

Statystyka matematyczna dla leśników

Powtórzenie wiadomości z rachunku prawdopodobieństwa i statystyki.

Ekonometria egzamin 01/02/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Ekonometria egzamin 31/01/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Ekonometria dla IiE i MSEMat Z12

Weryfikacja hipotez statystycznych

Stanisław Cichocki. Natalia Nehrebecka

Rozdział 8. Regresja. Definiowanie modelu

Egzamin z ekonometrii wersja ogólna Pytania teoretyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Ekonometria egzamin 06/03/ W trakcie egzaminu wolno używać jedynie długopisu o innym kolorze atramentu niż czerwony oraz kalkulatora.

Zmienne sztuczne i jakościowe

1.9 Czasowy wymiar danych

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Heteroscedastyczność. Zjawisko heteroscedastyczności Uogólniona Metoda Najmniejszych Kwadratów Stosowalna Metoda Najmniejszych Kwadratów

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Problem równoczesności w MNK

Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Wprowadzenie Modele o opóźnieniach rozłożonych Modele autoregresyjne o opóźnieniach rozłożonych. Modele dynamiczne.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Ekonometria. Zajęcia

Autokorelacja i heteroskedastyczność

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

1.8 Diagnostyka modelu

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

STATYSTYKA I DOŚWIADCZALNICTWO. Wykład 2

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Wykład 3 Hipotezy statystyczne

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Testowanie hipotez statystycznych.

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Kolokwium ze statystyki matematycznej

Wydział Matematyki. Testy zgodności. Wykład 03

1.7 Ograniczenia nakładane na równanie regresji

Testy post-hoc. Wrocław, 6 czerwca 2016

Testowanie hipotez statystycznych.

Statystyka matematyczna. Wykład VI. Zesty zgodności

Stanisław Cichocki. Natalia Neherbecka. Zajęcia 13

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

1.3 Własności statystyczne estymatorów MNK

Transkrypt:

Stanisław Cichocki Natalia Nehrebecka Wykład 9 1

1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności 4. Testowanie hipotez łącznych

1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności 4. Testowanie hipotez łącznych

Y ~ N( 0, 2 I) Reszty mają rozkład normalny z wartością oczekiwaną znajdującą się na linii regresji. X

1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności 4. Testowanie hipotez łącznych

Badamy czy hipotezy teoretyczne (wynikające z teorii) znajdują potwierdzenie w danych Hipotezy narzucają pewne ograniczenia na wartości parametrów Oszacowania parametrów powinny spełniać te ograniczenia w przybliżeniu Jeśli oszacowania parametrów odbiegają od postulowanych związków wynikających z teorii to odrzucamy hipotezę jako sprzeczną z danymi Uwzględnienie w modelu wiedzy z hipotezy prawdziwej poprawia precyzję oszacowań Uwzględnienie w modelu wiedzy z hipotezy fałszywej prowadzi do obciążenia estymatora Do testowania hipotez wykorzystujemy testy statystyczne

Rozkład estymatora b: b ~ N(, 2 ( X ' X ) 1 ) Rozkład pojedynczego elementu tego wektora b k : b k ~ N(,[ ] k b kk )

b k Korzystając z rozkładu : b k k k k [ ] b kk b se( b ) k N(0,1) Tej statystyki nie da się policzyć ponieważ macierz jest nieznana Oszacowaniem tej macierzy jest b ale zastosowanie jej w powyższym wzorze wpłynie na rozkład statystyki b Tak zmodyfikowana statystyka (będziemy ją nazywać t) będzie miała rozkład t-studenta

Hipoteza prosta: dotyczy pojedynczego parametru modelu albo kombinacji liniowej parametrów * Załóżmy, że H0: k k, spełnione są założenia KMRL, błąd losowy ma rozkład normalny i H0 jest prawdziwa, wtedy t b k * k se( b ) k t NK

Najczęściej testujemy H0: przy hipotezie alternatywnej H1: stosując dwustronny obszar krytyczny Możliwe także jest testowanie H0: przy hipotezie alternatywnej H1: lub H1: używając jednostronnych obszarów krytycznych * k k * k k * k k * k k * k k

Testowanie prostych hipotez przebiega w następujących krokach: Dla modelu: y i X... którego oszacowaniem jest: 1 Krok 1. Stawiamy tak zwaną hipotezę zerową co do wartości nieznanego parametru K Hipotezie tej towarzyszy hipoteza alternatywna: 2 2i ˆi b1 b2 X 2i y H0 : K 0 (zmienna XKi jest nieistotna) H1 : K 0 (zmienna XKi jest istotna) K... b X K Ki X Ki i

Krok 2. Przy założeniu, że postawiona hipoteza zerowa jest prawdziwa, wyznaczamy statystykę testową z rozkładu t - Studenta o N - K stopniach swobody postaci: t b K se( b ) K Gdzie: ( ) se b K - oszacowanie odchylenia standardowego estymatora b K

Krok 3. Odczytujemy z tablic rozkładu t-studenta wartość krytyczną (α - poziom istotności 1) ) t* t N K;1 2 Stopni swobody Rząd kwantyla 1) maksymalne dopuszczalne prawdopodobieństwo popełnienia błędu polegającego na odrzuceniu prawdziwej hipotezy zerowej

Krok 4. Podjęcie decyzji 0. 8 0. 7 0. 6 0. 5 0. 4 0. 3 0. 2 0. 1 0. 0.025.025 -statystyka krytyczna.95 statystyka krytyczna Obszar Odrzucenia Obszar Nieodrzucenia Obszar Odrzucenia t t * - odrzucamy hipotezę zerowa, czyli zmienna X Ki jest istotna. t < t * - nie ma podstaw do odrzucenia hipotezy zerowej, czyli zmienna X Ki jest nieistotna.

Przykład xi: reg wynagrodzenie i.plec i.wyksztalcenie godziny wiek szara dorywcza Source SS df MS Number of obs = 26352 -------------+------------------------------ F( 9, 26342) = 66.80 Model 3.7557e+11 9 4.1730e+10 Prob > F = 0.0000 Residual 1.6457e+13 26342 624728699 R-squared = 0.0223 -------------+------------------------------ Adj R-squared = 0.0220 Total 1.6832e+13 26351 638768004 Root MSE = 24995 ------------------------------------------------------------------------------ wynagrodze~e Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- _Iplec_1-1795.469 325.0304-5.52 0.000-2432.546-1158.391 _Iwyksztal~2-4386.364 683.3584-6.42 0.000-5725.783-3046.944 _Iwyksztal~3-5950.806 557.4312-10.68 0.000-7043.401-4858.211 _Iwyksztal~4-8167.496 538.4532-15.17 0.000-9222.893-7112.099 _Iwyksztal~5-9698.71 578.6504-16.76 0.000-10832.9-8564.524 godziny -.3193543 14.63862-0.02 0.983-29.01183 28.37312 wiek -95.59548 13.53115-7.06 0.000-122.1173-69.0737 _Iszara_1 11363.98 1571.524 7.23 0.000 8283.71 14444.25 dorywcza -8008.054 742.8795-10.78 0.000-9464.138-6551.97 _cons 18979.6 974.8196 19.47 0.000 17068.9 20890.3

W popularnych pakietach ekonometrycznych obok wyliczonej wartości statystyki t podawane jest również odpowiadające mu prawdopodobieństwo p, że. Oznaczane ono jest z angielskiego k 0 przez p value. W przypadku hipotez dwustronnych: p * 2[1 F( k )] gdzie: F- dystrybuanta rozkładu, k* - wartość statystyki testowej W przypadku hipotez jednostronnych: p * 1 F( k ) gdzie: F- dystrybuanta rozkładu, k* - wartość statystyki testowej

Jeśli p-value < α (poziomu istotności), to odrzucamy hipotezę zerową. Jeśli p-value > α (poziomu istotności), to brak podstaw do odrzucenia hipotezy zerowej.

Przykład xi: reg wynagrodzenie i.plec i.wyksztalcenie godziny wiek szara dorywcza Source SS df MS Number of obs = 26352 -------------+------------------------------ F( 9, 26342) = 66.80 Model 3.7557e+11 9 4.1730e+10 Prob > F = 0.0000 Residual 1.6457e+13 26342 624728699 R-squared = 0.0223 -------------+------------------------------ Adj R-squared = 0.0220 Total 1.6832e+13 26351 638768004 Root MSE = 24995 ------------------------------------------------------------------------------ wynagrodze~e Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- _Iplec_1-1795.469 325.0304-5.52 0.000-2432.546-1158.391 _Iwyksztal~2-4386.364 683.3584-6.42 0.000-5725.783-3046.944 _Iwyksztal~3-5950.806 557.4312-10.68 0.000-7043.401-4858.211 _Iwyksztal~4-8167.496 538.4532-15.17 0.000-9222.893-7112.099 _Iwyksztal~5-9698.71 578.6504-16.76 0.000-10832.9-8564.524 godziny -.3193543 14.63862-0.02 0.983-29.01183 28.37312 wiek -95.59548 13.53115-7.06 0.000-122.1173-69.0737 _Iszara_1 11363.98 1571.524 7.23 0.000 8283.71 14444.25 dorywcza -8008.054 742.8795-10.78 0.000-9464.138-6551.97 _cons 18979.6 974.8196 19.47 0.000 17068.9 20890.3

1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności 4. Testowanie hipotez łącznych

Jaki jest przedział, w którym z określonym prawdopodobieństwem znajdzie się nieznana wartość parametru K. Odpowiedź na to pytanie uzyskamy wyznaczając tak zwany przedział ufności. Przedział ufności pozwala na sprawdzenie precyzji oszacowań Przedział ufności dla nieznanego parametru K na poziomie ufności 1 α budujemy w oparciu o wzór: b Pr( t t ) Pr t 1 2[1 F ( t )] 1 k k tnk 1 1 1 2 se( b ) 2 2 k

Na podstawie ostatniego równania znajdujemy: Przedział ufności uzyskujemy: t 2 1 F t (1 ) 1 N K 2 bk Pr k t Pr( bk k t1 2se( bk )) 1 se( b ) 2 k Pr( b t se( b ) b t se( b )) K 1 2 K K K 1 2 K

Przykład xi: reg wynagrodzenie i.plec i.wyksztalcenie godziny wiek szara dorywcza Source SS df MS Number of obs = 26352 -------------+------------------------------ F( 9, 26342) = 66.80 Model 3.7557e+11 9 4.1730e+10 Prob > F = 0.0000 Residual 1.6457e+13 26342 624728699 R-squared = 0.0223 -------------+------------------------------ Adj R-squared = 0.0220 Total 1.6832e+13 26351 638768004 Root MSE = 24995 ------------------------------------------------------------------------------ wynagrodze~e Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- _Iplec_1-1795.469 325.0304-5.52 0.000-2432.546-1158.391 _Iwyksztal~2-4386.364 683.3584-6.42 0.000-5725.783-3046.944 _Iwyksztal~3-5950.806 557.4312-10.68 0.000-7043.401-4858.211 _Iwyksztal~4-8167.496 538.4532-15.17 0.000-9222.893-7112.099 _Iwyksztal~5-9698.71 578.6504-16.76 0.000-10832.9-8564.524 godziny -.3193543 14.63862-0.02 0.983-29.01183 28.37312 wiek -95.59548 13.53115-7.06 0.000-122.1173-69.0737 _Iszara_1 11363.98 1571.524 7.23 0.000 8283.71 14444.25 dorywcza -8008.054 742.8795-10.78 0.000-9464.138-6551.97 _cons 18979.6 974.8196 19.47 0.000 17068.9 20890.3

Przedział ufności dla wieku przy 0,05 Pr( b t se( b ) b t se( b )) K 1 2 K K K 1 2 K t 1 1 2 F t (0,975) 1,95 26342-95,59-13,53*1,95-121,97-95,59+ 13,53*1,95-69,20

1. Dodatkowe założenie KMRL 2. Testowanie hipotez prostych Rozkład estymatora b Testowanie hipotez prostych przy użyciu statystyki t 3. Przedziały ufności 4. Testowanie hipotez łącznych

Hipoteza łączna: H0: H h Jest to układ g równań liniowych Macierz H ma pełen rząd wierszowy równy g (liczba ograniczeń) Poszczególne równania powinny być liniowo niezależne Układ równań nie powinien być sprzeczny

Przykład model: y X X X Testujemy hipotezę: i 1 2 2i 3 3i 4 4i i H0: 1 2 1 2 3 4

1 1 0 0 0 1 2 0 1 0 0 2 3 0 0 1-1 0 4 H h

Testowanie hipotez prostych nie jest równoważne testowaniu hipotezy łącznej, że wszystkie rozważane hipotezy proste są łącznie prawdziwe

Krok 1. Stawiamy przykładową hipotezę zerową H0: Brak podstaw do odrzucenia tej hipotezy oznacza, że zmienne są łącznie nieistotne Model bez ograniczeń Model z ograniczeniami 0 0 : 3 2 0 H i Ki K i i i x x x y 3 3 2 2 1 i i x x 3 2, i Ki K i i i x x x y 3 3 2 2 1 i Ki K i i x x y 4 4 1

Krok 2. Przy założeniu, że postawiona hipoteza zerowa jest prawdziwa, wyznaczamy statystykę testową z rozkładu F: F g R R g ee / ( N K) (1 R ) / ( N K) 2 2 ( erer e e) / ( R ) 2 Gdzie: R², e e oznaczają współczynnik determinacji i sumę kwadratów reszt dla modelu bez ograniczeń R 2 R, e R e R to te sama wielkości, ale dla modelu z ograniczeniami, g oznacza liczbę ograniczeń, K ilość szacowanych parametrów w modelu bez ograniczeń, N liczba obserwacji

Krok 3. Odczytujemy z tablic rozkładu F wartość krytyczna (α - poziom istotności) F* F( g, n K)

Krok 4. Podjęcie decyzji Dystrybuanta rozkładu F-Snedecora f(f) 0 F* F F F * - odrzucamy hipotezę F < F * - nie ma podstaw do odrzucenia hipotezy zerowej

Przykład xi: reg wydg dochg i.klm (model bez ograniczeń) Source SS df MS Number of obs = 31705 -------------+------------------------------ F( 6, 31698) = 3651.59 Model 2.3693e+10 6 3.9489e+09 Prob > F = 0.0000 Residual 3.4278e+10 31698 1081405.34 R-squared = 0.4087 -------------+------------------------------ Adj R-squared = 0.4086 Total 5.7971e+10 31704 1828523.21 Root MSE = 1039.9 ------------------------------------------------------------------------------ wydg Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- dochg.5818533.0040164 144.87 0.000.573981.5897256 _Iklm_2-40.65607 23.26644-1.75 0.081-86.2592 4.947067 _Iklm_3-70.57179 25.89099-2.73 0.006-121.3191-19.82444 _Iklm_4-109.2499 20.60656-5.30 0.000-149.6395-68.86021 _Iklm_5-153.3497 22.98153-6.67 0.000-198.3944-108.305 _Iklm_6-173.5506 18.96167-9.15 0.000-210.7162-136.385 _cons 836.1774 18.74554 44.61 0.000 799.4354 872.9194 ------------------------------------------------------------------------------

Przykład xi: reg wydg dochg (model z ograniczeniami) Source SS df MS Number of obs = 31705 -------------+------------------------------ F( 1, 31703) =21722.15 Model 2.3571e+10 1 2.3571e+10 Prob > F = 0.0000 Residual 3.4401e+10 31703 1085097.53 R-squared = 0.4066 -------------+------------------------------ Adj R-squared = 0.4066 Total 5.7971e+10 31704 1828523.21 Root MSE = 1041.7 ------------------------------------------------------------------------------ wydg Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- dochg.5874177.0039856 147.38 0.000.5796057.5952296 _cons 714.5099 10.00872 71.39 0.000 694.8924 734.1274 ------------------------------------------------------------------------------

F ( ere R ee) / g (3,4401e 10 3,4278e 10) / 5 ee / ( N K) (3,4278e 10) / (31705 7) 22,65

test _Iklm_2 _Iklm_3 _Iklm_4 _Iklm_5 _Iklm_6 ( 1) _Iklm_2 = 0 ( 2) _Iklm_3 = 0 ( 3) _Iklm_4 = 0 ( 4) _Iklm_5 = 0 ( 5) _Iklm_6 = 0 F( 5, 31698) = 22.65 Prob > F = 0.0000

1. Wyprowadzić rozkład małopróbkowy estymatora MNK. Jakie założenie, poza standardowymi założeniami KMRL, należy w tym przypadku przyjąć? 2. Jaką postać ma statystyka służąca do testowania hipotezy o * tym, że k k? 3. Mając oszacowanie b k oraz oszacowanie odchylenia standardowego tego oszacowania se( bk ) wyjaśnić, w jaki sposób należy zbudować przedział ufności dla parametru k. Ilość obserwacji wynosi N, ilość szacowanych parametrów K, a poziom ufności 1.

4. Jak należy testować hipotezę postaci: H : H h 0, używając do tego sumy kwadratów reszt z modelu bez ograniczeń i z ograniczeniami? 5. Wyjaśnić, jakie korzyści i niebezpieczeństwa łączą się z narzucaniem ograniczeń na model.

Dziękuję za uwagę 39