Współliniowość zmiennych objaśniających: test Walda i test Studenta w badaniu istotności zmiennych objaśniających - przykłady.

Podobne dokumenty
Analiza wariancji w analizie regresji - weryfikacja prawdziwości przyjętego układu ograniczeń Problem Przykłady

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Ekonometria, lista zadań nr 6 Zadanie 5 H X 1, X 2, X 3

Wprowadzenie do analizy korelacji i regresji

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Metody Ilościowe w Socjologii

Regresja wieloraka Ogólny problem obliczeniowy: dopasowanie linii prostej do zbioru punktów. Najprostszy przypadek - jedna zmienna zależna i jedna

Rozdział 8. Regresja. Definiowanie modelu

Zmienne zależne i niezależne

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 5

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

TEST STATYSTYCZNY. Jeżeli hipotezę zerową odrzucimy na danym poziomie istotności, to odrzucimy ją na każdym większym poziomie istotności.

Własności statystyczne regresji liniowej. Wykład 4

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Testowanie hipotez statystycznych

parametrów strukturalnych modelu = Y zmienna objaśniana, X 1,X 2,,X k zmienne objaśniające, k zmiennych objaśniających,

Stosowana Analiza Regresji

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 7

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

2. Założenie niezależności zakłóceń modelu - autokorelacja składnika losowego - test Durbina - Watsona

Analiza zależności cech ilościowych regresja liniowa (Wykład 13)

Testowanie hipotez statystycznych

Stanisław Cichocki. Natalia Nehrebecka. Wykład 9

EKONOMETRIA STOSOWANA PRZYKŁADOWE ZADANIA EGZAMINACYJNE

MODELE LINIOWE. Dr Wioleta Drobik

PDF created with FinePrint pdffactory Pro trial version

3. Modele tendencji czasowej w prognozowaniu

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

Testowanie hipotez statystycznych

STATYSTYKA MATEMATYCZNA, LISTA 3

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Ekonometria ćwiczenia 3. Prowadzący: Sebastian Czarnota

Ekonometria I Weryfikacja: współliniowość i normalność. Dr Michał Gradzewicz Szkoła Główna Handlowa w Warszawie

STATYSTYKA MATEMATYCZNA

Zadanie 1. a) Przeprowadzono test RESET. Czy model ma poprawną formę funkcyjną? 1

Statystyka i Analiza Danych

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

WERYFIKACJA MODELI MODELE LINIOWE. Biomatematyka wykład 8 Dr Wioleta Drobik-Czwarno

Prawdopodobieństwo i statystyka r.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Testowanie hipotez statystycznych.

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Egzamin z ekonometrii wersja IiE, MSEMAT

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Zaawansowana eksploracja danych - sprawozdanie nr 1 Rafał Kwiatkowski 89777, Poznań

Testowanie hipotez statystycznych. Wprowadzenie

Testowanie hipotez statystycznych

Weryfikacja hipotez statystycznych

Ekonometria Ćwiczenia 19/01/05

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Ekonometria. Zajęcia

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 4

Adam Kirpsza Zastosowanie regresji logistycznej w studiach nad Unią Europejska. Anna Stankiewicz Izabela Słomska

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Modele i wnioskowanie statystyczne (MWS), sprawozdanie z laboratorium 3

Ekonometria. Ćwiczenia nr 3. Jakub Mućk. Katedra Ekonomii Ilościowej

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

Proces modelowania zjawiska handlu zagranicznego towarami

Kolokwium ze statystyki matematycznej

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

WNIOSKOWANIE W MODELU REGRESJI LINIOWEJ

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Statystyka matematyczna dla kierunku Rolnictwo w SGGW. BADANIE WSPÓŁZALEśNOŚCI DWÓCH CECH. ANALIZA KORELACJI PROSTEJ.

SIMR 2017/18, Statystyka, Przykładowe zadania do kolokwium - Rozwiązania

STATYSTYKA MATEMATYCZNA

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Wykład 2 Hipoteza statystyczna, test statystyczny, poziom istotn. istotności, p-wartość i moc testu

Analiza regresji - weryfikacja założeń

Testowanie hipotez statystycznych związanych ą z szacowaniem i oceną ą modelu ekonometrycznego

Przykład 2. Stopa bezrobocia

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

STATYSTYKA I DOŚWIADCZALNICTWO Wykład 8

Analiza składowych głównych

Stanisław Cichocki. Natalia Nehrebecka. Zajęcia 15-16

Metodologia badań psychologicznych. Wykład 12. Korelacje

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Metody komputerowe statystyki Computer Methods in Statistics. Matematyka. Poziom kwalifikacji: II stopnia. Liczba godzin/tydzień: 2W, 3L

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Wielowymiarowa analiza regresji. Regresja wieloraka, wielokrotna

K wartość kapitału zaangażowanego w proces produkcji, w tys. jp.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

Metody Ekonometryczne

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

ANALIZA REGRESJI WIELOKROTNEJ. Zastosowanie statystyki w bioinżynierii Ćwiczenia 8

Transkrypt:

Współliniowość zmiennych objaśniających: test Walda i test Studenta w badaniu istotności zmiennych objaśniających - przykłady. Przykład: Test Walda a test Studenta w badaniu istotności zmiennych objaśniających. Model zużycia energii przez mieszkańców w mieszkaniach na pewnym osiedlu: ZE - zużycia energii ( w kwh / m-c), Pow -powierzchnia mieszkania, LL - liczba lokatorów, Etap I: propozycja postaci modelu ZE = β 1 + β 2 Pow+ β 3 LL + Z 1

Dane: Etap II: Estymacja parametrów modelu Dane: X =......... Estymator MNK b = (X T X) -1 X T Y Y=... 2

b = (X T X) -1 X T CM = Oszacowany model: ZE = 515.3 + 2.15 Pow +27.17 LL Etap III A Wskaźniki jakości modelu: Etap III B: Istotność zmiennych objaśniających w modelu regresyjnym (poziom istotności α=0.05) Test Walda dla całego układu zmiennych objaśniających (model z wyrazem wolnym) - zakładamy normalny rozkład zmiennej losowej Z ZE = β 1 + β 2 Pow+ β 3 LL + Z Hipoteza zerowa: β 2 = β 3 =0 (obie zmienne - Pow i LL - są nieistotne) Hipoteza alternatywna: β 2 0 lub β 3 0 (przynajmniej jedna zmienna z nich jest istotna) Dla przeprowadzenia testu Walda przyjmujemy założenie dodatkowe: zmienna losowa Z ma rozkład normalny 3

Etap III B: Istotność zmiennych objaśniających w modelu regresyjnym (poziom istotności α=0.05) Test Walda dla całego układu zmiennych objaśniających (model z wyrazem wolnym) - zakładamy normalny rozkład zmiennej losowej Z ZE = β 1 + β 2 Pow+ β 3 LL + Z Statystyka testowa: Zbiór krytyczny: Wniosek: Etap III B: Istotność zmiennych objaśniających w modelu regresyjnym (poziom istotności α=0.05) Test Studenta dla poszczególnych zmiennych objaśniających - zakładamy normalny rozkład zmiennej losowej Z Obliczenia wstępne A = (X T X) -1 = 4

Etap III B: Istotność zmiennych objaśniających w modelu regresyjnym (poziom istotności α=0.05) Test Studenta dla istotności zmiennej Pow - zakładamy normalny rozkład zmiennej losowej Z ZE = β 1 + β 2 Pow+ β 3 LL + Z Hipoteza zerowa: β 2 =0 ( zmienna Pow jest nieistotna ) Hipoteza alternatywna: β 2 0 ( zmienna Pow jest istotna ) Statystyka testowa: Zbiór krytyczny: Wniosek: Etap III B: Istotność zmiennych objaśniających w modelu regresyjnym (poziom istotności α=0.05) Test Studenta dla istotności zmiennej LL - zakładamy normalny rozkład zmiennej losowej Z ZE = β 1 + β 2 Pow+ β 3 LL + Z Hipoteza zerowa: Hipoteza alternatywna: Statystyka testowa: β 2 =0 β 2 0 ( zmienna LL jest nieistotna ) ( zmienna LL jest istotna ) Zbiór krytyczny: Wniosek: 5

Etap I: propozycja nowej postaci modelu ZE = β 1 + β 2 Pow+ Z Etap II: Estymacja parametrów modelu b = (X T X) -1 X T Y = Oszacowany model: ZE = 485.2 + 3.99 Pow Etap III A Wskaźniki jakości modelu: 6

Etap III B: Istotność zmiennych objaśniających w modelu regresyjnym (poziom istotności α=0.05) Test Studenta dla istotności zmiennej Pow - zakładamy normalność rozkładu zmiennej losowej Z ZE = β 1 + β 2 Pow+ Z Hipoteza zerowa: Hipoteza alternatywna: Statystyka testowa: β 2 =0 β 2 0 ( zmienna Pow jest nieistotna ) ( zmienna Pow jest istotna ) Zbiór krytyczny: Dość częstą przyczyną zjawiska obserwowanego w naszym przykładzie ( każda zmienna nieistotna ) jest współliniowość ( korelacja (?!) ) między pewnymi zmiennymi U nas: r Pow,LL = 0.91 UWAGA 1. Często, nieprawidłowo (!) w takim przypadku mówi się, że należy jedną (przynajmniej) z takich zmiennych usunąć z modelu. Argumentuje się, że w takim przepadku obie niosą tę samą informację oraz że może to być przyczyną poważnych błędów w obliczeniach tak być może, ale wcale tak być nie musi. W wielu typowych sytuacjach tak nie jest! Pokażemy to w kolejnych przykładach. UWAGA 2. Często, nieprawidłowo (!) zaleca się oglądanie diagramów korelacyjnych bo (jak się twierdzi) wysoka korelacja między zmiennymi objaśniającymi jest szkodliwa, zaś wysoka korelacja pomiędzy zmiennymi wyjaśnianą i objaśnianą jest pożądana. W konsekwencji pojawia się całkowicie błędne zalecenie, żeby w modelu pozostawić zmienne objaśniające, które ze sobą nie są skorelowane, zaś są silnie skorelowane ze zmienna wyjaśnianą. UWAGA 3. O tym czy daną zmienną (lub ich grupę) usunąć przede wszystkim decydują testy, nigdy analiza korelacji! Przed usunięciem grupy zmiennych z modelu stosujemy test mnożnika Lagrange a lub uogólniony test Walda dla tej podgrupy zmiennych. Najlepiej eliminować zmienne pojedynczo. W bardziej zaawanasowanej analizie stosujemy też pewne wskaźniki algebraiczne (wywiedlne z teorii), które umożliwiają ocenę stopnia zagrożenia wynikającego ze współliniowości zmiennych objaśniających. Omówimy je w dalszym ciągu wykładu. 7

Oto kolejny przykład pokazuje, że znaczna współliniowość zmiennych objaśniających nie musi prowadzić do usunięcia którejś z nich zmiennej objaśniającej. Odwrotnie usunięcie którejkolwiek ze zmiennych byłoby karygodnym błędem. Widać też, że oglądanie diagramów korelacyjnych nic nie daje w zakresie modelowania regresyjnego. Przykład 2. Dane: Y X 1 X 2 8

Etap II: Estymacja parametrów modelu Y =β 0 + β 1 X 1 + β 2 X 2 + Z b = (X T X) -1 X T CM = Wskaźniki jakości modelu: Oszacowany model: Y = 611.8 + 4.82 X 1 9.48 X 2 (8.57) (0.066) (0.13) Etap III B: Istotność zmiennych objaśniających w modelu regresyjnym (poziom istotności α=0.05) Test Walda dla całego układu zmiennych objaśniających (model z wyrazem wolnym) - zakładamy normalny rozkład zmiennej losowej Z F=2699 (!) 9

Etap III B: Istotność zmiennych objaśniających w modelu regresyjnym (poziom istotności α=0.05) Test Studenta dla istotności zmiennej X 1 Hipoteza zerowa: Hipoteza alternatywna: Statystyka testowa: β 1 =0 β 1 0 ( zmienna jest nieistotna ) ( zmienna jest istotna ) Test Studenta dla istotności zmiennej X 2 Hipoteza zerowa: Hipoteza alternatywna: Statystyka testowa: β 2 =0 β 2 0 ( zmienna jest nieistotna ) ( zmienna jest istotna ) Zauważmy, że u nas r X1,X2 = 0.967!!! Czy zatem należy usunąć jedną ze zmiennych? 10

Etap I: propozycja nowej postaci modelu Y =β 0 + β 1 X 1 + Z Etap II: Estymacja parametrów modelu b = Etap III A Wskaźniki jakości modelu:! Etap I: propozycja nowej postaci modelu Y =β 0 + β 2 X 2 + Z Etap II: Estymacja parametrów modelu b = Etap III A Wskaźniki jakości modelu:! 11

Zależność Y od X 1 Zależność Y od X 2 Zależność X 1 od X 2 A teraz wyjaśnienie błędności rozumowania opartego na analizie korelacji Wynika owa błędność z niezrozumienia oczywistego dla każdego matematyka faktu, że wielowymiarowa zależność liniowa zmiennej y od zmiennych x 1,,x k, nijak nie przekłada się na zależność liniową y od poszczególnych zmiennych x i. Łatwo to geometrycznie zobrazować w 3D Rozważmy model Y =2 + 3 X 1 3X 2 +Z Oczywiście Y zależy liniowo od zmiennych objaśniających. Jak będzie wyglądał wykres danych? Jeśli model jest naprawdę dobry (tj. gdy Z ma niewielką wariancję), to obserwacje ułożą się na płaszczyźnie, mniej więcej tak jak rysunku: 12

A teraz diagram korelacyjny. Co to właściwie jest? Diagram korelacyjny, np. pomiędzy Y i X 1 jest rzutem tej chmury czarnych punktów na płaszczyznę X 1 Y. Wygląda to tak: A taka sytuacja: Diagram korelacyjny, np. pomiędzy Y i X 1 wygląda teraz tak: A teraz co sugeruje diagram korelacyjny? 13

Co sugeruje diagram korelacyjny? Widzimy, że diagram korelacyjny wskazuje na całkowity brak liniowej zależności liniowej (czy jakiejkolwiek innej) pomiędzy Y i X1, co jak wiemy, przeczy faktowi. Należy to zapamiętać: oglądanie obrazków 2D nic nam nie mówi na temat liniowości zależności w większym wymiarze. Już w 3D można się bardzo pomylić, a co dopiero w wymiarach, gdzie nawet nasza wyobraźnie nic nie jest wstanie nam podpowiedzieć! 14

Kolejny przykład tym razem z beletrystyką Przykład 3. Model wielkości popytu na wycieczki statkiem - zbudowany dla mieszkańców Tertapolis, wioski na jednej z wysepek na morzu egejskim. Zmienne objaśniające to cena wycieczek (od osoby) i liczba turystów znajdujących się w wiosce 15

Dane: P C L P C L Macierz korelacji P C L P C L 16

Zależność P od C Zależność P od L Związek C z L P = 205 51,3 C + 0.34 LL (16,5) (1,40) (0,01) Dla wyrazu wolnego wartość statystyki t=12,38 Dla zmiennej C wartość statystyki t=-36,7 Dla zmiennej L wartość statystyki t=33,6 Współczynnik determinacji : R 2 = 98,6% Odchylenie standardowe zakłócenia Z: 13,5 17

Wybór modelu ze względu na cele (E.E. Leamer, Speccification Searches,1978) 1. Model interpretacyjny, gdy celem jest wyjaśnienie związku zachodzącego pomiędzy różnymi zmiennymi 2. Model najprostszy, zwykle gdy celem jest predykcja Dobór zmiennych Podejście Hendrego (D. Hendry 1979) Intended overparametrization with data-based simplification Najczęstsze sposoby (kryteria) upraszczania; 1. Test Studenta 2. Test Walda dla modelu z restrykcjami 3. Rozmaite kryteria wskaźnikowe 18

Dobór zmiennych Modelowanie krokowe - procedura komputerowa (Stepwise regression) (N. Draper, H. Smith, 1981) Krok 1 Krok 2 Krok 3 Krok 4 Dla wszystkich rozważanych zmiennych objaśniających X 1,X 2,...,X k, wyliczmy wartości statystyki t w k modelach z jedną zmienną objaśniającą. Jeśli żadna ze zmiennych nie przekracza zadanego progu, kończymy modelowanie. W przeciwnym przypadku wybieramy tę, która ma największą wartość statystyki t i przechodzimy do kroku 2. Do modelu otrzymanego w kroku poprzednim dodajemy tę zmienną z pozostałych, która daje (po dołączeniu) największą wartość statystyki t Z otrzymanego modelu usuwamy jedną zmienną - tę dla której wartość statystyki t jest najmniejsza, o ile spadła poniżej zadanego progu. Powtarzamy kroki 2 i 3 aż zostaną wyczerpane wszystkie możliwości Modelowanie krokowe - procedura komputerowa (Stepwise regression) Główne wady modelowania krokowego Nie ma gwarancji, że otrzymany model jest najlepszy, gdyż nie wszystkie są rozpatrywane. Np. nie badamy modeli linearyzowalnych, liniowych względem parametrów, nie badamy interakcji pomiędzy zmiennymi. Nie uwzględnia się również możliwości wystąpienia nierzetelnych obserwacji ważących i odstających. Nie badamy nawet 2 k możliwych modeli liniowych. Nie uwzględniane są inne kryteria jakości modelu. Algorytm nie uwzględnia łącznego efektu kilku zmiennych objaśniających Nie wykorzystuje wiedzy eksperckiej. 19

Modelowanie krokowe - procedura komputerowa (Stepwise regression) Warianty algorytmu 1. Selekcja w przód (forward selection). Zaczyna od modelu z jedną zmienna i następnie dodaje zmienne pojedynczo 2. Selekcja w tył (backward selection). Zaczyna od modelu ze wszystkimi zmiennymi, a następnie usuwa zmienne pojedynczo 3. Wykorzystywanie testu Walda (F-ratio) do badania łącznego wpływu grupy zmiennych (byłby to Krok 5 badanie czy wśród odrzuconych nie znajduje się zmienna istotna - może się tak zdarzyć!) Inne ilościowe metody analizy danych w kontekście ich przydatności i wykorzystania w analizie regresji omówimy na kolejnych wykładach. W szczególności omówimy problem występowania: - obserwacji odstających - obserwacji ważących - współliniowości jej detekcji i ewentualnym środkom zaradczym 20