Ekonometria - wykªad 8 3.1 Specykacja i werykacja modelu liniowego dobór zmiennych obja±niaj cych - cz ± 1 Barbara Jasiulis-Goªdyn 11.04.2014, 25.04.2014 2013/2014
Wprowadzenie Ideologia Y zmienna obja±niana X 1, X 2,, X k potencjalne zmienne obja±niaj ce n liczba obserwacji ETAP 1: Sporz dzamy zestaw potencjalnych zmiennych obja±niaj cych na podstawie wiedzy o analizowanym zjawisku. ETAP 2: Redukujemy zbiór zmiennych obja±niaj cych kieruj c si kryteriami statystycznymi. RADA: Zanim przyst pisz do procedur, wykonaj wykresy korelacyjne zmiennej obja±nianej z kandydatkami na zmienne obja±niaj ce opieraj c si na danych empirycznych.
Wprowadzenie Ideologia Metody doboru zmiennych obja±niaj cych: eliminacja zmiennych quasi-staªych (porównywanie wspóªczynników zmienno±ci); metoda Hellwiga (pojemno± indywidualna i pojemno± integralna no±ników informacji); sekwencyjne metody doboru zmiennych: procedury eliminacji (metoda regresji krokowej "wstecz"); sekwencyjne metody doboru zmiennych: procedury selekcji (metoda regresji krokowej "w przód").
Eliminacja zmiennych quasi-staªych Eliminacja zmiennych quasi-staªych Y - zmienna obja±niana X 1, X 2,, X k - potencjalne zmienne obja±niaj ce n - liczba obserwacji IDEA: Odrzucamy kandydatki na zmienne obja±niaj ce, które nie s wystarczaj co zró»nicowane Denicja 9 Miar poziomu zró»nicowania jest wspóªczynnik zmienno±ci V j := s j x j, gdzie x j jest ±redni próbkow zmiennej X j wyliczon na podstawie danych empirycznych, natomiast s j jest odchyleniem standardowym dla tej zmiennej.
Eliminacja zmiennych quasi-staªych Eliminacja zmiennych quasi-staªych Zmienn obja±niaj c nie mo»e by zmienn, której obserwacje nie ró»ni si mi dzy sob znacz co. Gdy wspóªczynnik zmienno±ci jest bliski zeru, taka zmienna jest staªa lub quasi-staªa. Ustalamy warto± krytyczn wspóªczynnika zmienno±ci V (np. V = 0, 1) i odrzucamy te kandydatki dla których V j V.
Y - zmienna obja±niana X 1, X 2,, X k - potencjalne zmienne obja±niaj ce n - liczba obserwacji IDEA: Wybieramy zmienne obja±niaj ce jak najbardziej skorelowane ze zmienn Y (przyczyniaj si do postaci Y), jak najmniej skorelowane mi dzy sob (nie dubluj informacji niesionych przez pozostaªe zmienne). Podstaw analizy wspóªczynników korelacji jest wektor R 0 oraz macierz R: r 1 1 r 12 r 13 r 1k R 0 = r 2, R = r 21 1 r 23 r 2k r k r k1 r k2 r k3 1
gdzie R 0 = r 1 r 2 r k, R = 1 r 12 r 13 r 1k r 21 1 r 23 r 2k r k1 r k2 r k3 1, r j - wspóªczynnik korelacji (zale»no±ci) mi dzy Y oraz X j : r j := n (x ij x j )(y i ȳ) i=1. n n (x ij x j ) 2 (y i ȳ) 2 i=1 i=1
gdzie R 0 = r 1 r 2 r k, R = 1 r 12 r 13 r 1k r 21 1 r 23 r 2k r k1 r k2 r k3 1, r ij - wspóªczynnik korelacji (zale»no±ci) mi dzy X i oraz X j : r ij := n (x kj x j )(x ki x i ) k=1. n n (x kj x j ) 2 (x ki x i ) 2 k=1 k=1
Zmienne obja±niaj ce traktujemy jako no±nik informacji o zmiennej obja±nianej. Rozwa»amy wszystkie mo»liwe niepuste kombinacje kandydatek na zmienne obja±niaj ce (liczba kombinacji wynosi L = 2 k 1). Dla ka»dej kombinacji obliczamy pojemno± integraln no±ników informacji.
Denicja 10 Pojemno± integralna no±ników informacji: H m := j I m h mj, m = 1, 2,, L, gdzie m-numer kombinacji, I m -zbiór numerów zmiennych tworz cych m-t kombinacj. Wielko± h mj nazywamy pojemno±ci indywidualn no±nika informacji: h mj := r j 2 i I m r ij, m = 1, 2,, L, j I m.
Interpretacja pojemno±ic no±ników informacji Pojemno± indywidualna h mj mierzy wielko± informacji o zmiennej Y wnoszon przez zmienn X j w m-tej kombinacji. Pojemno± indywidualna oraz pojemno± integralna no±ników informacji przyjmuj warto±ci z [0, 1]. Najlepsza kombinacja pojemno± integralna no±ników informacji jest maksymalna, tzn. wybieramy takie I m0,»e H m0 = max 1 m L H m Przykªad 3 Dobór zmiennych obja±niaj cych metod Hellwiga na wykªadzie na tablicy
Sekwencyjne metody doboru zmiennych Metoda regresji krokowej Metoda regresji krokowej "wstecz"(procedura eliminacji) - wychodzimy od modelu ze wszystkimi potencjalnymi zmiennymi obja±niaj cymi i stopniowo je eliminujemy z modelu; Metoda regresji krokowej "w przód"(procedura selekcji) - wychodzimy od modelu z jedn zmienn obja±niaj c odpowiednio dobran, a nast pnie wprowadzamy nowe zmienne a» do uzyskania odpowiedniego modelu.
Sekwencyjne metody doboru zmiennych Metoda regresji krokowej "wstecz" 1 Szacujemy model ze wszystkimi potencjalnymi zmiennymi obja±niaj cymi. 2 Dla ka»dej potencjalnej zmiennej obja±niaj cej obliczamy warto± bezwzgl dn statystyki t-studenta, tzn. testujemy istotno± H 0 : β j = 0 wyliczaj c warto± statystyki: 3 Obliczamy minimum: Z j = ˆβ j ˆσ ˆβj. Z min = min j=0,1,,k Z j. 4 Wyliczamy warto± krytyczn t rozkªadu t-studenta na poziomie α: t := t n (k+1),1 α/2.
Sekwencyjne metody doboru zmiennych Metoda regresji krokowej "wstecz" 1 Je»eli Z min < t, to usuwamy z modelu zmienn realizuj c minimum; nast pnie ponowownie szacujemy model powtarzaj c kolejne kroki; 2 Je»eli Z min t, to za ostateczny model przyjmujemy model z ostatnim zestawem zmiennych obja±niaj cych. Przykªad 4 Dobór zmiennych obja±niaj cych metod eliminacji na wykªadzie na tablicy
Sekwencyjne metody doboru zmiennych Metoda regresji krokowej "w przód" 1 Mamy k potencjalnych zmiennych obja±niaj cych X 1,, X k. Rozwa»amy k modeli z jedn zmienn obja±niaj c Y = β 0 + β j X j + ɛ, j = 1, 2,, k. 2 Dla ka»dego modelu obliczamy warto± bezwzgl dn statystyki t-studenta, tzn. testujemy istotno± H 0 : β j = 0 wyliczaj c warto± statystyki: 3 Obliczamy maksimum: Z j = ˆβ j ˆσ ˆβ j. Z max = max j=0,1,,k Z j. 4 Wybieramy zmienn, która maksymalizuje Z j, tzn. odpowiadaj c Z max.
Sekwencyjne metody doboru zmiennych Metoda regresji krokowej "w przód" 1 Wyliczamy warto± krytyczn t rozkªadu t-studenta na poziomie α: t := t n (k+1),1 α/2. 2 Je»eli Z max < t, to X 1,, X k s ¹le wybrane; 3 Zaªó»my,»e zmienn najbardziej istotn statystycznie okazaªo si X 1. Wtedy w kolejnym kroku rozwa»amy k 1 modeli postaci Y = β 0 + β 1 X 1 + β j X j + ɛ, j = 2,, k.
Sekwencyjne metody doboru zmiennych Metoda regresji krokowej "w przód" 1 Zaªó»my,»e zmienn najbardziej istotn statystycznie okazaªo si X 1. Wtedy w kolejnym kroku rozwa»amy k 1 modeli postaci Y = β 0 + β 1 X 1 + β j X j + ɛ, j = 2,, k. Post pujemy analogicznie jak powy»ej wyszukuj c zmienn najbardziej istotn statystycznie z X 2,, X k. Nast pnie dopisujemy j do modelu itd. Powtarzamy procedur do momentu, gdy nie mo»emy ju» doda nowych zmiennych (nie s one istotne statystycznie). Przykªad 5 Dobór zmiennych obja±niaj cych metod selekcji na wykªadzie na tablicy