Dobór zmiennych objaśniających do liniowego modelu ekonometrycznego

Dobó zmiennych objaśniających do liniowego modelu ekonometycznego

Wstępnym zadaniem pzy budowie modelu ekonometycznego jest okeślenie zmiennych objaśniających. Kyteium wybou powinna być meytoyczna znajomość badanego zjawiska. Należy wybieać takie czynniki (zmienne objaśniające) któe mają istotny wpływ na kształtowanie się badanego zjawiska (zmiennej objaśnianej). Tak zebane zmienne będą nazywane zbioem potencjalnych zmiennych objaśniających.

Do najważniejszych kyteiów fomalnostatystycznych stosowanych w metodach wybou zmiennych należą: 1. Zmienne występujące w modelu powinny chaakteyzować się dużą zmiennością; 2. Należy zapewnić maksymalne skoelowanie zmiennej objaśnianej ze zmiennymi objaśniającymi; 3. Zmienne objaśniające nie powinny być istotnie skoelowane między sobą; 4. Należy dążyć do maksymalnego stopnia dopasowania modelu do zeczywistych elacji gospodaczych co wyaża się w maksymalizacji współczynnika deteminacji R 2.

Metoda Hellwiga (nazywana ównież ) jest metodą któa zdobyła sobie największe uznanie wśód ekonometyków powadzących badania empiyczne. Idea tej metody spowadza się do powołania na zmienne objaśniające takich zmiennych któe są mocno skoelowane ze zmienną objaśnianą i jednocześnie słabo skoelowane między sobą. Punktem wyjścia jest zatem oszacowanie maciezy R współczynników koelacji między potencjalnymi zmiennymi objaśniającymi ( kandydatkami ) oaz wektoa R 0 współczynników koelacji między zmienną objaśnianą a potencjalnymi zmiennymi objaśniającymi.

Załóżmy że dysponujemy k-elementowym zbioem kandydatek na zmienne objaśniające {X 1 X 2 X k } dla któych szacujemy maciez R: R 1 21 k1 12 1 k 2 1k 2k 1 gdzie: ij X oaz wekto R 0 : i X i j i j 12... k j R 0 1 2 k gdzie: ij Y X i 12... k i.

Mając wyznaczone maciez R i wekto R 0 pzystępuje się do obliczania tzw. indywidualnych pojemności nośników infomacji X o zmiennej Y wchodzących w skład óżnych kombinacji utwozonych z elementów danego k-elementowego zbiou potencjalnych zmiennych objaśniających. Wiadomo że ogólna liczba tych kombinacji wynosi dokładnie l = 2 k 1. Indywidualne pojemności nośników infomacji dla poszczególnych potencjalnych zmiennych objaśniających w amach każdej kombinacji zdefiniowane są następująco: 2 0 j hkj n k 1 gdzie: h kj wskaźnik indywidualnej pojemności infomacji zmiennej X j w k-tej kombinacji; 0j - współczynnik koelacji zmiennej objaśnianej ze zmienną X j ; ij - współczynnik koelacji miedzy potencjalnymi zmiennymi objaśniającymi X i oaz X j ; n k - liczba potencjalnych zmiennych objaśniających w k tej kombinacji. i i 1 j ij

Następnie oblicza się wskaźniki integalnej pojemności infomacji w amach każdej z n kombinacji według wzou n k H k h kj. Wskaźniki indywidualnej i integalnej pojemności infomacji chaakteyzują się następującymi własnościami: 1. pzyjmują tym większe watości im silniej zmienne objaśniające są skoelowane ze zmienną objaśnianą 2. pzyjmują tym większe watości im słabiej zmienne objaśniające są skoelowane między sobą 3. są unomowane: 0 h kj 1 0 H k 1. 4. są niemianowane. Pzedstawiona metoda postępowania pozwala na wybó optymalnej kombinacji zmiennych objaśniających. Kyteium wybou takiej kombinacji można zapisać jako gdzie: H k max H H k* - oznacza kombinację optymalnych zmiennych. j 1 * k k

Metoda Pawłowskiego to. W metodzie tej mamy pzygotowaną listę m potencjalnych zmiennych objaśniających i z góy ustaloną liczbę k zmiennych któe mają wejść do modelu pzy czym k<m. Ze zbiou m potencjalnych zmiennych objaśniających ozpatujemy wszystkie z możliwych kombinacji zmiennych. Kombinacje te będą twozyć zbió P k kombinacji dopuszczalnych z któych szukamy najlepszą kombinację zmiennych objaśniających tzn. taką w któej zmienne objaśniające są możliwie słabo skoelowane.

W piewszej kolejności wyznaczamy maciez koelacji R. Następnie ozpatujemy wyznaczniki poszczególnych podmaciezy otzymanych z maciezy R w któej zachowano tylko wiesze i kolumny o numeach ównych numeom zmiennych w ozpatywanej kombinacji. Za optymalną kombinację uważa się taką kombinację zmiennych dla któej odpowiedni podwyznacznik jest największy (zmienne X 1 X 2 X k są tym słabiej skoelowane między sobą im większy i bliższy jedności jest odpowiedni wyznacznik maciezy koelacji).

Idea tej metody podobnie jak w metodzie pojemności infomacji opiea się na wyboze takich zmiennych objaśniających do modelu któe są silnie skoelowane ze zmienną objaśnianą oaz słabo skoelowane między sobą. Pocedua metody ozpoczyna się od utwozenia wektoa koelacji R 0 między zmienną objaśnianą a potencjalnymi zmiennymi objaśniającymi oaz maciezy koelacji R paami między potencjalnymi zmiennymi objaśniającymi.

W kolejnym etapie spawdzamy któe elementy maciezy R są tak małe że możemy je uznać za zeowe (nieistotnie óżne od zea). W tym celu poównujemy zeczywiste współczynniki koelacji ij z maciezy R ze współczynnikiem kytycznym któy możemy wyznaczyć dwoma sposobami. Współczynnik ten można wyznaczyć ze wzou 2 * t 2 t n 2 gdzie t jest watością statystyki odczytaną z tablic testu t-studenta dla zadanego poziomu istotności α oaz dla n 2 stopni swobody. Dugi sposób jest opaty na egule minimaksowej takiej że na podstawie maciezy R ustalamy: * min max dla i j. i j * Jeśli zachodzi waunek ij to wszystkie elementy spełniające ten waunek zastępujemy w maciezy R zeami. Maciez tę oznaczamy R. ij

W kolejnym etapie na podstawie maciezy R budujemy gaf w któym wiezchołkami są potencjalne zmienne objaśniające a wiązadłami niezeowe elementy maciezy R. Możemy otzymać gaf spójny lub kilka podgafów a także punkty (zmienne) odosobnione. Z tak powstałych podgafów do modelu wybieamy zmienne odosobnione (nie są one bowiem skoelowane z innymi potencjalnymi zmiennymi objaśniającymi) oaz te zmienne któe mają największą liczbę powiązań (wiązadeł) z innymi potencjalnymi zmiennymi objaśniającymi. Jeżeli takich zmiennych jest więcej niż jedna to wybiea się spośód nich tę któa jest najsilniej skoelowana ze zmienną objaśnianą. Taki wybó jest podyktowany tym że zmienna o największej liczbie wiązadeł w gafie gomadzi w sobie najwięcej infomacji o pozostałych zmiennych (z któymi była powiązana) a więc będzie dobą ich epezentantką.

Waunkiem wstępnym do tego aby dana zmienna mogła być uznana za objaśniającą w modelu jest jej wystaczające zóżnicowanie. Zmienną objaśniającą bowiem nie może być zmienna któej poszczególne obsewacje nie óżnią się między sobą (lub óżnią się w niewielkim stopniu). Nie jest to wtedy zmienna lecz stała (lub quasi-stała). Do miezenia poziomu zóżnicowania najczęściej wykozystuje się klasyczny współczynnik zmienności: s j Vj x j gdzie: s j - odchylenie standadowe zmiennej X j x j - śednia aytmetyczna zmiennej X j.

Zwykle obiea się kytyczną watość współczynnika zmienności V* (np. V* =01). Zmienne spełniające nieówność V j V * uznaje się za mało zóżnicowane i eliminuje ze zbiou potencjalnych zmiennych objaśniających. Zmienne te nie wnoszą istotnych infomacji.

W metodzie tej ustala się tzw. watość kytyczną współczynnika koelacji. Okeśla ona poziom istotności współczynnika koelacji. Watość ta może być zadana pzez badacza albo wyznaczona ze wzou: * t 2 Pocedua dobou zmiennych objaśniających jest następująca. 1. Ze zbiou potencjalnych zmiennych objaśniających eliminuje się wszystkie zmienne dla któych zachodzi nieówność są to bowiem zmienne nieistotnie skoelowane ze zmienną objaśnianą. 2 t n 0 j * 2

2. Spośód pozostałych potencjalnych zmiennych jako zmienną objaśniającą wybiea się taką zmienną X h dla któej h max j j Ponieważ zmienna X h jest nośnikiem największego zasobu infomacji o zmiennej objaśnianej. 3. Ze zbiou pozostałych potencjalnych zmiennych objaśniających eliminuje się te wszystkie zmienne dla któych * hi są to bowiem zmienne zbyt silnie skoelowane ze zmienną objaśniającą X h a więc powielające dostaczone pzez nią infomacje. Jeśli pozostały jeszcze jakieś zmienne to pzechodzi się do punktu 2. Postępowanie kontynuuje się do momentu wyczepania zbiou potencjalnych zmiennych objaśniających.