A C A U N I V E R S I A I S L O D Z I E N S I S FOLIA OECONOMICA 7, 0 * ZASOSOWANIE ANALIZY SKUPIE W ESYMACJI REGRESYJNEJ DLA MA YCH OBSZARÓW Streszczenie. W estymacji regresyjnej parametrów ma ych obszarów (omen) wykorzystuje si informacje o ca ej populacji lub jej cz ci. W pracy analizowane s mo liwo ci wykorzystania meto analizy skupie o wyor bniania grupy ma ych obszarów poobnych o rozpatrywanego. Zaproponowane jest poej cie o baania poobie stwa popopulacji polegaj ce na baaniu poobie stwa funkcji regresji oszacowanych la tych ma ych obszarów. Przestawione s wyniki symulacyjnej analizy ok ano ci estymatorów regresyjnych, przy konstrukcji których wykorzystuje si informacje o wóch zmiennych pomocniczych w grupie ma ych obszarów poobnych o anego. S owa kluczowe: ma y obszar, estymator regresyjny, analiza skupie. I. WPROWADZENIE Ró norono postaci estymatorów parametrów populacji i popopulacji w metozie reprezentacyjnej, a w tym w statystyce ma ych obszarów, wynika z potrzeby poszukiwania takich estymatorów, które pozwalaj otrzymywa oszacowania obci one ma ymi b ami. Jen z mo liwo ci zwi kszenia ok ano- ci ocen parametrów w procesie estymacji jest wykorzystanie zmiennych pomocniczych. W statystyce ma ych obszarów s one stosowane na przyk a przy estymacji regresyjnej (por. Cz. Bracha (996), J. Paraysz (998), J. Koros (999), Cz. Doma ski i K. Pruska (00), J. N. K. Rao (00), E. Go ata (00), K. Pruska (006)). Dobór zmiennych pomocniczych i anych pomocniczych, czyli pozbioru zbioru warto ci zmiennych pomocniczych la populacji, mo e by zwi zany z wyznaczaniem grupy ma ych obszarów poobnych o baanego ma ego obszaru. Do utworzenia takiej grupy mog by wykorzystane metoy klasyfikacji anych. W pracy tej analizowany jest problem estymacji regresyjnej la ma ych obszarów w przypaku wykorzystania wóch zmiennych pomocniczych. * Dr hab., prof. nazw U, Katera Meto Statystycznych,Uniwersytet ózki. [7]
8 II. ESYMAORY REGRESYJNE REDNIEJ DLA MA EGO OBSZARU Estymatory regresyjne w statystyce ma ych obszarów mog przybiera ró ne postaci w zale no ci o tego, z jakich anych korzystamy: czy z anych o elementach ma ych obszarów, czy z anych otycz cych globalnych warto ci la ma ych obszarów, czy z anych b cych obserwacjami z próby otrzymanej w wyniku losowania warstwowego, czy innego typu losowania i na przyk a pozielonej na warstwy. W pracy tej analizowana jest ok ano ocen uzyskiwanych na postawie wóch estymatorów regresyjnych reniej la ma ego obszaru, o konstrukcji których wykorzystane s wie zmienne pomocnicze. Za ó my, e baana populacja pozielona jest na H warstw i D ma ych obszarów (omen). Niech Y oraz X i X oznaczaj, opowienio, baan zmienn i zmienne pomocnicze w populacji i ma ym obszarze. Niech Y b zie reni zmiennej Y w -tym ma ym obszarze, gzie =,...,D. W przypaku gy wykorzystujemy wie zmienne pomocnicze X i X, estymatory regresyjne reniej Y mog przybra posta : * y X x ) ( X x ) (, () * * y ( X x ) U ( X x ) * U, () gzie y renia z próby la zmiennej Y la -tego ma ego obszaru ; X i renia la zmiennej X i la -tego ma ego obszaru, i =, ; x i renia z próby la zmiennej X i la -tego ma ego obszaru, i =, ; * i parametr przy zmiennej X i liniowej funkcji regresji zmiennej Y wzgl em zmiennych X i X wyznaczony na postawie próby wylosowanej z populacji, i =, ; * iu parametr przy zmiennej X i liniowej funkcji regresji zmiennej Y wzgl em zmiennych X i X wyznaczony na postawie próby la grupy U poobnych ma ych obszarów, i =,. renie y i xi wyznaczane s z uwzgl nieniem zastosowanego schematu losowania próby. Estymatory i s estymatorami syntetycznymi i mog by stosowane wtey, gy relacje mi zy rozpatrywanymi parametrami w ma ym obsza-
Zastosowanie analizy skupie w estymacji regresyjnej 9 rze i ca ej populacji (w przypaku estymatora i cz ci populacji (w grupie U w przypaku estymatora ) lub w ma ym obszarze ) s takie same. Warto ci estymatora wyznaczane s na postawie próby la -tego ma ego obszaru i próby z ca ej populacji oraz informacji o zmiennych pomocniczych la -tego ma ego obszaru, a estymatora na postawie próby la -tego ma ego obszaru i próby la wybranej grupy U ma ych obszarów oraz informacji o zmiennych pomocniczych la -tego ma ego obszaru. Powstaje pytanie, który z tych estymatorów stosowa, aby uzyska oszacowanie reniej la ma ego obszaru z wi ksz ok ano ci. Przy estymacji regresyjnej mo na równie rozpatrywa wi cej ni wie zmienne pomocnicze. III. MIARY PODOBIE SWA MA YCH OBSZARÓW Wyró nione w populacji ma e obszary mog charakteryzowa si ró nym stopniem poobie stwem ze wzgl u na okre lone kryterium. Do wyznaczenia grupy poobnych ma ych obszarów mo na wykorzystywa metoy analizy skupie. W literaturze zaprezentowanych jest wiele meto klasyfikacji anych (por. np. Grabi ski, Wyymus, Zelia (989), Ostasiewicz (998)). Pozwalaj one na grupowanie obiektów wielowymiarowych tzn. opisanych za pomoc kilku cech, których warto ci opowiaaj ce anym obiektom s wspó rz nymi tych obiektów w opowienich przestrzeniach. W przypaku ma ych obszarów, b cych pozbiorami ca ej rozpatrywanej populacji, mo na okre li charakterystyki liczbowe, przyporz kowane ma ym obszarom, ze wzgl u na które porównuje si ma e obszary. Metoy taksonomiczne stosowane s wówczas w oniesieniu o tych charakterystyk. W pracy tej wykorzystana zosta a metoa porz kowania liniowego, w której porz kowaniu polegaj rangi opowiaaj ce ma ym obszarom. W przypaku stosowania estymatora regresyjnego o klasyfikacji ma ych obszarów mo na zaproponowa wykorzystanie oszacowa warto ci parametrów funkcji regresji wyznaczanych la ka ego ma ego obszaru ozielnie, je eli mo liwe jest wyznaczenie tych parametrów. Miar poobie stwa wóch ma ych obszarów mog aby by miara poobie stwa opowiaaj cych im funkcji regresji. W pracy rozpatrywane s trzy miary poobie stwa wóch ma ych obszarów: M R mou ró nicy renich z rang, przyporz kowanych warto ciom reniej z próby la baanej zmiennej i renim zmiennych pomocniczych w populacji, opowiaaj cych poszczególnym ma ym obszarom; M E oleg o eukliesowa wektorów parametrów funkcji regresji wyznaczonych meto najmniejszych kwaratów (MNK) la ma ych obszarów na postawie prób la tych ma ych obszarów ;
0 M CH miara okre lona wzorem (miara poobie stwa i-tego i j-tego ma ego obszaru, gy i j ): gzie M ( i, j) CH ( e* e* e e) / k () e e /( n n k) i j e e = e i e i + e j e j () oraz e suma kwaratów reszt opowiaaj ca moelowi liniowemu wyzna- e l l czonemu za pomoc MNK na postawie próby la l-tego ma ego obszaru, l = i, j; e * e * suma kwaratów reszt opowiaaj ca moelowi liniowemu wyznaczonemu za pomoc MNK na postawie prób la i-tego i j-tego ma ego obszaru z warunkiem ograniczaj cym warto ci parametrów (parametry przy tych samych zmiennych la obu ma ych obszarów s takie same); n l liczebno próby la l-tego ma ego obszaru, l = i, j; k liczba parametrów funkcji regresji. Warto miary M CH to warto statystyki testu Chow a. W pracy tej jest ona traktowana jeynie jako miara poobie stwa wóch funkcji regresji. Nie s tu sprawzane za o enia, przy których mo na stosowa test Chow a, a ponato wnioskowanie nie jest prowazone na postawie prób prostych. Dla ustalonego ma ego obszaru najbarziej poobny o niego ze wzgl u na an miar (M R, M E albo M CH ) jest ten ma y obszar spo ró pozosta ych, la którego miara ta przyjmuje najmniejsz warto. IV. ANALIZA U YECZNO CI MIAR PODOBIE SWA MA YCH OBSZARÓW W ESYMACJI REGRESYJNEJ Analiza prowazona jest la populacji utworzonej z gmin miejskich, wiejskich oraz miejsko-wiejskich w Polsce w 00 r. Rozpatrywane s trzy zmienne: wyatki gminy na mieszka ca (baana zmienna), ochoy gminy na mieszka ca (zmienna pomocnicza), inwestycje gminy na mieszka ca (zmienna pomocnicza). Populacja pozielona jest na trzy warstwy: gminy miejskie, gminy wiejskie, gminy miejsko-wiejskie.
Zastosowanie analizy skupie w estymacji regresyjnej W populacji wyró nionych jest sze ma ych obszarów: I region centralny (9 gmin), II region po uniowy (9 gmin), III region wschoni (9 gmin), IV region pó nocno-zachoni ( gmin), V region po uniowo-zachoni (0 gmin), VI region pó nocny (8 gmin). Z populacji gmin losowane by y próby o liczebno ci stanowi cej ok. 0% liczebno ci populacji (z ok ano ci o liczby ca kowitej). Zastosowano schemat losowania warstwowego, przy czym z ka ej warstwy losowano gminy w sposób inywiualny, zale ny. Losowanie prób z populacji powtarzano 000 razy. Na postawie ka ej próby wyznaczone zosta y warto ci estymatorów, la ka ego ma ego obszaru oraz wzgl ny reni b oceny okre lony wzorem: RMSE ( ) k = 000 ( 000 i Y ki Y ) () ( ) ( ) gzie ki oznacza warto estymatora k la i-tej próby, i=,...,000, =,...,6, k =,. W baaniu estymator by rozpatrywany w przypaku, gy grupa poobnych ma ych obszarów sk aa a si z NU =,,, ma ych obszarów (any ma y obszar i NU najbarziej poobnych o niego). Analizowany by równie wariant, w którym NU =, czyli grup U tworzy tylko jeen wybrany ma y obszar. Mo e bowiem wyst pi sytuacja, w której wykorzystywanie informacji o innych ma ych obszarach nie poprawi ok ano ci oszacowa. Nast pnie baana populacja gmin zosta a zmoyfikowana poprzez transformacje warto ci zmiennej Y lub X ( przy ustalonych ochoach gmin rozpatrywano ró ne warianty poziomu wyatków i inwestycji). Ponownie losowane by y próby z tak otrzymanych populacji i estymowana renia zmiennej Y w ka ym ma ym obszarze. W pracy tej przestawione s wyniki estymacji uzyskane na postawie 000 prób wylosowanych z populacji rozpatrywanych gmin (wariant Mo0) oraz 000 prób z ka ej z wóch moyfikacji tej populacji (warianty Mo i Mo). W wybranych wariantach aje si zauwa y ma e obszary coraz mniej poobne o innych. Moyfikacja oznaczona symbolem Mo polega a na pomno eniu warto ci zmiennej X la gmin nale cych o I regionu przez,, o II regionu przez,,
o III regionu przez 9,0, o IV regionu przez,, o V regionu przez,, o VI regionu przez,0. Moyfikacja Mo polega a na pomno eniu warto ci zmiennej Y przez 0,8 la gmin z I, II i III regionu oraz przez, la gmin z V i VI regionu. Warto ci zmiennej Y la regionu IV pozosta y bez zmian, a warto ci zmiennej pomocniczej X by y takie jak w wariancie Mo. Wyniki oblicze przestawione s w tablicach 7, przy czym renie wzgl ne b y oszacowa zaprezentowane s tylko la jenego ma ego obszaru (la I regionu). W tablicach przestawione s renie z warto ci rozpatrywanych miar poobie stwa ma ych obszarów uzyskane na postawie 000 prób w przypaku ka ego wariantu populacji, tzn. Mo0, Mo i Mo. W przypaku miary M CH przyj to, e M CH 0, gy rozpatrywane jest poobie stwo wóch tych samych ma ych obszarów. Mo na zauwa y, e warto ci miar M R, M E i M CH w ró ny sposób porz kuj ma e obszary ze wzgl u na rosn ce warto ci tych miar. Ponato ze wzgl u na charakter miary M R jej warto ci s najmniej zró nicowane w porównaniu z warto ciami miar M E i M CH. a ostatnia miara wykazuje wi ksze zró nicowanie warto ci w przypaku wariantu populacji Mo w porównaniu z Mo0 i jeszcze wi ksze w przypaku wariantu Mo w porównaniu z Mo0 i Mo. Efekty tego aj si zaobserwowa w tablicach 6. Poane s w nich liczby przypaków w ró 000 prób, la których b oszacowania otrzymanego za pomoc estymatora (oznaczony przez BL( )) jest wi kszy o b u oszacowania otrzymanego za pomoc estymatora (oznaczonego przez BL( )). W tablicy 7. poane s warto ci reniego wzgl nego b u oszacowa parametru Y otrzymane na postawie 000 prób. W tablicach 8 i 9 zaprezentowane s, opowienio, warto ci miar poobie stwa ma ych obszarów i reniego wzgl nego b u oszacowa uzyskane na postawie jenej próby. W baaniach empirycznych tego typu wyniki mog by wykorzystywane o poj cia ecyzji o wyborze estymatora i miary poobie stwa. W tablicach 7 i 9 wia, jak u popraw ok ano ci oszacowania mo na otrzyma, wykorzystuj c estymator. Otrzymane wyniki wiacz o tym, e warto stosowa estymator regresyjny zamiast estymatora. Nie we wszystkich przypakach estymator charakteryzowa si wi ksz ok ano ci ni estymator, ale w wi kszo ci rozpatrywanych wariantów w pona po owie przypaków pozwoli uzyska mniejsze renie b y. Mo na równie zauwa y, e zastosowanie estymatora jest barziej wskazane, gy ma e obszary s barziej zró nicowane (np. w wariancie Mo). W przypaku gy warto ci miar poobie stwa ma o ró ni
Zastosowanie analizy skupie w estymacji regresyjnej si w poszczególnych ma ych obszarach, b oszacowania mo e nie by mniejszy w porównaniu z b em oszacowania la estymatora. Barziej istotna staje si wówczas liczebno próby, która jest wi ksza w przypaku estymatora. Otrzymane wyniki wskazuj równie na mniejsz przyatno miary M E o oceny poobie stwa ma ych obszarów ni miar M R i M CH. Ma na to wp yw u e zró nicowanie oszacowa wyrazów wolnych. Wyaje si (uzyskane wyniki nie s analitycznym owoem), e miara M CH umo liwia najlepszy obór ma ych obszarów poobnych o anego. Eksperymenty, w których jenocze nie ustalona jest liczba poobnych ma- ych obszarów i ograniczone s warto ci miar poobie stwa, s trune o przeprowazenia, poniewa nie wiaomo, jakie warto ci miar poobie stwa nale y uwzgl nia. Nie s to miary unormowane. Problemy te wymagaj alszych analiz. ablica. renie z warto ci miary poobie stwa la wariantu populacji Mo0 wyznaczone na postawie 000 prób II III IV V VI Miara M R I 0,80, 0,70 0,699 0,0 II 0,0000,98 0,9 0,8777 0,600 III,98 0,0000,96,000,0 IV 0,9,96 0,0000 0,60,090 V 0,8777,000 0,60 0,0000,0767 Miara M E I 9,8 6,0 9,7 87, 0, II 0,0 60,,7 90,6 00, III 60, 0,0,0 0,8 0, IV,7,0 0,0, 9,9 V 90,6 0,8, 0,0 6, Miara M CH I,870,0 8,90,7 0, II 0,0000,90 0,099,79 8,88 III,90 0,0000 9,8,06 9,867 IV 0,099 9,8 0,0000,66 6,9 V,79,06,66 0,0000,78
ablica. renie z warto ci miary poobie stwa la wariantu populacji Mo wyznaczone na postawie 000 prób II III IV V VI Miara M R I 0,88 0,68 0,97 0,9 0,767 II 0,0000 0,8 0,787 0,8777 0,77 III 0,8 0,0000 0,87,900,0 IV 0,787 0,87 0,0000,7 0,990 V 0,8777,900,7 0,0000 0,7 Miara M E I 9,8 6,0 9,7 87, 0, II 0,0 60,,7 90,6 00, III 60, 0,0,0 0,8 0, IV,7,0 0,0, 9,9 V 90,6 0,8, 0,0 6, Miara M CH I,999 8,80,698,0 9,7 II 0,0000,000,6,79 9,89 III,000 0,0000 8,9 7,008,907 IV,6 8,9 0,0000,00,68 V,79 7,008,00 0,0000,878 ablica. renie z warto ci miary poobie stwa la wariantu populacji Mo wyznaczone na postawie 000 prób II III IV V VI Miara M R I 0,97 0,670 0,00,97,0697 II 0,0000 0,6700 0,97,87,087 III 0,6700 0,0000 0,807,7987,787 IV 0,97 0,807 0,0000,070,000 V,87,7987,070 0,0000 0,0700 Miara M E I 6,6 80,8 0,0,9 608,0 II 0,0 08,0 0,, 689, III 08,0 0,0 6,8,7 66, IV 0, 6,8 0,0,9 6, V,,7,9 0,0,7 Miara M CH I,960 8,8 76,9 80,6 70,0 II 0,000,67 7,79 7,0 0, III,67 0,000 87, 7,0 7, IV 7,79 87, 0,000 9,6,8 V 7,000 7,000 9,600 0,0,9
Zastosowanie analizy skupie w estymacji regresyjnej ablica. Liczba przypaków (na 000) zaj cia nierówno ci BL( ) > BL( ) la M R Wariant NU I II III IV V VI Mo0 Mo Mo 90 6 68 77 9 70 67 706 79 67 66 7 77 7 7 77 677 6 67 6 76 0 07 09 6 7 9 7 6 68 686 70 76 68 7 7 69 8 0 60 90 88 9 77 698 688 67 696 6 6 6 6 8 69 70 6 70 666 606 67 6 9 0 8 68 60 90 9 77 60 69 7 68 6 ablica. Liczba przypaków (na 000) zaj cia nierówno ci BL( ) > BL( )la M E Wariant Mo0 Mo Mo NU I II III IV V VI 7 600 6 60 8 9 7 60 7 60 8 78 7 7 98 7 06 6 6 8 6 8 60 9 9 0 7 60 68 6 99 7 6 7 8 99 60 6 60 60 66 6 606 8 9 68 0 99 6 9 69 6 66 7 7 9 09
6 ( h) ( h) ablica 6. Liczba przypaków (na 000) zaj cia nierówno ci BL( ) > BL( ) la M CH Wariant Mo0 Mo Mo NU I II III IV V VI 7 600 89 6 6 8 9 79 609 7 8 9 8 6 6 8 70 6 6 07 0 6 66 78 7 77 79 60 6 9 9 67 68 677 66 7 6 7 68 69 70 66 6 6 606 97 660 68 687 686 99 96 7 0 666 69 6 60 6 60 98 67 9 60 ablica 7. Warto ci reniego wzgl nego b u oszacowa parametru Y wyznaczonego na postawie 000 prób NU () 0,07 0,07 0,07 Mo0 Mo Mo Estymator Estymator Estymator () () () () 0,07 0,06 0,08 0,0 0,00 0,06 0,0 0,08 0,0 0,06 0,07 0,0 0,06 Miara M R 0,0 Miara M E 0,0 Miara M CH 0,0 0,07 0,09 0,0 0,06 0,0 0,07 0,06 0,0 0,09 0,060 0,0 0,06 0,09 0,00 0,00 0,00 () 0,07 0,09 0,080 0,0 0,0 0,0 0,0 0,0 0,0 0,09 0,0 0,07 0,06
Zastosowanie analizy skupie w estymacji regresyjnej 7 ablica 8. Warto ci miary poobie stwa wyznaczone na postawie jenej próby la pierwszego regionu Miara II III IV V VI Mo0 M R 0,667,667,000,000 0,667 M E 6, 8, 78,7 8,6 9,0 M CH 0,99,7, 0,998 0,86 Mo M R 0, 0,667 0,, 0, M E 6, 8, 78,7 8,6 9,0 M CH,,7 6,890,,06 Mo M R 0, 0,667 0,000,000,000 M E, 8, 9, 7,,9 M CH,,7 6,006 6,098,78 NU ablica 9. Warto ci reniego wzgl nego b u oszacowa parametru Y wyznaczonego na postawie jenej próby () 0,00 0,00 0,00 Mo0 Mo Mo Estymator Estymator Estymator () () () () 0,0086 0,0097 0,00 0,0007 0,0008 0,0097 0,0009 0,009 0,00 0,0097 0,00 0,0000 0,0008 Miara M R 0,008 Miara M E 0,008 Miara M CH 0,008 0,0086 0,008 0,000 0,000 0,0097 0,006 0,00 0,0090 0,0097 0,0097 0,00 0,0000 0,0008 0,09 0,09 0,09 () 0,0086 0,006 0,086 0,097 0,090 0,006 0,09 0,097 0,07 0,006 0,09 0,097 0,090
8 V. UWAGI KO COWE Przestawiona w pracy analiza b ów oszacowa reniej la ma ego obszaru uzyskiwanych za pomoc wóch rozpatrywanych estymatorów regresyjnych nie pozwala jenoznacznie wskaza, który z tych estymatorów charakteryzuje si wi ksz precyzj oszacowa. Otrzymane wyniki wskazuj jenak na mo liwo poprawienia ok ano ci ocen reniej poprzez wyeliminowanie ze zbioru wszystkich ma ych obszarów tych, które s najmniej poobne o anego ze wzgl u na zaproponowane miary poobie stwa i wykorzystanie informacji o pozosta ych w procesie estymacji. Miary te mo na równie wykorzysta o sprawzenia prawziwo ci za o enia o poobie stwie ma ych obszarów przyjmowanego przy estymacji syntetycznej. W baaniach empirycznych ecyzj o wyborze estymatora mo na poejmowa na postawie warto ci b u reniokwaratowego. BIBLIOGRAFIA Bracha Cz. (996), eoretyczne postawy metoy reprezentacyjnej, Wyawnictwo Naukowe PWN, Warszawa. Doma ski Cz., Pruska K. (00), Metoy statystyki ma ych obszarów, Wyawnictwo Uniwersytetu ózkiego, ó. Go ata E. (00), Estymacja po renia bezrobocia na lokalnym rynku pracy, Wyawnictwo Akaemii Ekonomicznej w Poznaniu, Pozna. Grabi ski., Wyymus S., Zelia A. (989), Metoy taksonomii numerycznej w moelowaniu zjawisk spo eczno-gospoarczych, PWN, Warszawa. Koros J. (999), Problemy estymacji anych la ma ych obszarów, Wiaomo ci Statystyczne, 8 0. Ostasiewicz W. (re.) (998), Statystyczne metoy analizy anych, Wyawnictwo Akaemii Ekonomicznej we Wroc awiu, Wroc aw. Paraysz J. (998), Small Area Statistics in Polan. First Experiences an Application Possibilities, Statistics in ransition, Vol., No., 00 0. Pruska K. (006), Dobór anych pomocniczych w baaniach ma ych obszarów, Wiaomo ci Statystyczne 7 i 8,. Rao J. N. K. (00), Small Area Estimation, John Wiley & Sons, New Jersey. APPLICAION OF CLUSER ANALYSIS IN REGRESSION ESIMAION FOR SMALL AREAS Abstract Information about the whole population or its part are use in the regression estimation of small area parameters. In the paper the possibilities of application of cluster analysis methos are consiere in case of etermining the group of similar small areas. he stuies of a similarity of subpopulations are conucte on the basis of stuies of similarity of regression function an similarity of ranks for small areas. he results of simulation analysis of precision of regression estimators are presente in case of using two auxiliary variables.