STUDIA I PRACE WYDZIAŁU NAUK EKONOMICZNYCH I ZARZĄDZANIA NR 36, T. 1 Barbara Batóg *, Jacek Batóg ** Unwersytet Szczecńsk ANALIZA WPŁYWU OBSERWACJI NIETYPOWYCH NA WYNIKI MODELOWANIA REGIONALNEJ WYDAJNOŚCI PRACY STRESZCZENIE W przeprowadzonym badanu analzowano wpływ obserwacj netypowych na modelowane zwązków mędzy regonalną wydajnoścą pracy a nakładam na nnowacje w przemyśle usługach oraz pozomem przedsęborczośc w Polsce w latach 2002 2010. Uzyskane wynk wskazują na stały wzrost pozomu przy jednoczesnym wzrośce zróżncowana wydajnośc pracy. W przypadku rozpatrywana wpływu nakładów na nnowacje na wydajność pracy zdentyfkowano jedną obserwację netypową (województwo mazowecke) o charakterze dźwgn, natomast w modelu z pozomem przedsęborczośc wystąpły dwe obserwacje wpływowe (województwa mazowecke zachodnopomorske). Słowa kluczowe: obserwacje netypowe, regonalna wydajność pracy, nakłady na nnowacje Wstęp O znaczącym wpływe wększośc obserwacj netypowych (ang. outlers) na wynk prowadzonych badań ne trzeba nkogo przekonywać. Dyskusyjna może * Adres e-mal: barbara.batog@wnez.pl ** Adres e-mal: batog@wnez.pl
126 METODY ILOŚCIOWE W EKONOMII być tylko ocena rodzaju tych obserwacj oraz stotnośc ch wpływu na rezultaty modelowana ekonometrycznego. Rozważana na ten temat można znaleźć w welu pracach [np. Barnett, Lews 1994; Hawkns 1980]. Obszernej dyskusj doczekały sę równeż rozważana dotyczące podstawowych przyczyn powstawana obserwacj netypowych [Walfsh 2006]. Poneważ automatyczna elmnacja obserwacj uznanej za netypową powoduje brak możlwośc analzy przyczyny jej występowana, kluczową rolę odgrywa w tym przypadku umejętność określena charakteru obserwacj netypowych, wśród których rozróżna sę najczęścej: unvarate outler, regresson outler (vertcal outler), leverage (dźwgna) oraz nfl uence (wpływ) [Andersen 2008]. W tekśce na przykładze model opsujących kształtowane sę regonalnych zman wydajnośc pracy zweryfkowana zostane hpoteza badawcza mówąca o stotnym wpływe obserwacj netypowych na wynk estymacj parametrów strukturalnych oraz jakość rozważanych model. Podstawowym celem analzy jest dentyfkacja netypowych obserwacj (regonów) w modelach wydajnośc pracy oraz ocena ch wpływu na proces modelowana tego zjawska. Dodatkowym celem jest ocena wpływu nakładów na nnowacje oraz pozomu przedsęborczośc na wydajność pracy w ujęcu regonalnym. Wydajność pracy uznawana jest za jeden z najważnejszych czynnków decydujących w długm okrese o rozwoju, a w konsekwencj równeż o dobrobyce danego kraju lub regonu. Powszechne znany jest cąg przyczynowy: wzrost wydajnośc pracy, wzrost płac, rozwój społeczno-gospodarczy, poprawa jakośc życa, wzrost dobrobytu. Zjawsko to odgrywa równeż znaczącą rolę w kształtowanu przepływów sły roboczej oraz pozomu nwestycj. Różnce w pozomach wydajnośc pracy prowadzą do zróżncowana dochodów per capta, przyczynając sę do dywergencj dochodowej, zwłaszcza w ujęcu regonalnym [zob. Batóg, Batóg 2008, 59 69]. Wybrane metody dentyfkacj obserwacj netypowych Obszerną charakterystykę metod dentyfkacj obserwacj netypowych zawerają m.n. prace Belsleya, Kuha Welscha, Ben-Gala, Ampanthonga oraz Wllamsa nnych [Belsley, Kuh, Welsch 1980; Ben-Gal 2005, 3 12; Ampanthong 2009, Wl-
BARBARA BATÓG, JACEK BATÓG ANALIZA WPŁYWU OBSERWACJI NIETYPOWYCH NA WYNIKI MODELOWANIA REGIONALNEJ WYDAJNOŚCI PRACY 127 lams, Baxter, He, Hawkns, Gu 2002]. Do najpopularnejszych z nch zastosowanych w nnejszym artykule należą: metoda oparta na wartoścach h, określanych manem hat values, które są marą dźwgn (leverage) pozwalają ocenć, w jakm stopnu wartość zmennej nezależnej dla danej obserwacj odbega od wartośc średnej tej zmennej: gdy h 2h 1 h n n x j x j 1 x x obserwacja jest uznawana za netypową; metoda standaryzowanych reszt: 2 2 dla ' ' e S e e 1 h e > 2 obserwacja jest uznawana za netypową; metoda studentyzowanych reszt: e e * t (n-k-2) Se( ) 1- h * gdy e 2 obserwacja jest uznawana za netypową; metoda DFBETAs (dfference of betas), w której wartośc D j stanową marę wpływu (nfl uence) pozwalają ocenć różncę mędzy wartoścam ocen uzyskwanym dla regresj przy pełnym n oraz regresj z usunętą wartoścą netypową : D ˆ ˆ j = bj - bj( - ), dla = 1, 2,, n oraz j = 0, 1,, k jeżel S - D j ( bˆ j) 2 obserwacja uznawana jest za wpływową; n
128 METODY ILOŚCIOWE W EKONOMII metoda wykorzystująca odległość Cooka (D ), która to mara w odróżnenu od mary D j pozwala ocenć wpływ danej obserwacj na wszystke oceny parametrów strukturalnych jednocześne: ' 2 e h D k 1 1 h gdze: perwszy czynnk merzy wpływ vertcal outler, a drug efekt dźwgn, dla D 4 n k 1 obserwacja uznawana jest za wpływową; metody: DFFITS (dfference of f ts), partal regresson plots, quantle comparson plots for studentzed resduals, Atknson s Modfed Cook s Statstcs [Chatterjee, Had 1988; Rousseeuw, Leroy 1987]. Wynk badań emprycznych Wydajność pracy dla poszczególnych województw Polsk została wyrażona przez zmenną PKB na jednego meszkańca (zob. rys. 1). Obserwując jej kształtowane sę w latach 2002 2010 można zauważyć trzy prawdłowośc. Perwszą z nch jest znacząca przewaga województwa mazoweckego w stosunku do wszystkch pozostałych województw (w 2002 r. PKB per capta kształtował sę w tym województwe na pozome 32 731 zł, a w 2010 r. przyjął wartość 60 359 zł, przewyższając druge w kolejnośc województwo odpowedno o 42,1% oraz 44,6%) oraz kształtowane sę wydajnośc pracy w województwach: dolnośląskm, welkopolskm śląskm powyżej średnej krajowej w całym badanym okrese. Drugą jest stały wzrost pozomu wydajnośc pracy, którego przecętna wartość w ujęcu nomnalnym była wyższa w 2010 r. w porównanu do 2002 r. o 75,4%. Trzecą natomast jest wzrost regonalnego zróżncowana wydajnośc pracy merzonego wartoścą współczynnka zmennośc losowej (wzrost z pozomu 21% do 25%), co potwerdza często spotykany pogląd, że konwergencj dochodowej zachodzącej w skal krajów Un Europejskej towarzyszy dywergencja w ujęcu regonalnym [Batóg 2010].
BARBARA BATÓG, JACEK BATÓG ANALIZA WPŁYWU OBSERWACJI NIETYPOWYCH NA WYNIKI MODELOWANIA REGIONALNEJ WYDAJNOŚCI PRACY 129 Rys. 1. Regonalny PKB na jednego meszkańca w latach 2002 2010 bez województwa mazoweckego (zł) Źródło: opracowane własne na podstawe danych BDL GUS. Na rysunku 2 przedstawono w postac grafcznej zależnośc mędzy welkoścą PKB per capta oraz pozomem nakładów na nnowacje w przemyśle usługach według województw w 2010 r.
130 METODY ILOŚCIOWE W EKONOMII Rys. 2. PKB na jednego meszkańca (zł) na tle nakładów na nnowacje w przemyśle usługach (mln zł) dla polskch województw w 2010 r Źródło: opracowane własne na podstawe danych BDL GUS. Z powyższego dagramu korelacyjnego wynka, że stneje slna korelacja dodatna (współczynnk korelacj lnowej Pearsona r xy = 0,91) oraz to, że jedna wartość znacząco różn sę od pozostałych. Dotyczy ona województwa mazoweckego. Wynk estymacj parametrów strukturalnych modelu opsującego w ujęcu przekrojowym wpływ nakładów na nnowacje X na wydajność pracy Y w 2010 r. (1) pozwalają stwerdzć, że wraz ze wzrostem zmennej nezależnej o 1 mln zł wydajność pracy rosła przecętne o 2,28 zł (w modelu tym oraz w kolejnych, w nawasach podane zostały średne błędy szacunku parametrów strukturalnych): yˆ = 28894,5+ 2, 28 X, R 2 = 0,835 (1) (1076,7) (0,27) W celu rozstrzygnęca, czy województwo mazowecke pownno być uznane za obserwację netypową, wykorzystano metody opsane w punkce 1 (zob. rys. 3 5 oraz tab. 1). Ich wartośc, poza podejścem opartym na resztach standaryzowanych studentyzowanych wskazujących jako netypową obserwację województwo dolnośląske, potwerdzają wcześnejszy wnosek o netypowośc województwa mazoweckego.
BARBARA BATÓG, JACEK BATÓG ANALIZA WPŁYWU OBSERWACJI NIETYPOWYCH NA WYNIKI MODELOWANIA REGIONALNEJ WYDAJNOŚCI PRACY 131 Rys. 3. Wartośc h otrzymane dla modelu (1) Źródło: opracowane własne na podstawe danych BDL GUS. Rys. 4. Wartośc D j otrzymane dla modelu (1) Źródło: opracowane własne na podstawe danych BDL GUS.
132 METODY ILOŚCIOWE W EKONOMII Tabela 1. Reszty standaryzowane studentyzowane w modelu (1) Województwo łódzke 1369,50 0,386 0,37 mazowecke 1592,09 1,376 1,34 małopolske 486,27 0,137 0,13 śląske 228,00 0,065 0,06 lubelske 5167,04 1,464 1,53 podkarpacke 6232,26 1,760 1,92 podlaske 2385,00 0,678 0,66 śwętokrzyske 1602,73 0,455 0,44 lubuske 1789,64 0,508 0,49 welkopolske 5875,68 1,655 1,78 zachodnopomorske 2018,70 0,572 0,56 dolnośląske 7762,03 2,185 2,59 opolske 53,06 0,015 0,01 kujawsko-pomorske 362,90 0,102 0,10 pomorske 1307,10 0,368 0,36 warmńsko-mazurske 2469,29 0,701 0,69 e ' e Źródło: oblczena własne na podstawe danych BDL GUS. * e Rys. 5. Odległośc D otrzymane dla modelu (1) Źródło: opracowane własne na podstawe danych BDL GUS.
BARBARA BATÓG, JACEK BATÓG ANALIZA WPŁYWU OBSERWACJI NIETYPOWYCH NA WYNIKI MODELOWANIA REGIONALNEJ WYDAJNOŚCI PRACY 133 Borąc pod uwagę powyższe wynk, oszacowano ponowne model (1), ale bez województwa mazoweckego: yˆ = 27643, 2+ 3,36 X, R 2 = 0,575 (2) (1360,0) (0,801) Model (2), w porównanu do jego wersj otrzymanej z wykorzystanem wszystkch obserwacj, charakteryzuje sę nższym dopasowanem, a otrzymana ocena parametru stojącego przy nakładach na nnowacje pozwala stwerdzć, że wraz ze wzrostem zmennej nezależnej o 1 mln zł wydajność pracy rosła przecętne o 3,36 zł. Oprócz nakładów na nnowacje pozom wydajnośc pracy w poszczególnych województwach może być też uzależnony od pozomu przedsęborczośc merzonego lczbą podmotów gospodarczych przypadajacych na tysąc meszkańców. Sugeruje to rysunek 6 przedstawający zależność mędzy tym dwema zmennym (r xy = 0,75). Rys. 6. PKB na jednego meszkańca (zł) na tle lczby podmotów gospodarczych na tysąc meszkańców dla polskch województw w 2010 r. Źródło: opracowane własne na podstawe danych BDL GUS. Aby zweryfkować tę hpotezę, oszacowany został model (3) na podstawe danych przekrojowych z 2010 r. ŷ 6428, 6 935, 4 X, R 2 = 0,564 (3) ( 9531, 5 ) ( 219, 7 )
134 METODY ILOŚCIOWE W EKONOMII gdze: y wydajność pracy, X pozom przedsęborczośc merzony lczbą podmotów gospodarczych przypadających na tysąc meszkańców. Uzyskane wynk wskazują na nezbyt wysoke dopasowane modelu do danych rzeczywstych, a ocena parametru przy zmennej X t nformuje, że wydajność pracy wzrasta wraz ze wzrostem lczby frm przypadających na tysąc meszkańców o 1 o 935,4 zł. Podczas przeprowadzonej dentyfkacj obserwacj netypowych (zob. rys. 7 9 oraz tab. 2) wększość mar wskazała jako netypowe wojewódzwo mazowecke (poza wartoścą h ) zachodnopomorske (poza wartoścą h resztą standaryzowaną). Rys. 7. Wartośc h otrzymane dla modelu (3) Źródło: opracowane własne na podstawe danych BDL GUS. Tabela 2. Reszty standaryzowane studentyzowane w modelu (3) Województwo 1 2 3 4 łódzke 1996,48 0,347 0,34 mazowecke 16001,64 3,075 4,41 małopolske 6395,51 1,123 1,13 e ' e * e
BARBARA BATÓG, JACEK BATÓG ANALIZA WPŁYWU OBSERWACJI NIETYPOWYCH NA WYNIKI MODELOWANIA REGIONALNEJ WYDAJNOŚCI PRACY 135 1 2 3 4 śląske 5484,29 0,949 0,95 lubelske 93,20 0,017 0,02 podkarpacke 1142,50 0,216 0,21 podlaske 998,74 0,182 0,18 śwętokrzyske 122,25 0,022 0,02 lubuske 2919,70 0,505 0,49 welkopolske 2535,05 0,461 0,45 zachodnopomorske 10225,83 1,896 2,07 dolnośląske 4617,52 0,807 0,80 opolske 2178,57 0,390 0,38 kujawsko-pomorske 580,24 0,101 0,10 pomorske 3910,06 0,697 0,68 warmńsko-mazurske 2075,85 0,365 0,35 Źródło: oblczena własne na podstawe danych BDL GUS. Rys. 8. Wartośc D j otrzymane dla modelu (3) Źródło: opracowane własne na podstawe danych BDL GUS.
136 METODY ILOŚCIOWE W EKONOMII Rys. 9. Odległośc D otrzymane dla modelu (3) Źródło: opracowane własne na podstawe danych BDL GUS. Wpływ wartośc netypowych na ocenę zależnośc mędzy pozomem przedsęborczośc wydajnoścą pracy określć można przez porównane modelu (3) z modelem (4), którego parametry został poddane estymacj na podstawe danych, z których usunęto obserwacje dla województwa mazoweckego oraz zachodnopomorskego: ŷ 1253,, 0 739, 6 X, R 2 = 0,694 (4) ( 5921, 3 ) ( 141, 8 ) Wraz z elmnacją wartośc odstających wdoczna jest znacząca poprawa jakośc modelu oraz newelk spadek wartośc parametru strukturalnego przy zmennej nezależnej. Podsumowane W latach 2002 2010 obserwowany był w Polsce stały wzrost pozomu oraz zróżncowana wydajnośc pracy w ujęcu regonalnym. Przeprowadzone badane pozwolło z jednej strony wykazać stotność wpływu nakładów na nnowacje
BARBARA BATÓG, JACEK BATÓG ANALIZA WPŁYWU OBSERWACJI NIETYPOWYCH NA WYNIKI MODELOWANIA REGIONALNEJ WYDAJNOŚCI PRACY 137 w przemyśle usługach oraz pozomu przedsęborczośc na kształtowane sę regonalnej wydajnośc pracy, a z drugej zdentyfkować w procese modelowana tego zjawska obserwacje netypowe o zróżncowanym charakterze. W przypadku, gdy zmenną objaśnającą były nakłady na nnowacje w przemyśle usługach, za obserwację netypową o charakterze dźwgn zostało uznane województwo mazowecke. W modelu z pozomem przedsęborczośc jako zmenną nezależną zastosowane metody wskazały jako obserwacje wpływowe dwa województwa: mazowecke zachodnopomorske. Elmnacja wykrytych obserwacj netypowych w obu powyższych przypadkach w znaczący sposób wpływała na poprawę uzyskanych wynków estymacj. Lteratura Ampanthong P., Prachoom S. (2009), A Comparatve Study of Outler Detecton Procedures n Multple Lnear Regresson, w: Proceedngs of the Internatonal MultConference of Engneers and Computer Scentsts, eds. S.I. Ao, O. Castllo, C. Douglas, D.D. Feng, J.-A. Lee, Hong Kong, Vol. I, IMECS 2009, March 18 20, s. 704 709. Andersen R. (2008), Modern Methods for Robust Regresson, Quanttatve Applcatons n the Socal Scences 152, SAGE Publcatons, Los Angeles London New Delh Sngapore. Batóg J. (2010), Konwergencja dochodowa w krajach Un Europejskej. Analza ekonometryczna, Rozprawy Studa T. (DCCCLIV) 780, Wydawnctwo Naukowe Unwersytetu Szczecńskego, Szczecn. Batóg J., Batóg B. (2008), Analza regonalnych zman wydajnośc pracy w Polsce, Wadomośc Statystyczne, nr 6. Barnett V., Lews T. (1994), Outlers n Statstcal Data, John Wley & Sons, Chchester. Belsley D.A., Kuh E., Welsch R.E. (1980), Regresson Dagnostcs: Identyf ng Infl uental Data and Sources of Collnearty, John Wley & Sons, New York. Ben-Gal I. (2005), Outler detecton, w: Data Mnng and Knowledge Dscovery Handbook: A Complete Gude for Practtoners and Researchers, eds. O. Mamon, L. Rockach, Kluwer Academc Publshers, Boston. Chatterjee S., Had A.S. (1988), Senstvty Analyss n Lnear Regresson, John Wley & Sons, New York. Hawkns D. (1980), Identf caton of Outlers, Chapman and Hall, London.
138 METODY ILOŚCIOWE W EKONOMII Rousseeuw P.J., Leroy A.M. (1987), Robust Regresson and Outler Detecton, John Wley & Sons, New York. Walfsh S. (2006), A Revew of Statstcal Outler Methods, Pharmaceutcal Technology, November 2. Wllams G.J., Baxter R.A., He H.X., Hawkns S., Gu L. (2002), A Comparatve Study of RNN for Outler Detecton n Data Mnng, IEEE Internatonal Conference on Data-mnng (ICDM 02), Maebash Cty, CSIRO Techncal Report CMIS-02/102. ANALYSIS OF THE INFLUENCE OF OUTLIERS ON THE RESULS OF MODELLING OF REGIONAL LABOUR PRODUCTIVITY Abstract In the paper the Authors presented the analyss of the nfluence of outlers on results of econometrc modellng of regonal labour productvty. Innovaton expendtures and a level of entrepreneurshp were used as ndependent varables. Research was conducted for Polsh vovodeshps n 2002 2010. Two man types of outlers were dstngushed: leverage and nfluence. Translated by Barbara Batóg, Jacek Batóg Keywords: outlers, regonal labour productvty, nnovaton expendtures. Kod JEL: C52, J24