Zeszyty Unwersytet Ekonomczny w Krakowe Naukowe 1 (949) ISSN 1898-6447 Zesz. Nauk. UEK, 2016; 1 (949): 5 21 DOI: 10.15678/ZNUEK.2016.0949.0101 Grażyna Dehnel Elżbeta Gołata Katedra Statystyk Unwersytet Ekonomczny w Poznanu M-estymacja w badanu małych przedsęborstw * Streszczene W welu badanach z zakresu statystyk gospodarczej lczebność próby jest na tyle duża, że obserwacje odstające mają stosunkowo newelk wpływ na wartośc szacowanych parametrów. W badanach prowadzonych na nskm pozome agregacj w ramach statystyk krótkookresowej obecność obserwacj odstających może być jednak znacząca. Z tego powodu w przypadku populacj takch jak populacja przedsęborstw obok podejśca klasycznego w badanach pownen być uwzględnany nurt metod odpornych na występowane jednostek netypowych. W lteraturze przedmotu zaproponowano wele alternatywnych metod estymacj mnej wrażlwych na wartośc odstające. W opracowanu weryfkacj emprycznej poddano jedną z nch M-estymację. Celem analzy była ocena jej użytecznośc w odnesenu do badana małych przedsęborstw. Słowa kluczowe: regresja odporna, M-estymacja, statystyka przedsęborstw, obserwacje odstające. 1. Wprowadzene Założena dotyczące rozkładów jednostek według badanych cech, które muszą być spełnone w przypadku stosowana metody najmnejszych kwadratów, zostały precyzyjne określone. Ich nezachowane prowadz do obcążena szaco- * Artykuł powstał w ramach realzacj projektu sfnansowanego ze środków Narodowego Centrum Nauk przyznanych na podstawe decyzj numer DEC-2015/17/B/HS4/00905.
6 Grażyna Dehnel, Elżbeta Gołata wanego modelu. Problemy dotyczące nespełnena wymaganych założeń można rozwązać, dokonując transformacj zmennych. Transformacja ne jest jednak wystarczającym rozwązanem w przypadku obecnośc obserwacj netypowych. Ne zawsze bowem prowadz do wyelmnowana, czy chocaż złagodzena ch oddzaływana obcążającego szacunek parametrów modelu. W takej sytuacj regresja odporna, która może wykluczyć wpływ obserwacj odstających, stanow propozycję godną rozważena. W praktyce badań statystycznych dość często napotykamy populacje, które charakteryzują sę obecnoścą obserwacj netypowych. Zaproponowanych zostało wele metod badawczych, które mają na celu złagodzene wpływu jednostek odstających. W lteraturze przedmotu metody te podzelono na trzy grupy [Cox n. 1995]: 1) zmenające wartośc obserwacj odstających (wnsorzaton, trmmng), 2) redukujące wag obserwacj odstających, 3) technk estymacj (regresj) odpornej. Metody zalczane do perwszej grupy należą do najprostszych, rzadzej dzś stosowanych. Metody wchodzące w skład drugej grupy wykorzystywane są przede wszystkch w badanach próbkowych. Pozwalają one na modyfkację wag wynkających z przyjętego schematu losowana próby. Metody zalczane do trzecej grupy, czyl technk estymacj odpornej, w ostatnch latach coraz bardzej zyskują na znaczenu. Wśród nch wyróżnć można M-estymację, S-estymację czy MM-estymację. Wele z nch zostało opracowanych już w latach 70. 80. XX w., z tego względu jednak, że wymagają one podejśca teracyjnego, stosowane ch było ogranczone, gdyż wązało sę m.n. z długm czasem oblczeń. Obecne dostępne są pakety statystyczne umożlwające łatwą mplementację metod. Wzrost zanteresowana technkam regresj odpornej wynka równeż z tego, że ch zastosowane, w przecweństwe do nnych metod, ne wymaga wcześnejszej detekcj obserwacj odstających. Prowadząc badane z wykorzystanem technk regresj odpornej, stajemy przed konecznoścą dokonana wyboru takej metody, której zastosowane pozwol osągnąć najlepszy komproms pomędzy obcążenem szacunków a ch efektywnoścą. W wyborze kerować należy sę własnoścam poszczególnych metod, które zostały sformułowane m.n. w lteraturze przedmotu [Holland Welsch 1977, Huber 1981, Hampel n. 2011, Chen Yn 2002], czy też na podstawe przeprowadzonych wcześnej badań emprycznych. Wybór metody wymusza koneczność podjęca dalszych decyzj, poneważ w ramach każdej z wyróżnonych metod stosowanych może być wele podejść różnących sę doborem parametrów lub wykorzystywanych funkcj. W nnejszym artykule ogranczono sę do analzy jednej z najczęścej stosowanych technk regresj odpornej, jaką jest M-estymacja. Celem badana było porównane jakośc szacunków otrzymanych w oparcu o pęć M-estymatorów,
M-estymacja w badanu małych przedsęborstw 7 w których do określena wartośc wag wykorzystano różne funkcje. Oceny estymacj dokonano na podstawe badana emprycznego, w którym wykorzystano dane dotyczące małych przedsęborstw dzałających w ramach sekcj PKD Transport gospodarka magazynowa. 2. M-estymacja M-estymacja reprezentuje grupę regresyjnych odpornych estymatorów tzw. perwszej generacj. Estymator M został wprowadzony przez P.J. Hubera w 1964 r. [Huber 1964] jako odporny na obserwacje netypowe odpowednk podejśca reprezentowanego przez metodę najmnejszych kwadratów. Mnmalzuje on funkcję straty ρ( ): n ˆ r θ M = arg mn ρ ( θ ), r = y X θ, θ = 1 s (1) gdze: ρ funkcja celu, s parametr skal. Zakładając, że parametr skal s jest znany, oszacowane estymatora θ M otrzymujemy przez rozwązane układu p równań normalnych ze względu na wektor θ, rozpsanych jako loczyn zmennych nezależnych pochodnych cząstkowych funkcj ρ: p n y xk θk k = 1 Ψ x = 0, (2) = 1 s gdze: Ψ pochodna funkcj ρ, p lczba zmennych x. Zakłada sę tutaj, że s jest znane. W celu rozwązana równana (2) proponowane jest zastosowane metody teracyjnej ważonych najmnejszych kwadratów (IRLS) z wagam określonym wzorem [Trzpot 2013]: p y xk θk k = 1 Ψ s w =. (3) p y xk θk k = 1 s
8 Grażyna Dehnel, Elżbeta Gołata Szacunku początkowej wartośc ˆθ 0 dokonujemy na podstawe KMNK. W każdej kolejnej teracj t + 1 wykorzystuje sę wartośc reszt oraz wag otrzymane w teracj t aż do osągnęca zbeżnośc [Alma 2011]. Wartośc wag zależne są od wyboru funkcj Ψ korespondującej z funkcją ρ. Doboru funkcj Ψ dokonujemy zatem m.n. w zależnośc od tego, jaką wagę chcemy przypsać obserwacjom odstającym. W lteraturze przedmotu proponowanych jest wele podejść [Far 1974, Holland Welsch 1977, Hampel n. 2011, Chen Yn 2002, Banaś Lgas 2014]. W celu przyblżena ch własnośc, oceny przydatnośc oraz wpływu na wynk szacunku w nnejszym artykule zastosowanych zostało pęć najczęścej wykorzystywanych w badanach emprycznych funkcj: Andrewsa, Tukeya (bsquare), Cauchy ego, Fara Hampela (por. tabela 1): Funkcja Andrewsa x sn c jezel W, ( x, c x c ) = π x (4) c 0 w przecwnym przypadku, Funkcja Tukeya 2 2 x 1 jezel x c W, ( x, c ) = c (5) 0 w przecwnym przypadku, Funkcja Cauchy ego Funkcja Fara Funkcja Hampela 1 W ( x, c) =, 2 x 1+ c 1 W ( x, c) =, x 1+ c 1 x < a, a a < x b, x W ( x, a, b, c) = a c x b < x c, x c b 0 w przecwnym przypadku. (6) (7) (8)
M-estymacja w badanu małych przedsęborstw 9 Tabela 1. Przyjęte wartośc parametrów funkcj Funkcje wag Wartośc parametrów Andrewsa c = 1,339 Tukeya c = 4,685 Cauchy ego c = 2,385 Fara c = 1,4 Hampela a = 2, b = 4, c = 8 Źródło: opracowane własne na podstawe [User s Gude 2014]. W praktycznych zastosowanach parametr skal s jest neznany. Z uwag na to, że wartość warancj resztowej pozostaje pod slnym wpływem obserwacj odstających, do szacunku parametru skal wykorzystywane są różne metody. Wśród najczęścej stosowanych wyróżnć można łatwy odporny estymator parametru skal, jakm jest medana odchyleń bezwzględnych (MAD) (względem pewnego przyjętego centrum) (por. [Trzpot 2013]). Można go zastosować dla reszt blskch zero, dla pozostających w pewnym otoczenu albo dla reszt z odpornego dopasowana. Iteracyjne szacuje sę: n T ˆ ( m) med y ( 1) x m θ 1 s + = = β0 ˆ, gdze: β 0 = Φ 1 (0,75) jest stałą (por. [Hampel n. 2011]). M-estymator jest odporny jedyne na obserwacje odstające w kerunku y, ne jest natomast odporny na punkty wysokej dźwgn. Wpływa to na zakres jego zastosowań. Stosowany jest bowem często, ale w sytuacjach, w których punkty wysokej dźwgn ne są problemem. Jego punkt załamana ne jest wysok wynos 1/n. (9) 3. Charakterystyka badana emprycznego Mary wykorzystane do oceny szacunków otrzymanych w badanu emprycznym W ocene szacunków wykorzystano R 2 odporną wersję współczynnka determnacj (por. [Renaud Vctora-Feser 2010]):
10 Grażyna Dehnel, Elżbeta Gołata R 2 = T y ˆ ˆ µ y x θ ρ sˆ ρ sˆ y ˆ µ ρ sˆ (10) oraz D odporną marę jakośc dopasowana modelu 1 (por. [Chen 2003]): gdze: ρ funkcja celu, ˆµ estymator parametru położena, ŝ estymator parametru skal. Założena badana D = 2 ρ, sˆ (11) ˆ ( ˆ) 2 T y x θ s W badanu emprycznym wykorzystano nformacje pochodzące z badana przedsęborstw prowadzonego w ramach statystyk publcznej, oznaczonego symbolem DG1. Badane to jest najwększym badanem w Polsce zalczanym do krótkookresowej statystyk gospodarczej. Objęte są nm przedsęborstwa, w których pracuje węcej nż 9 osób. Badane dotyczy wszystkch średnch dużych przedsęborstw oraz 10% małych. Prowadzone jest z częstotlwoścą mesęczną. Dostarcza ono nformacj na temat takch zmennych, jak: przychód,, sprzedaż, transport, ceny, wynagrodzena, obrót, pracujący, podatk dotacje. W przeprowadzonym badanu emprycznym ogranczono sę do przedsęborstw małych średnch (lczba pracujących zawera sę w przedzale od 10 do 250), które prowadzły dzałalność gospodarczą w grudnu 2011 r. Analze poddano model, w którym jako zmenną zależną przyjęto przychód, zaś zmenną nezależną był. Jako populację generalną przyjęto wszystke małe średne przedsęborstwa borące udzał w badanu DG1. Domeną studów była jednostka powstała w wynku uwzględnena podzału na województwa rodzaj prowadzonej dzałalnośc gospodarczej zgodne z klasyfkacją NACE. W prezentacj wynków badana ogranczono sę do 16 domen sekcj Transport w przekroju województw. Selekcj domen dokonano na podstawe wartośc współczynnka determnacj charakteryzującego dobroć dopasowana modelu. Głównym celem wyboru domen do analzy było uwzględnene tych jednostek, dla których wartośc współczynnka determnacj charakteryzowały sę dużą dyspersją. W przypadku sekcj PKD Transport gospodarka magazynowa obszar zmennośc zawerał sę w grancach od 0,041 do 0,999 (por. tabela 3). 1 W lteraturze angelskojęzycznej określanej manem: the robust devance.
M-estymacja w badanu małych przedsęborstw 11 Perwszym etapem analzy była ocena rozkładów przedsęborstw względem zmennej przychód na podstawe nformacj pochodzących z badana DG1. Wartośc podstawowych charakterystyk, takch jak współczynnk zmennośc (65%; 405%), skośność (0,27; 5,63), obszar zmennośc (10 357 tys. PLN; 4 092 507 tys. PLN), wskazują na duże zróżncowane bardzo slną asymetrę (por. tabela 2). Własnośc te przemawają za użycem metod uwzględnających obserwacje odstające. Ich obecność potwerdzona została na podstawe dwóch mar RStudenta statystyk D-Cooka [Rousseeuw Leroy 1987]: RStudent * e * r =, r 3, (12) MSE 1 h 2 ( X X ) ( ) 1 h = + n X X gdze: MSE średn kwadrat odchyleń dla reszty po wyelmnowanu -tej obserwacj, h odległość -tej obserwacj od średnej wartośc zmennej X, Statystyka D-Cooka 2 e h 4 D =, D. 2 MSE k 1 1 h > (14) + n ( ) ( ) 2, (13) Tabela 2. Charakterystyka statystyczna rozkładu zmennej przychód (w tys. PLN) w małych średnch przedsęborstwach stanowących populację generalną w badanu w przekroju województw, sekcja PKD Transport gospodarka magazynowa, 2011 r. Województwo Mnmum Średna Medana Maxmum Vx (%) Skośność Dolnośląske 38 6 796 5 774 24 606 90 1,24 Kujawsko-pomorske 622 6 935 4 563 25 200 100 1,45 Lubelske 1 036 17 663 4 456 202 558 231 4,22 Lubuske 553 56 246 5 938 751 871 303 3,99 Łódzke 625 8 680 6 072 43 783 106 2,47 Małopolske 37 21 612 5 649 417 352 327 5,62 Mazowecke 491 146 475 11 776 4 092 998 405 5,63 Opolske 1 125 9 173 6 073 25 034 89 0,91 Podkarpacke 758 5 298 5 278 11 115 72 0,27 Podlaske 2 046 44 010 7 605 443 218 286 3,45 Pomorske 26 10 459 4 621 64 424 138 2,38
12 Grażyna Dehnel, Elżbeta Gołata cd. tabel 2 Województwo Mnmum Średna Medana Maxmum Vx (%) Skośność Śląske 778 20 700 6 712 384 637 261 5,55 Śwętokrzyske 131 8 187 3 776 49 336 143 2,52 Warmńsko-mazurske 707 5 795 5 396 13 965 65 0,76 Welkopolske 805 9 412 6 863 40 564 98 1,87 Zachodnopomorske 316 12 876 6 237 76 897 138 2,21 Źródło: opracowane własne na podstawe wynków badana DG1, 2011. Tabela 3. Charakterystyka statystyczna lczebnośc małych średnch przedsęborstw stanowących populację generalną w badanu w przekroju województw, sekcja PKD Transport gospodarka magazynowa, 2011 r. Województwo Lczebność populacj Lczba obserwacj odstających Odsetek obserwacj odstających Dolnośląske 28 1 3,6 0,498 Kujawsko-pomorske 24 2 8,3 0,873 Lubelske 25 2 8,0 0,986 Lubuske 20 2 10,0 0,041 Łódzke 30 2 6,7 0,989 Małopolske 34 4 11,8 0,998 Mazowecke 73 2 2,7 0,935 Opolske 14 2 14,3 0,921 Podkarpacke 16 2 12,5 0,977 Podlaske 12 2 16,7 0,999 Pomorske 33 3 9,1 0,972 Śląske 64 4 6,3 0,992 Śwętokrzyske 23 3 13,0 0,996 Warmńsko-mazurske 13 2 15,4 0,888 Welkopolske 49 6 12,2 0,982 Zachodnopomorske 30 2 6,7 0,910 Źródło: opracowane własne na podstawe wynków badana DG1, 2011. Lczbę, udzał procentowy obserwacj odstających R 2 zaprezentowano w tabel 3. Wartośc współczynnka determnacj wskazują, że w przypadku lcznejszych sekcj nawet stosunkowo duża lczba obserwacj odstających nekoneczne mus meć wpływ na dopasowane modelu. Z odwrotną sytuacją spotykamy sę w sekcjach mnej lczne reprezentowanych, w których pojedyncze R 2
M-estymacja w badanu małych przedsęborstw 13 Lubuske 800 000 20 600 000 0 20 400 000 200 000 0 0 50 000 100 000 150 000 200 000 Przychód Dolnośląske 20 000 10 000 10 000 40 60 80 100 0,2 0,4 0,6 0,8 Leverage 50 40 30 20 Koszt Koszt RStudent RStudent 5 000 10 0 0 0 5000 10 000 15 000 20 000 25 000 0,1 0,2 0,3 0,4 0,5 Przychód Leverage Outler Leverage Outler and leverage Rys. 1. Obserwacje odstające w kerunku x (leverage) y (outler) w sekcj Transport w województwe dolnośląskm lubuskm Źródło: opracowane własne na podstawe wynków badana DG1, 2011.
14 Grażyna Dehnel, Elżbeta Gołata obserwacje odstające mogą meć bardzo duży wpływ na jakość modelu. O mocy oddzaływana jednostek netypowych decyduje bowem poza ch lczbą także typ (obserwacje odstające w kerunku x, obserwacje odstające w kerunku y) oraz odległość od jednostek typowych. W prezentacj grafcznej pozwalającej na ocenę typu obserwacj odstającej ogranczono sę do domen o najmnejszej wartośc współczynnka determnacj, tj. województwa dolnośląskego lubuskego (por. rys. 1). Wynk empryczne badana Celem badana było porównane pęcu M-estymatorów wykorzystujących różne funkcje do określena wartośc wag pod względem dokładnośc dopasowana modelu, która była reprezentowana przez odporną wersję współczynnka determnacj R 2 oraz odporną marę jakośc dopasowana modelu D. Różnce w wartoścach wyżej wskazanych parametrów otrzymanych dla poszczególnych rodzajów M-estymatorów odzwercedlają wrażlwość na obecność różnych typów obserwacj odstających oraz odległość jednostek netypowych od pozostałych, standardowych jednostek. Analza otrzymanych wynków skłana do wnosku, że wykorzystane M-estymacj poprawa jakość dopasowana modelu tylko wtedy, gdy obecne są obserwacje odstające w kerunku y. Jeśl blżej przyjrzymy sę sekcj Transport, zauważymy, że zastosowane M-estymacj ze względu na obecność punktów wysokej dźwgn spowodowało spadek wartośc współczynnka determnacj (w porównanu z klasyczną metodą najmnejszych kwadratów) w prawe wszystkch województwach. Wyjątek stanowło województwo dolnośląske. Podobne wnosk można sformułować na podstawe wartośc mary jakośc dopasowana modelu D (por. tabela 4). Najwyższe wartośc współczynnków determnacj najnższe wartośc charakterystyk D odnotowano dla funkcj Fara. W przypadku dwóch z zastosowanych funkcj wag Andrewsa Tukeya, jakość dopasowana modelu jest bardzo podobna. W pozostałych dwóch przypadkach, tzn. dla funkcj Cauchy ego oraz Hampela, obserwujemy zdecydowane nższe wartośc współczynnka determnacj wyższe odpornej mary D. Zbadano także parametry modelu oraz wyznaczone dla nch y (por. tabela 5). Zarówno wartośc estymatorów parametrów, jak ch prezentacja grafczna wskazują na dużą zgodność oszacowań w przypadku wszystkch pęcu analzowanych funkcj wag (por. rys. 2 3). Dla dwóch województw lubelskego mazursko-warmńskego, oszacowana współczynnka kerunkowego są bardzo blske zera, co oznacza brak korelacj mędzy zmennym. W pozostałych przypadkach wartość parametru kształtuje sę na pozome jednośc.
M-estymacja w badanu małych przedsęborstw 15 Tabela 4. Wartośc współczynnka determnacj R 2 oraz odpornej mary D dla M-estymatorów wykorzystujących pęć funkcj wag R 2 D KMNK Andrewsa Tukeya Cauchy ego Fara Hampela Andrewsa Tukeya Cauchy ego Fara Hampela Dolnośląske 0,498 0,714 0,717 0,465 0,719 0,661 14318591 14410404 83994151 26216260 53591708 Województwo Kujawsko- -pomorske 0,873 0,639 0,641 0,396 0,796 0,602 11188519 11328444 69794042 16593167 39605375 Lubelske 0,986 0,704 0,708 0,538 0,926 0,654 4443005 4596902 32815603 17380736 25044638 Lubuske 0,041 0,016 0,016 0,002 0,000 0,005 439610000 444240000 3752000000 2487400000 1912400000 Łódzke 0,989 0,801 0,802 0,446 0,941 0,659 20233998 20227889 165710000 9334610 96765572 Małopolske 0,998 0,660 0,661 0,478 0,949 0,575 18282788 18511594 115340000 25866721 74159780 Mazowecke 0,935 0,613 0,614 0,420 0,836 0,548 321670000 322680000 2308600000 3124500000 1339000000 Opolske 0,921 0,716 0,717 0,480 0,836 0,650 9463874 9663267 49951895 10478068 51281648 Podkarpacke 0,977 0,790 0,792 0,616 0,941 0,682 852258 863363,8 5874447 893799 3971341 Podlaske 0,999 0,861 0,863 0,495 0,995 0,683 9267824 9280576 125490000 4479108 72614839 Pomorske 0,972 0,683 0,686 0,413 0,901 0,658 29649987 30157648 335030000 35278744 145490000 Śląske 0,992 0,696 0,697 0,423 0,923 0,616 127210000 127980000 843260000 145710000 469890000 Śwętokrzyske Warmńsko- -mazurske Welkopolske Zachodnopomorske 0,996 0,756 0,759 0,507 0,968 0,701 6520625 6548363 52576876 3369794 30685433 0,888 0,783 0,784 0,153 0,807 0,391 16000423 16011595 354710000 8473638 149740000 0,982 0,755 0,722 0,504 0,934 0,696 26695782 22685514 183960000 17597955 143140000 0,910 0,629 0,629 0,442 0,818 0,620 32036788 31904599 174430000 67319033 127940000 Źródło: opracowane własne na podstawe wynków badana DG1, 2011.
16 Grażyna Dehnel, Elżbeta Gołata Tabela 5. Szacunk parametrów równana oraz y (95%) dla M-estymatorów wykorzystujących pęć funkcj wag Województwo Funkcja Andrewsa Funkcja Tukeya Funkcja Cauchy ego Funkcja Fara Funkcja Hampela Szacunek współczynnka kerunkowego Dolnośląske 1,000 0,949 1,052 1,000 0,949 1,052 1,008 0,962 1,054 1,004 0,953 1,055 1,002 0,950 1,055 Kujawsko- -pomorske 0,981 0,943 1,020 0,982 0,943 1,020 0,980 0,942 1,019 0,982 0,931 1,033 0,979 0,937 1,020 Lubelske 0,990 0,986 0,994 0,990 0,986 0,994 0,990 0,986 0,994 0,990 0,985 0,995 0,990 0,985 0,995 Lubuske 0,004 0,013 0,006 0,004 0,013 0,005 0,004 0,014 0,006 0,001 0,019 0,017 0,004 0,015 0,006 Łódzke 1,005 0,968 1,041 1,004 0,968 1,041 1,000 0,965 1,034 0,998 0,967 1,029 1,007 0,971 1,043 Małopolske 0,921 0,919 0,924 0,921 0,919 0,924 0,921 0,918 0,924 0,921 0,917 0,925 0,921 0,918 0,925 Mazowecke 1,019 1,017 1,020 1,019 1,018 1,020 1,034 1,033 1,035 0,931 0,929 0,932 1,034 1,033 1,035 Opolske 0,881 0,842 0,920 0,881 0,841 0,921 0,886 0,840 0,932 0,906 0,838 0,974 0,875 0,815 0,935 Podkarpacke 1,014 0,988 1,040 1,014 0,988 1,040 1,002 0,973 1,030 0,985 0,949 1,020 1,008 0,980 1,036 Podlaske 0,995 0,989 1,000 0,995 0,989 1,000 0,995 0,990 1,000 0,995 0,990 1,000 0,994 0,989 0,999 Pomorske 0,980 0,961 0,999 0,980 0,960 0,999 0,961 0,939 0,983 0,937 0,911 0,963 0,982 0,961 1,004 Śląske 0,889 0,884 0,895 0,889 0,884 0,895 0,883 0,877 0,889 0,882 0,874 0,889 0,892 0,885 0,898 Śwętokrzyske Warmńsko- -mazurske 0,984 0,965 1,003 0,984 0,965 1,004 0,982 0,962 1,001 0,979 0,960 0,998 0,980 0,960 1,001 0,478 0,372 0,584 0,478 0,372 0,584 0,478 0,368 0,588 0,479 0,360 0,598 0,479 0,378 0,579 Welkopolske 0,990 0,970 1,010 0,987 0,963 1,011 0,967 0,942 0,992 0,961 0,934 0,988 0,952 0,925 0,980 Zachodnopomorske 1,037 1,019 1,055 1,037 1,018 1,056 1,034 1,015 1,053 1,041 1,015 1,067 1,032 1,007 1,056
M-estymacja w badanu małych przedsęborstw 17 Województwo Funkcja Andrewsa Funkcja Tukeya Funkcja Cauchy ego Funkcja Fara Funkcja Hampela Szacunek wyrazu wolnego Dolnośląske 88 528 351 88 528 351 82 473 308 8 429 444 94 542 354 Kujawsko- -pomorske 122 472 228 124 469 222 146 492 200 161 623 300 126 502 249 Lubelske 8 164 147 5 166 156 4 162 170 9 203 222 45 160 250 Lubuske 3590 1927 5252 3622 2010 5234 3977 2220 5735 5167 2009 8325 4097 2263 5930 Łódzke 65 513 384 65 509 379 45 469 379 50 427 327 141 585 303 Małopolske 270 65 474 268 66 471 273 57 488 336 51 620 262 10 515 Mazowecke 575 995 156 580 991 170 937 1391 482 443 162 1047 943 1492 395 Opolske 28 463 407 29 481 423 38 556 480 67 833 698 69 746 607 Podkarpacke 102 265 61 102 265 61 76 257 105 46 272 181 92 267 84 Podlaske 487 144 1117 488 143 1118 451 172 1074 443 153 1038 562 47 1170 Pomorske 52 299 403 55 304 414 237 166 640 430 49 908 96 297 490 Śląske 631 313 949 633 317 948 750 429 1071 907 491 1322 689 328 1050 Śwętokrzyske Warmńsko- -mazurske 37 233 306 36 238 310 27 245 300 31 234 297 39 249 328 1944 935 2953 1944 936 2952 1942 897 2986 1931 802 3061 1950 996 2904 Welkopolske 149 100 398 175 126 475 297 10 604 347 6 689 423 81 765 Zachodnopomorske 526 909 144 521 911 130 472 870 73 516 1063 30 505 1019 9 Źródło: opracowane własne na podstawe wynków badana DG1, 2011.
18 Grażyna Dehnel, Elżbeta Gołata 2500 2000 1500 1000 500 0 500 1000 1500 Dolnośląske Kujawsko- -pomorske Lubelske Lubuske Łódzke Małopolske Mazowecke Opolske Podkarpacke Podlaske Pomorske Śląske Śwętokrzyske Warmńsko- -mazurske Welkopolske Zachodnopomorske funkcja Andrewsa funkcja Tukeya funkcja Cauchy ego funkcja Fara funkcja Hampela Rys. 2. Ocena współczynnka kerunkowego modelu regresj na podstawe wybranych funkcj Źródło: opracowane własne na podstawe wynków badana DG1, 2011.
M-estymacja w badanu małych przedsęborstw 19 1,2 1 0,8 0,6 0,4 0,2 0 0,2 Dolnośląske Kujawsko- -pomorske Lubelske Lubuske Łódzke Małopolske Mazowecke Opolske Podkarpacke Podlaske Pomorske Śląske Śwętokrzyske Warmńsko- -mazurske Welkopolske Zachodnopomorske funkcja Andrewsa funkcja Tukeya funkcja Cauchy ego funkcja Fara funkcja Hampela Rys. 3. Ocena wyrazu wolnego modelu regresj na podstawe wybranych funkcj Źródło: opracowane własne na podstawe wynków badana DG1, 2011.
20 Grażyna Dehnel, Elżbeta Gołata 4. Wnosk Zastosowane każdej z pęcu badanych funkcj z punktu wdzena dopasowana modelu przynosło zblżone rezultaty. W welu praktycznych sytuacjach wykorzystana M-estymacj wybór funkcj Ψ ne jest kluczowy dla uzyskana dobrego odpornego oszacowana. Najwększe rozbeżnośc w ocene szacowanych parametrów dotyczyły funkcj Cauchy ego Hampela. Dla tych funkcj jakość dopasowana modelu była też najsłabsza. Zastosowane M-estymatora w przypadku obecnośc wartośc odstających może wpłynąć na poprawę jakośc dopasowana modelu w porównanu z klasycznym metodam szacunków, zależy to jednak w dużym stopnu od rodzaju obserwacj netypowej (odległośc). M-estymator ne jest odporny na punkty wysokej dźwgn, a węc pownen być stosowany w sytuacjach, w których punkty wysokej dźwgn ne występują. Lteratura Alma Ö.G. [2011], Comparson of Robust Regresson Methods n Lnear Regresson, Internatonal Journal of Contemporary Mathematcal Scences, vol. 6, nr 9, http:// dx.do.org/10.12988/jcms. Banaś M., Lgas M. [2014], Emprcal Tests of Performance of Some M-estmators, Geodesy and Cartography, vol. 63, nr 2, http://dx.do.org/10.2478/geocart-2014-0015. Chen C. [2003], Robust Tools n SAS [w:] Developments n Robust Statstcs. Internatonal Conference on Robust Statstcs, red. R. Dutter n., Sprnger Scence and Busness Meda, Berln Hedelberg, http://dx.do.org/10.1007/2f978-3-642-57338-5. Chen C., Yn G. [2002], Computng the Effcency and Tunng Constants for M-Estmaton, Proceedngs of the 2002 Jont Statstcal Meetngs, Amercan Statstcal Assocaton, Alexandra. Cox B.G., Bnder A., Chnnappa N.B., Chrstanson A., Colledge M.J., Kott P.S. [1995], Busness Survey Methods, John Wley and Sons, Hoboken, NJ, http://dx.do. org/10.1002/9781118150504.fmatter. Far R.C. [1974], On the Robust Estmaton of Econometrc Models, Annals of Economc and Socal Measurement, vol. 3. Hampel F.R., Ronchett E.M., Rousseeuw P.J., Stahel W.A. [2011], Robust Statstcs: The Approach Based on Influence Functons, John Wley and Sons, Hoboken, NJ, http:// dx.do.org/10.1002/9781118186435.fmatter. Holland P., Welsch R. [1977], Robust Regresson Usng Iteratvely Reweghted Least- -Squares, Communcatons n Statstcs Theory and Methods, vol. 6, http://dx.do. org/10.1080/03610927708827533. Huber P.J. [1964], Robust Estmaton of a Locaton Parameter, Annals of Mathematcal Statstcs, vol. 35. Huber P.J. [1981], Robust Statstcs, John Wley and Sons, New York.
M-estymacja w badanu małych przedsęborstw 21 Renaud O., Vctora-Feser M. [2010], A Robust Coeffcent of Determnaton for Regresson, Journal of Statstcal Plannng and Inference, vol. 140, nr 7, http://dx.do. org/10.1016/j.jsp.2010.01.008. Rousseeuw P.J., Leroy A.M. [1987], Robust Regresson and Outler Detecton, Wley- -Interscence, New York. Trzpot G. [2013], Wybrane statystyk odporne, Studa Ekonomczne, nr 152. User s Gude. The Robustreg Procedure [2014], SAS Insttute, Cary, NC. M-estmaton n a Small Busness Survey (Abstract) In many busness surveys, sample szes are large enough to compensate for the presence of outlers, whch have a relatvely small mpact on estmates. However, at low levels of aggregaton, the mpact of outlers mght be sgnfcant. Therefore, n the case of a populaton such as the populaton of enterprses, the classcal approach should be accompaned by methods that resst the occurrence of outlers. To deal wth ths problem, several alternatve technque of estmaton, less senstve to outlers, have been proposed n the statstcs lterature. In ths paper we look at one of them M-estmaton, and compare ts usefulness n the small busnesses survey. Keywords: robust regresson, M-estmaton, busness statstcs, outlers.