Janusz Wywiał Katedra Statystyki Akademia Ekonomiczna w Katowicac Analiza dokładności ocen wartości średnic cec małyc firm W niniejszej pracy przedstawiono na odpowiednim materiale statystycznym praktyczny sposób racjonalnego wyznaczania liczebności prób z warstw. Przedstawiono takŝe krótką analizę efektywności proponowanyc rozwiązań. Dane o działalności małyc firm pocodzą z badania reprezentacyjnego oznaczanego symbolem DG-3 przeprowadzonego przez Wojewódzki Urząd Statystyczny w Katowicac w 993r. Niniejszą analizę ograniczono do cec, któryc symbole niŝej wyjaśniono. Badana populacja składała się z 67094 firm. Wylosowana próba liczyła 6656 firm, co stanowi 4% liczby wszystkic elementów populacji. dpar - liczba właścicieli i współwłaścicieli dpar2 - liczba właścicieli i współwłaścicieli-kobiet dpbr - uczniowie ogółem dpbr2 - uczennice dpcr - osoby, z którymi zawarto umowę agencyjno-prowizyjną dpcr2 - kobiety, z którymi zawarto umowę agencyjno-prowizyjną dpdr - osoby zatrudnione na podstawie umowy o pracę dpdr2 - kobiety zatrudnione na podstawie umowy o pracę dper - razem zatrudnieni dper2 - razem zatrudnione kobiety dp2- liczba osób wykonująca prace na umowę zlecenie dp3- liczba zatrudnionyc w przeliczeniu na etaty dp4- kwota wynagrodzeń brutto dp5a- największe wynagrodzenie brutto dp5a- najmniejsze wynagrodzenie brutto dp5- średnie wynagrodzenie brutto Celem analizy jest ocena dokładności estymacji wartości średnic wymienionyc zmiennyc. Z metodologicznego punktu widzenia gromadzenie danyc odbywało się poprzez bezzwrotne losowanie prób prostyc z warstw, przy czym warstwy były tworzone na podstawie cec określającyc rodzaj działalności firmy zgodny z Europejską Klasyfikacją Danyc (EKD). Wykorzystując ogólnie dostępne estymatory wartości średnic i ic błędów szacunku wyliczono na podstawie próby warstwowej oceny średnic badanyc cec oraz rząd ic odcyleń od nieznanyc średnic w populacji 2. Dodajmy, Ŝe w tym podejściu nie uwzględniliśmy tzw. błędów nielosowyc wynikającyc z braku odpowiedzi na ankietę wysyłaną do przedsiębiorstwa. Praca obejmuje część rezultatów otrzymanyc w wyniku realizacji projektu badawczego nr 02B 05 0 pt. Metady powtarzalnyc badań cec populacji finansowanego przez Komitet Badań Naukowyc. 2 Wiele ciekawyc własności procedur wnioskowania na podstawie prób warstwowyc znajdziemy w pracy Steczkowskiego (995).
2 Wartość średnia cecy w populacji jest oceniana za pomocą następującego estymatora: gdzie: X = w X w = w N =, N = N = N Przez oznaczono liczbę warstw, liczebność -tej warstwy przez N. Średnią z n - elementowej próby losowanej bezzwrotnie z -tej warstwy określa wzór: X = n i= Symbolem X i oznaczono i-tą obserwację zmiennej w -tej warstwie. Wiadomo, Ŝe średnia z próby warstwowej X w daje nieobciąŝone oceny średniej zmiennej w populacji. Wariancja estymatora X w jest oceniana za pomocą następującej statystyki: X i gdzie: ɵv w N n = 2 S 2 N n = S n ( X i X ) 2 2 = n i= Oceny wartości średnic i błędów ic estymacji znajdujemy w tablicy. W jej trzeciej kolumnie zapisano ocenę wariancji estymatora średniej. Z kolei w następnej kolumnie zapisano jej pierwiastek, który jest oceną przeciętnego błędu szacunku średniej. W końcu w ostatniej kolumnie tablicy znajdujemy ocenę błędu względnego szacunku średniej. Przykładowo, średnia wynagrodzeń brutto (zmienna dp4) wynosi 2060.45 zł i odcylą się ta wartości od nieznanej szacowanej wartości średniej wynagrodzeń brutto przeciętnie o 37.73 zł in plus bądź in minus. Błąd ten stanowi 6.68% oceny wartości średniej. NaleŜy uznać, Ŝe błąd ten jest zbyt duŝy, bowiem zwykle przyjmuje się poziom dopuszczalny błędu nie powinien być większy od 5%. Estymacja wartości średnic była prowadzona na podstawie prób o liczebnościac ustalanyc przez Główny Urząd Statystyczny. Rozmiary tyc prób bynajmniej nie są proporcjonalne do liczebności warstw, co zaleca się jako najprostszy zabieg prowadzący zwykle do podniesienia dokładności estymacji. Proporcjonalny sposób wyliczania warstw wyjaśnia następujące wyraŝenie: n p, =Nw, =,..., Na podstawie danyc z tablicy wyliczono oceny błędów szacunku średniej przy załoŝeniu, Ŝe liczebności losowanyc prób byłyby proporcjonalne do rozmiarów warstw. Wyniki
3 obliczeń zamieszczono w tablicy 2, przy czym w jej drugiej kolumnie zamieszczono ocenę przeciętnego błędu szacunku, a w trzeciej kolumnie ocenę względnego błędu szacunku. Tablica. Oceny dokładności estymacji średnic. zmienna średnia wariancja estymatora błąd przeciętny błąd względny dpar2.5.0002.043 2.82 dpar.40.0002.052.09 dpbr2.08.000.022 5.79 dpbr.4.0003.064.75 dpcr2.02.0000.0060 33.66 dpcr.04.0002.030 30.08 dpdr2.42.0006.0254 6.0 dpdr.78.008.0420 5.40 dper2.02.004.0373 3.66 dper 2.36.0029.0542 2.30 dp2.7.0003.086 0.83 dp3.74.006.0404 5.49 dp4 2060.46 897.048 37.7354 6.68 dp5a 94.53 97.752 44.4040 4.86 dp5b 552.8 529.8657 23.088 4.6 dp5 874.08 Źródło: obliczenia własne. Tablica 2. Ocena błędów estymacji średnic dla liczebności prób ustalanyc w sposób proporcjonalny i optymalny. dobór prób proporcjonalny dobór prób optymalny zmienna błąd przeciętny błąd względny błąd przeciętny błąd względny dpar2.0074.5.0083.6 dpar.0080.6.0088.6 dpbr2.0058 7.5.0070 9.0 dpbr.0082 5.8.0095 6.8 dpcr2.0028 5.9.0032 8.0 dpcr.0069 5.9.0070 6. dpdr2.067 4.0.036 3.3 dpdr.0248 3.2.0205 2.0 dper2.027 2..0205 2.0 dper.0307.3.0294.2 dp2.048 8.6.075 0.2 dp3.0240 3.3.022 2.9 dp4 84.0264 4. 7.3326 3.5 dp5a 22.6592 2.5 23.3806 2.6 dp5b.544 2. 2.5627 2.3 Źródło: obliczenia własne.
4 Ponadto w ostatnic dwóc kolumnac tablicy 2 znajdujemy oceny błędów oceny średnic przy załoŝeniu, Ŝe liczebności prób losowanyc z warstw były wyznaczane w sposób optymalny. Polega to na tym, Ŝe rozmiar próby losowanej z danej warstwy jest proporcjonalny do iloczynu frakcji elementów warstwy w populacji i oceny odcylenia standardowego zmiennej w warstwie, co wyjaśnia następujący wzór: n o, = w S k= w S k k Przyjęto, Ŝe optymalne liczebności prób wyznaczamy w stosunku do ocen odcyleń standardowyc w warstwac wynagrodzeń brutto w firmac (zmienna dp4). Z tablicy 2 wynika m.in., Ŝe ocena względnego błędu estymacji średnic wynagrodzeń brutto jest juŝ niŝsza od dopuszczalnego poziomu 5%, bo wynosi 4.% dla proporcjonalnej lokalizacji prób i 3.5% dla optymalnej lokalizacji prób w warstwac. Tablica 3: Współczynniki względnej efektywności. metoda ustalenia liczebności prób zmienna proporcjonalna EFP_O optymalna EFZ_O rzeczywista EFZ_P dpar2-0.7 7.6 92.2 dpar -9.0 72.4 89.4 dpbr2-6.4 76.0 0.4 dpbr -4. 72.8 0. dpcr2 -.7 86.9.5 dpcr -,8 87. 88.6 dpdr2 22.7 86.2 5.8 dpdr.7 88.9 69. dper2 5.5 8.8 72.2 dper 4.4 84. 76.4 dp2-5.3 6. 25.2 dp3 3. 90.5 68.4 dp4 7.8 93. 63.9 dp5a -3. 89.9 96.0 dp5b -8. 83.2 99.4 Źródło: obliczenia własne. W tablicy 3 dokonano porównania dokładności ocen średnic przy analizowanyc trzec wariantac ustalania liczebności prób w warstwac. Obliczono względne odcylenia błędów szacunku dla branyc pod uwagę metod wyznaczania liczebności prób. Oznaczając przez BP, BO i BZ oceny błędów średnic szacunku przeciętnej w populacji na podstawie średniej z prób losowanyc z warstw o liczebnościac odpowiednio proporcjonalnyc do rozmiarów warstw, optymalnyc i rzeczywistyc. Zamieszczone w tablicy 3 wielkości obliczono według następującyc wzorów: EFP_O=00%(BP-BO)/BO,
5 EFZ_P=00%(BZ-BP)/BP EFZ_O=00%(BZ-BO)/BO Z analizy danyc w tablicy 3 wynika, Ŝe zarówno warianty proporcjonalny jak i optymalny ustalania liczebności warstw prowadzi do znacznie większej dokładności estymacji przeciętnyc badanyc zmiennyc niŝ to miało miejsce przy rzeczywistyc rozmiarac losowanyc prób. Zaznaczmy, Ŝe oprócz dwóc zmiennyc (dip2 i dpdr2) zysk na dokładności estymacji przy stosowaniu wariantu proporcjonalnego ustalania liczebności prób wynosi co najmniej 60% w stosunku do rzeczywiście otrzymanej dokładności estymacji. W przypadku optymalnego sposobu wyznaczania rozmiarów prób otrzymujemy podobne wyniki. Z przeprowadzonej analizy wynika jednoznacznie, Ŝe istnieje realna moŝliwość podniesienia dokładności ocen wartości średnic badanyc cec carakteryzującyc działalność małyc firm. Mamy dwie moŝliwości: bądź ustalać liczebności prób losowanyc z warstw proporcjonalnie do rozmiarów odpowiednic warstw, bądź wyznaczać je w sposób optymalny. Ze względu na prostotę naleŝy wybrać pierwszy z wymienionyc wariantów wyznaczania liczebności prób. NaleŜy tu podkreślić, Ŝe proponowany sposób korekty sposobu wyznaczania liczebności losowanyc prób bynajmniej nie prowadzi do wzrostu kosztów badania, bo suma liczebności prób losowanyc z warstw pozostaje ta sama. Określony sposób wyznaczania liczebności prób moŝe prowadzić do wyliczenia ułamkowyc rozmiarów prób. Wówczas naleŝy zaokrąglić z nadmiarem otrzymane liczby. Ponadto naleŝy równieŝ zalecić aby losować przynajmniej dwa elementy z kaŝdej warstwy, co umoŝliwi wyliczenie oceny wariancji estymatora. Dodatek Prezentowane rezultaty były wyliczone za pomocą programu napisanego w języku macierzowym znanego pakietu statystycznego SPSS. Po to aby przeprowadzić te obliczenia naleŝy dysponować dwoma modułami tego pakietu, a są nimi: BASE-SYSTEM i ADVANCED STATISTICS 3. List prezentowanego programu pozwala wyliczyć wektor średnic z próby warstwowej i ocenia jego macierz wariancji i kowariancji. SET MXLOOP 6700. MATRIX. GET XX /VARIABLES=dpar,dpar2,dpbr,dpbr2,dpcr. GET W/VARIABLES=warstwa2. /* zmienna warswująca COMPUTE LZ=NCOL(XX). /* liczba zmiennyc GET NW/FILE='c:\wus\dg3_93\nrwar.sav'/VARIABLES=licz_war. /* NW - wektor liczebnosci warstw COMPUTE LW=NROW(NW). /* liczba warstw COMPUTE LPOP=CSUM(NW). /* liczebnosc populacji COMPUTE F=NW/LPOP. /* frakcje liczebnosci warstw COMPUTE LP=NROW(XX). /* liczebnosć próby COMPUTE V=MAKE(LZ,LZ,0). COMPUTE SX=MAKE(,LZ,0). 3 BliŜsze informacje o innyc modułac pakietu SPSS oraz o jego moŝliwościac uŝycia do róŝnyc analiz statystycznyc udziela firma COMPANION Oprogramowanie, ul. Królewska 57, 30-08 Kraków, tel.: (02)369680, tel/fax (02)36079, e-mail: mail@companion.krakow.pl
6 COMPUTE WLP=MAKE(,LW,0). /*wektor liczebnosci prób losowanyc z warstw LOOP #I= TO LW. LOOP #K= TO LP. DO IF (W(#K)=#I). COMPUTE WLP(#I)=WLP(#I)+. LOOP #I= TO LW. DO IF (WLP(#I)>0). COMPUTE =0. COMPUTE M=MAKE(WLP(#I),,0). LOOP #K= TO LP. DO IF (W(#K)=#I). COMPUTE =+. COMPUTE M()=#K. COMPUTE X=XX(M,:). COMPUTE SR=CSUM(X)/. COMPUTE SX=SX+SR*F(#I). DO IF (>). COMPUTE J=MAKE(,,). COMPUTE X=X-J*SR. COMPUTE C=T(X)*X/(-). /*MSAVE C/TYPE=COV/VARIABLES=dper,dper2,dp4. COMPUTE V=V+C*F(#I)*F(#I)*(NW(#I)-)/(NW(#I)*). MSAVE SX/TYPE=MEAN/OUTFILE='c:\wus\dg3_93\SRED.sav'/VARIABLES=dpar,dpar2. COMPUTE SR=T(SQRT(DIAG(V))). MSAVE SR/TYPE=MEAN/OUTFILE='c:\wus\dg3_93\SRED.sav'/VARIABLES=dpar,dpar2. MSAVE V/TYPE=COV/OUTFILE='c:\wus\dg3_93\SRED.sav'/VARIABLES=dpar,dpar2. COMPUTE b=sqrt(trace(v)). COMPUTE b2=det(v). COMPUTE L=EVAL(V). COMPUTE L=T(L). SAVE {b,b2,l}/outfile='c:\wus\dg3_93\param.sav'/variables=tr,det,l,l2,l3. END MATRIX. Bibliografia Steczkowski J. (995): Metoda reprezentacyjna w badaniac zjawisk ekonomicznospołecznyc. PWN, Warszawa.