Propozycja zastosowania metody klasyfikacji k-średnich oraz sieci neuronowej typu SOM do poprawy efektywności estymacji dla małych domen w reprezentacyjnym badaniu małych i średnich przedsiębiorstw dr Tomasz Jurkiewicz mgr Krzysztof Najman Katedra Statystyki Wydział Zarządzania Uniwersytet Gdański K.Najman@panda.bg.univ.gda.pl SOPOT 2002
Streszczenie Problem zbyt małej liczby obserwacji w próbie, reprezentującej określoną domenę populacji, może być rozwiązany między innymi poprzez zastosowanie takich estymatorów, które do szacowania parametrów w określonej supopulacji (małym obszarze, domenie) mogłyby wykorzystać informacje o innych jednostkach w próbie, które pochodzą spoza określonej części populacji. Jedna z metod estymacji dla małych domen zwana estymacją syntetyczną zakłada, że rozkład w badanej małej domenie jest identyczny z rozkładem całej populacji. Założenie to pozostaje zazwyczaj niespełnione, zwłaszcza w przypadku specyficznych domen, co skutkuje dużymi błędami estymacji. Autorzy przedstawiają propozycję dwuetapowego procesu estymacji. W pierwszym etapie za pomocą sieci neuronowych typu SOM oraz za pomocą metody klasyfikacji k- średnich określa się podobieństwa jednostek należących do małej domeny do jednostek z pozostałej części próby. Drugim krokiem jest wykorzystanie w estymacji, za pomocą odpowiednio skonstruowanych wag, informacji tylko z tych domen, które są podobne do badanej małej domeny. Autorzy przedstawiają rezultaty zastosowania podanej procedury w analizie branży budowlanej na podstawie wyników reprezentacyjnego badania małych i średnich przedsiębiorstw. Podjęli także próbę oszacowania błędów tak zmodyfikowanej metody estymacji syntetycznej. Wprowadzenie Rozwój gospodarczy i społeczny powoduje wzrost zapotrzebowania na informacje statystyczne dotyczące nie tylko całych zbiorowości, ale także ich wydzielonych części. Jednym ze skutecznych narzędzi zaspokajania tych potrzeb okazały się badania reprezentacyjne. Ze względów organizacyjnych i finansowych nie są one jednak w stanie dostarczyć wiarygodnych danych dla bardziej szczegółowego podziału populacji na subpopulacje (domeny studiów). Zbyt mała liczba obserwacji pochodzących z określonej domeny może być przeszkodą w zastosowaniu niektórych technik wnioskowania statystycznego, albo też może prowadzić do dużych błędów estymacji (por. Bracha (1996)). Jedną z możliwych metod rozwiązania tego problemu jest skonstruowania takich estymatorów, które do szacowania parametrów w określonej subpopulacji (małym obszarze, domenie) byłyby w stanie wykorzystać informacje o innych jednostkach w próbie, które pochodzą spoza określonej części populacji lub też dodatkowych informacji spoza próby. Małą domenę (mały obszar) można zdefiniować jako dziedzinę studiów, dla której informacje są istotne z punktu widzenia użytkownika danych oraz informacji tych nie można uzyskać metodą bezpośredniej estymacji ze względu na zbyt małą liczebność próby, bądź też informacje uzyskane za pomocą metod pośrednich będą bardziej wiarygodne. Nie ma powodów, aby zakres statystyki małych obszarów miał być ograniczany do jednostek terytorialnych, z metodologicznego punktu widzenia nie ma różnicy czy za małą domenę będziemy uważać podpopulację pochodzącą z jednego terytorium czy też podpopulację wyodrębnioną w inny sposób. Głównym celem pracy jest próba określenia właściwości modyfikowanego estymatora syntetycznego. Równoległym celem badania jest empiryczna weryfikacja przydatności modyfikowanego estymatora syntetycznego w warunkach konkretnego badania próbkowego.
Estymatory małych domen Istotą estymacji pośredniej jest pożyczenie informacji dla wzmocnienia oszacowania w interesującej statystyka domenie. Źródłem dodatkowych danych w przypadku badania reprezentacyjnego mogą być: inne domeny w próbie; informacja o liczebnościach poszczególnych warstw i domen w badanej populacji; informacja o wartościach dodatkowej cechy w próbie, silnie związanej z cechą badaną i co najmniej równie wiarygodnej; informacja o wartościach dodatkowej cechy w badanej populacji; inne dostępne informacje, np. dane z badań z innych okresów. Bezpośrednim estymatorem nieznanego parametru ΘY d w małej domenie jest estymator Horvitza-Thompsona, zwany estymatorem ekspansyjnym. Wykorzystuje on wyłącznie dane o wylosowanych jednostkach w próbie należących do małej domeny. Estymator HT jest wprawdzie nieobciążony, ale z uwagi na małą liczebność próby jego wariancja jest zazwyczaj wysoka. Dla parametru proporcji estymator będzie miał postać: k d HT p d = (1) nd gdzie k d i n d są odpowiednio liczebnością elementów wyróżnionych w domenie d i liczebnością małej domeny d. Estymacja syntetyczna stanowi jedną z pierwszych propozycji rozwiązania głównego problemu estymacji dla małych domen, jakim są niewystarczająca liczebność próby. W tym celu przyjmuje się pewne założenia odnośnie do badanej zbiorowości, aby do oszacowań dla domeny móc wykorzystać informacje z całej próby. Podstawowym założeniem w konstrukcji estymatorów syntetycznych jest podobieństwo struktury populacji do struktury badanej domeny czy domen. Może być ono przy tym ograniczone w pewnych przypadkach do podobieństwa niektórych tylko parametrów w populacji i domenie. Przykładowo podstawą konstrukcji estymatora syntetycznego zwykłego jest założenie, że średnie badanej cechy w populacji i domenie nie różnią się istotnie. Dla proporcji postać estymatora przedstawia statystyka: k syn p d = (2) n gdzie k i n są odpowiednio liczebnością elementów wyróżnionych w próbie i liczebnością całej próby. Stosując estymację syntetyczną należy zwrócić baczną uwagę na problem poprawności przyjętego modelu. Im bardziej założenia będące podstawą estymacji odbiegają od rzeczywistości, tym większe jest obciążenie estymatorów. Należy przy tym pamiętać, że obciążenie to po pierwsze może być znaczne, a po drugie nie jest ono w żaden sposób uwzględniane przez wzory na średnie błędy kwadratowe i estymatory błędów.
Modyfikowany Estymator Syntetyczny Założenie o zgodności struktur populacji i domeny pozostaje zazwyczaj niespełnione, zwłaszcza w przypadku specyficznych domen, co skutkuje dużymi błędami estymacji. Rozwiązaniem problemu może być taka modyfikacja estymatora, aby do wzmocnienia oszacowania w małej domenie wykorzystywane były informacje od jednostek czy też domen podobnych do badanej. Proponowana procedura estymacji przebiega w dwóch etapach. Pierwszym krokiem jest ustalenie, które jednostki czy też domeny są podobne do badanej. W zależności od stopnia podobieństwa czy też odległości ustalane są wagi dla dodatkowej informacji. I tak dane z jednostek podobnych będą miały stosunkowo wysoką wartość wagi, natomiast dane z jednostek odległych odpowiednio mniejszą lub nie będą w ogóle uwzględniane. Postać estymatora proporcji można zapisać: MES p d kd + = n + d n ~ d i= n yiwi 1 (3) gdzie w i wagi dla jednostek spoza małej domeny y i wartości badanej cechy zero-jedynkowej. Ustalenie podobieństwa badanej domeny do innych domen w populacji może zostać przeprowadzone między innymi za pomocą metod analizy wielowymiarowej. W pracy posłużono się metodą grupowania k-średnich. Jako alternatywną metodę klasyfikacji wykorzystano sieć neuronową typu Self Organizing Map (SOM), a następnie na uzyskanej mapie neuronów przeprowadzono grupowanie metodą k-średnich. Liczbę klas grupowania ustalono wykorzystując jako kryterium wartość indeksu Davies-Boulding (clustering evaluation index) postaci: DB c k = = 1 ~ d i= 1 w k; c Si + S j k i= j= i+ M max 1; 1 ij c gdzie: S i odchylenie standardowe w i-tej klasie; M ij odległość między klasami; c liczba klas. Indeks DB opiera się na ilorazie wariancji wewnątrz klas i odległości między klasami. Ustalenie optymalnej liczby klas polega na policzeniu wartości indeksu dla wszystkich wariantów ilości klas i wybraniu wariantu z minimalną wartością indeksu DB. Przy ustalaniu wag dla jednostek spoza małej domeny przyjęto założenie, iż waga powinna być wprost proporcjonalna do odsetka jednostek z małej domeny, które znalazły się w danej klasie. Wagę można zapisać jako: ndi nd wi = ndi max i nd gdzie n di liczba jednostek należących do domeny d które znalazły się w klasie i, γ współczynnik normujący z przedziału (0,1) określający maksymalną wartość wagi. γ i (4) (5)
Przykładowo, jeżeli w i-tej klasie znalazło się dwukrotnie więcej jednostek niż w j-tej, to wszystkie jednostki spoza małej domeny z i-tej klasy będą miały taką samą wagę i będzie to waga dwukrotnie wyższa niż jednostek z j-tej klasy. Warto zwrócić uwagę na jedną z zalet estymatora MES, którą jest możliwość wykorzystania informacji pochodzących spoza badania. Można mianowicie przy ustalaniu podobieństwa między domenami wykorzystywać dane z zupełnie innych, np. wcześniejszych badań bądź też dostępne informacje o populacji. W takim przypadku możliwej jest także wyznaczenie oszacowań parametrów dla domeny, która nie jest reprezentowana w próbie. Ocena własności estymatora MES Do oceny estymatora MES wykorzystano metodę bootstrapową. W kolejnych powtórzeniach losowano niezależnie 224 jednostki, traktując jako populację jednostki, które znalazły się pierwotnie w próbie. Wykonanych zostało 1000 symulacji. Dla każdej symulacji prowadzono grupowanie metodą k-średnich dla 5 klas i 20 iteracji oraz grupowanie za pomocą sieci neuronowej SOM przy założeniu sieci 12x12 z funkcją sąsiedztwa bubble i liczbą skupisk ustalaną z przedziału (2, 9) na podstawie indeksu DB. Powyższe założenia były optymalne dla danych z pierwotnej próby. Wyszukiwanie optymalnych parametrów grupowania dla każdej próby bootstrapowej mogłoby poprawić ostateczne wyniki estymacji, jednakże ze względu na długi czas pojedynczej symulacji zdecydowano się zachować jednolite parametry we wszystkich symulacjach. Aby ocenić własności estymatorów parametru ΘY d posługiwano się w niniejszym badaniu średnim obciążeniem estymatora we wszystkich s eksperymentach obliczanym według następującej formuły: s ( Pf, i ΘYd ) i= 1 BIAS f = s 100 (6) gdzie: P f,i jest wartością f-tego estymatora w i-tym eksperymencie; ΘY d jest rzeczywistą wartością proporcji cechy Y w domenie d. Drugim elementem oceny był pierwiastek średniego błędu kwadratowego, obliczany według wzoru: s 2 ( Pf, i ΘYd ) i= 1 sqr( MSE f ) = s 100 (7) Badaną charakterystyką były wskaźniki struktury, dlatego też obciążenie i średni błąd wyrażono dla przejrzystości w procentach. Po eksperymencie obliczano także wartość względnego momentu trzeciego, czyli miary skośności rozkładu uzyskanych wartości oszacowań oraz czwartego momentu względnego, będącego miarą spłaszczenia rozkładu.
Badanie reprezentacyjne małych przedsiębiorstw w województwie pomorskim Badanie sektora małych przedsiębiorstw w województwie pomorskim i lubelskim przeprowadzone zostało przez międzynarodowy zespół naukowców 1. Populację badania stanowiły małe przedsiębiorstwa w województwie pomorskim, liczące od 10 do 49 zatrudnionych zarejestrowane w rejestrze REGON na dzień 30 czerwca 1999. Z populacji zostały wykluczone niektóre branże, pominięto sekcję E energetykę oraz administrację publiczną, ochronę zdrowia i edukację. Liczebność próby dla województwa pomorskiego określono na poziomie 237 przedsiębiorstw, to jest ok. 5% populacji badania. Skonstruowana dla potrzeb badania ankieta obejmowała 58 pytań i składała się z sześciu działów. Otrzymana w wyniku przeprowadzonych wywiadów próba liczyła 239 jednostek. Dla potrzeb niniejszej pracy odrzucono z próby 15 jednostek, które nie spełniały niektórych postawionych przy projektowaniu badania kryteriów. Odrzucono firmy, które według podanego numeru REGON pochodziły z innych niż wybrane kategorii działalności gospodarczej oraz firmy, w ankietach których znajdowało się dużo braków odpowiedzi. Sektor budownictwa jest jednym z najistotniejszych działów każdej gospodarki. Bardzo często wyniki finansowe i wielkość produkcji tego sektora traktowane są jako barometr gospodarki. W publikacjach dotyczących sytuacji gospodarczej obok zmian wielkości produkcji dla całej gospodarki podawane są także zmiany wielkości produkcji budowlano-montażowej. W badanej grupie 224 przedsiębiorstw w województwie pomorskim 19 firm (8,5%) należało do sektora budownictwa (kod EKD zaczynający się od 45). Liczebność ta jest dalece niewystarczająca do wiarygodnego opisu sektora budownictwa przy pomocy estymatorów bezpośrednich. Wynika to z potencjalnie bardzo dużej wartość przeciętnego błędu oszacowania, który osiągać może nawet 11,5%. A zatem opis tego sektora powinien być oparty o inne, dające bardziej wiarygodne wyniki, metody estymacji. Jedną z takich możliwości jest uznanie tego działu jako małej domeny i zastosowanie metod estymacji dla małych domen. Wyniki badania W tablicy 2 prezentowane są wartości pierwiastka z MSE dla oszacowań przykładowych sześciu zmiennych: odsetka firm powstałych po 1994 roku; firm upatrujących swojej przewagi nad konkurencją w atrakcyjności produktów; firm upatrujących swojej przewagi nad konkurencją w wysokiej jakości; firm, które poniosły wydatki na inwestycje rzeczowe w 1999 r.; firm upatrujących swoich szans w wysokich kwalifikacjach pracowników; firm upatrujących swoich szans w dobrej znajomości rynku. Dwie ostatnie zmienne charakteryzowały się dość zbliżonym poziomem w populacji i domenie. Pierwsze cztery zmienne charakteryzowały się dość dużą różnicą między wartością w domenie i populacji sięgającą dla drugiej cechy ponad 20 punktów procentowych. 1 W skład zespołu badawczego wchodzili pracownicy Katedry Statystyki Uniwersytetu Gdańskiego dr hab. A. Balicki, dr hab. M. Szreder, mgr T. Jurkiewicz, Politechniki Gdańskiej dr hab. F. Bławat, dr hab. J. Ossowski, mgr K. Zięba i partnerzy zagraniczni z Kingston University (W. Brytania) i Panteion University (Ateny, Grecja). Część badania, obejmującą małe przedsiębiorstwa w województwie pomorskim, sfinansowana została ze środków programu Komisji Europejskiej Phare ACE Programme 1997 contract no. P97 8123 R oraz środków przyznanych na badanie własne BW 2320 5 0237 9 autorowi.
Można zauważyć, że o ile wariancja estymatora MES (tablica 1) jest w stosunku do estymatora HT sporo niższa, to na skutek obciążenia średni błąd kwadratowy jest przeważnie większy. Jedynie dla oszacowań dwóch ostatnich zmiennych estymator MES okazuje się efektywniejszy, ale tylko przy parametrze γ mniejszym niż 0,5. Tablica 1. Wariancja estymatorów (pierwiastek) wykorzystujących sieci neuronowe typu SOM w zależności od maksymalnej wagi γ MESp 1 MES p 2 MES p 3 MES p 4 MES p 5 MES p 6 1 3,89% 5,06% 5,18% 5,98% 5,24% 4,88% 0,5 3,99% 4,90% 5,28% 5,78% 5,19% 4,86% 0,3 4,28% 5,07% 5,65% 5,86% 5,40% 5,06% 0,2 4,68% 5,49% 6,18% 6,17% 5,79% 5,41% 0,1 5,60% 6,66% 7,48% 7,22% 6,89% 6,33% HT 8,59% 10,64% 11,72% 11,50% 10,83% 9,73% Tablica 2. Średni błąd kwadratowy (pierwiastek) estymatorów wykorzystujących sieci neuronowe typu SOM w zależności od maksymalnej wagi γ MESp 1 MES p 2 MES p 3 MES p 4 MES p 5 MES p 6 1 17,73% 15,81% 21,29% 13,30% 11,05% 11,40% 0,5 15,74% 13,95% 18,94% 11,86% 9,84% 10,19% 0,3 13,74% 12,10% 16,56% 10,40% 8,62% 8,96% 0,2 11,89% 10,42% 14,35% 9,04% 7,49% 7,80% 0,1 8,55% 7,41% 10,32% 6,53% 5,42% 5,68% HT * 7,5% 9,0% 8,2% 9,5% 9,4% 9,8% syn * 12,4% 12,2% 20,6% 17,0% 3,3% 3,8% * wartości przybliżone Tablica 3. Średni błąd kwadratowy (pierwiastek) estymatorów wykorzystujących metodę grupowania k-średnich w zależności od maksymalnej wagi γ MESp 1 MES p 2 MES p 3 MES p 4 MES p 5 MES p 6 1 17,12% 14,11% 24,22% 14,12% 10,83% 11,28% 0,5 15,47% 12,76% 21,87% 12,78% 9,82% 10,21% 0,3 13,74% 11,34% 19,40% 11,35% 8,76% 9,08% 0,2 12,07% 9,98% 17,03% 9,98% 7,73% 7,99% 0,1 8,90% 7,37% 12,53% 7,35% 5,74% 5,91% Tablica 4. Różnica błędów estymatorów z wykorzystaniem SOM i estymatorów z wykorzystaniem k-średnich γ MESp 1 MES p 2 MES p 3 MES p 4 MES p 5 MES p 6 1 0,61% 1,70% -2,93% -0,82% 0,22% 0,12% 0,5 0,27% 1,18% -2,93% -0,91% 0,02% -0,02% 0,3 0,00% 0,76% -2,84% -0,95% -0,13% -0,13% 0,2-0,18% 0,44% -2,68% -0,94% -0,23% -0,19% 0,1-0,35% 0,04% -2,21% -0,82% -0,32% -0,23%
Porównując wyniki uzyskane przy różnych metodach grupowania można stwierdzić, że uzyskane oszacowania nie różnią się zbyt mocno (patrz wykres 1). Najwyższa zaobserwowana różnica wynosi 4,8 punktu procentowego dla piątej zmiennej przy parametrze γ = 1. Efektywność estymatorów także pozostaje na zbliżonym poziomie, aczkolwiek w przypadku trzeciej zmiennej metoda grupowania k-średnich okazała się zdecydowanie mniej efektywna. Wykres 1. Wartości estymatorów wykorzystujących sieci neuronowe typu SOM i metodę grupowania k-średnich w zależności od maksymalnej wagi 80% 70% 60% 50% 40% 30% 20% 10% 0% p KS(0,1) KS(0,2) KS(0,3) KS(0,5) KS(1) p SOM(0,1) SOM(0,2) SOM(0,3) SOM(0,5) SOM(1) Na wykresie 2 przedstawiono przykłady uzyskanych rozkładów estymatorów MES dla różnych wartości szacowanego parametru p d. Rozkłady estymatorów charakteryzują się w miarę normalnym spłaszczeniem, α 4 w większości przypadków był bliski zeru i zdecydowanej większości dodatni, co oznacza, że rozkłady estymatorów są bardziej wysmukłe w porównaniu do rozkładu normalnego. Dla najbardziej spłaszczonego rozkładu wartość α 4 wynosiła ok. 0,2. Uzyskane rozkłady były także w przybliżeniu symetryczne, przy czym wielkość asymetrii rosła wraz ze zmniejszaniem parametru γ. Ponadto przy stosunkowo dużych wartościach parametru γ rozkłady można było uznać za normalne (test χ 2 przy podziale na 18 klas). Pewne zniekształcenia widoczne na wykresie wynikają z niedużej ilości powtórzeń symulacji.
Wykres 2. Przykładowe rozkłady modyfikowanych estymatorów syntetycznych oraz aproksymacja rozkładu normalnego p d 0,3 p d 0,5 p d 0,05
Wnioski Zastosowanie modyfikowanego estymatora syntetycznego MES wydaje się być dobrą alternatywą do szacowania parametrów rozkładów w małych domenach, w szczególności w tych domenach, które dość mocno różnią się od populacji. Charakteryzuje się on bowiem stosunkowo niską wariancją, jego obciążenie może być wprawdzie znaczne, jednak w zdecydowanej większości przypadków mniejsze niż estymatora syntetycznego. Rozkład estymatora w wielu przypadkach można uznać za normalny bądź bliski normalnemu. Wybór metody grupowania wydaje się mieć drugorzędne znaczenie, wprawdzie zaobserwować można różnice w efektywności, jednak wartości oszacowań parametrów są na zbliżonym poziomie. Ważnym elementem jest ustalenie sposobu ważenia informacji dodatkowych. Zmiana parametru γ, ustalającego maksymalną wartość wagi powodowała dość istotne zmiany zarówno oszacowań parametrów jak i efektywności estymatorów. W pracy przyjęto wagi uzależnione od ilości wystąpień jednostek z małej domeny w klasie. Wydaje się, że lepszym rozwiązaniem byłoby ustalanie wagi dla każdej obserwacji pochodzącej spoza małej domeny indywidualnie na podstawie odległości danej jednostki od jednostek należących do małej domeny. Metoda ta wymaga jednak obecności w próbie odpowiedniej ilości jednostek z małej domeny.