dr Tomasz Jurkiewicz mgr Krzysztof Najman Katedra Statystyki Wydział Zarządzania Uniwersytet Gdański K.Najman@panda.bg.univ.gda.pl



Podobne dokumenty
Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Badania sondażowe. Schematy losowania. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

Statystyka matematyczna dla leśników

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Wnioskowanie statystyczne. Statystyka w 5

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Testowanie hipotez statystycznych

Statystyka Małych Obszarów w badaniach próbkowych

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Pobieranie prób i rozkład z próby

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Zadania ze statystyki, cz.6

Kolokwium ze statystyki matematycznej

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

166 Wstęp do statystyki matematycznej

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Estymacja punktowa i przedziałowa

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

IV WYKŁAD STATYSTYKA. 26/03/2014 B8 sala 0.10B Godz. 15:15

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

W2. Zmienne losowe i ich rozkłady. Wnioskowanie statystyczne.

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

METODY STATYSTYCZNE W BIOLOGII

Testowanie hipotez statystycznych.

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

Statystyczne metody analizy danych

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Statystyka w pracy badawczej nauczyciela Wykład 3: Analiza struktury zbiorowości statystycznej. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Wnioskowanie statystyczne i weryfikacja hipotez statystycznych

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

STATYSTYKA MATEMATYCZNA

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Analiza współzależności zjawisk

Próbkowanie. Wykład 4 Próbkowanie i rozkłady próbkowe. Populacja a próba. Błędy w póbkowaniu, cd, Przykład 1 (Ochotnicy)

Statystyka matematyczna. Wykład IV. Weryfikacja hipotez statystycznych

ESTYMACJA PRZEDZIAŁOWA WYBRANYCH PARAMETRÓW

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Oszacowanie i rozkład t

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

Metody probabilistyczne

Grupowanie materiału statystycznego

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Statystyka w pracy badawczej nauczyciela

Wykład 5: Statystyki opisowe (część 2)

STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE

Statystyka Matematyczna Anna Janicka

3. Wojewódzkie zróżnicowanie zatrudnienia w ochronie zdrowia w latach Opis danych statystycznych

Spis treści 3 SPIS TREŚCI

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

STATYSTYKA MATEMATYCZNA WYKŁAD stycznia 2010

Wydział Matematyki. Testy zgodności. Wykład 03

Testowanie hipotez statystycznych.

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

Propensity score matching (PSM)

Statystyka i opracowanie danych- W 8 Wnioskowanie statystyczne. Testy statystyczne. Weryfikacja hipotez statystycznych.

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Natalia Neherbecka. 11 czerwca 2010

Miary statystyczne w badaniach pedagogicznych

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

1. Opis tabelaryczny. 2. Graficzna prezentacja wyników. Do technik statystyki opisowej można zaliczyć:

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Statystyka. Opisowa analiza zjawisk masowych

POJĘCIA WSTĘPNE. STATYSTYKA - nauka traktująca o metodach ilościowych badania prawidłowości zjawisk (procesów) masowych.

PDF created with FinePrint pdffactory Pro trial version

LABORATORIUM 3. Jeśli p α, to hipotezę zerową odrzucamy Jeśli p > α, to nie mamy podstaw do odrzucenia hipotezy zerowej

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Porównanie dwóch rozkładów normalnych

), którą będziemy uważać za prawdziwą jeżeli okaże się, że hipoteza H 0

Transkrypt:

Propozycja zastosowania metody klasyfikacji k-średnich oraz sieci neuronowej typu SOM do poprawy efektywności estymacji dla małych domen w reprezentacyjnym badaniu małych i średnich przedsiębiorstw dr Tomasz Jurkiewicz mgr Krzysztof Najman Katedra Statystyki Wydział Zarządzania Uniwersytet Gdański K.Najman@panda.bg.univ.gda.pl SOPOT 2002

Streszczenie Problem zbyt małej liczby obserwacji w próbie, reprezentującej określoną domenę populacji, może być rozwiązany między innymi poprzez zastosowanie takich estymatorów, które do szacowania parametrów w określonej supopulacji (małym obszarze, domenie) mogłyby wykorzystać informacje o innych jednostkach w próbie, które pochodzą spoza określonej części populacji. Jedna z metod estymacji dla małych domen zwana estymacją syntetyczną zakłada, że rozkład w badanej małej domenie jest identyczny z rozkładem całej populacji. Założenie to pozostaje zazwyczaj niespełnione, zwłaszcza w przypadku specyficznych domen, co skutkuje dużymi błędami estymacji. Autorzy przedstawiają propozycję dwuetapowego procesu estymacji. W pierwszym etapie za pomocą sieci neuronowych typu SOM oraz za pomocą metody klasyfikacji k- średnich określa się podobieństwa jednostek należących do małej domeny do jednostek z pozostałej części próby. Drugim krokiem jest wykorzystanie w estymacji, za pomocą odpowiednio skonstruowanych wag, informacji tylko z tych domen, które są podobne do badanej małej domeny. Autorzy przedstawiają rezultaty zastosowania podanej procedury w analizie branży budowlanej na podstawie wyników reprezentacyjnego badania małych i średnich przedsiębiorstw. Podjęli także próbę oszacowania błędów tak zmodyfikowanej metody estymacji syntetycznej. Wprowadzenie Rozwój gospodarczy i społeczny powoduje wzrost zapotrzebowania na informacje statystyczne dotyczące nie tylko całych zbiorowości, ale także ich wydzielonych części. Jednym ze skutecznych narzędzi zaspokajania tych potrzeb okazały się badania reprezentacyjne. Ze względów organizacyjnych i finansowych nie są one jednak w stanie dostarczyć wiarygodnych danych dla bardziej szczegółowego podziału populacji na subpopulacje (domeny studiów). Zbyt mała liczba obserwacji pochodzących z określonej domeny może być przeszkodą w zastosowaniu niektórych technik wnioskowania statystycznego, albo też może prowadzić do dużych błędów estymacji (por. Bracha (1996)). Jedną z możliwych metod rozwiązania tego problemu jest skonstruowania takich estymatorów, które do szacowania parametrów w określonej subpopulacji (małym obszarze, domenie) byłyby w stanie wykorzystać informacje o innych jednostkach w próbie, które pochodzą spoza określonej części populacji lub też dodatkowych informacji spoza próby. Małą domenę (mały obszar) można zdefiniować jako dziedzinę studiów, dla której informacje są istotne z punktu widzenia użytkownika danych oraz informacji tych nie można uzyskać metodą bezpośredniej estymacji ze względu na zbyt małą liczebność próby, bądź też informacje uzyskane za pomocą metod pośrednich będą bardziej wiarygodne. Nie ma powodów, aby zakres statystyki małych obszarów miał być ograniczany do jednostek terytorialnych, z metodologicznego punktu widzenia nie ma różnicy czy za małą domenę będziemy uważać podpopulację pochodzącą z jednego terytorium czy też podpopulację wyodrębnioną w inny sposób. Głównym celem pracy jest próba określenia właściwości modyfikowanego estymatora syntetycznego. Równoległym celem badania jest empiryczna weryfikacja przydatności modyfikowanego estymatora syntetycznego w warunkach konkretnego badania próbkowego.

Estymatory małych domen Istotą estymacji pośredniej jest pożyczenie informacji dla wzmocnienia oszacowania w interesującej statystyka domenie. Źródłem dodatkowych danych w przypadku badania reprezentacyjnego mogą być: inne domeny w próbie; informacja o liczebnościach poszczególnych warstw i domen w badanej populacji; informacja o wartościach dodatkowej cechy w próbie, silnie związanej z cechą badaną i co najmniej równie wiarygodnej; informacja o wartościach dodatkowej cechy w badanej populacji; inne dostępne informacje, np. dane z badań z innych okresów. Bezpośrednim estymatorem nieznanego parametru ΘY d w małej domenie jest estymator Horvitza-Thompsona, zwany estymatorem ekspansyjnym. Wykorzystuje on wyłącznie dane o wylosowanych jednostkach w próbie należących do małej domeny. Estymator HT jest wprawdzie nieobciążony, ale z uwagi na małą liczebność próby jego wariancja jest zazwyczaj wysoka. Dla parametru proporcji estymator będzie miał postać: k d HT p d = (1) nd gdzie k d i n d są odpowiednio liczebnością elementów wyróżnionych w domenie d i liczebnością małej domeny d. Estymacja syntetyczna stanowi jedną z pierwszych propozycji rozwiązania głównego problemu estymacji dla małych domen, jakim są niewystarczająca liczebność próby. W tym celu przyjmuje się pewne założenia odnośnie do badanej zbiorowości, aby do oszacowań dla domeny móc wykorzystać informacje z całej próby. Podstawowym założeniem w konstrukcji estymatorów syntetycznych jest podobieństwo struktury populacji do struktury badanej domeny czy domen. Może być ono przy tym ograniczone w pewnych przypadkach do podobieństwa niektórych tylko parametrów w populacji i domenie. Przykładowo podstawą konstrukcji estymatora syntetycznego zwykłego jest założenie, że średnie badanej cechy w populacji i domenie nie różnią się istotnie. Dla proporcji postać estymatora przedstawia statystyka: k syn p d = (2) n gdzie k i n są odpowiednio liczebnością elementów wyróżnionych w próbie i liczebnością całej próby. Stosując estymację syntetyczną należy zwrócić baczną uwagę na problem poprawności przyjętego modelu. Im bardziej założenia będące podstawą estymacji odbiegają od rzeczywistości, tym większe jest obciążenie estymatorów. Należy przy tym pamiętać, że obciążenie to po pierwsze może być znaczne, a po drugie nie jest ono w żaden sposób uwzględniane przez wzory na średnie błędy kwadratowe i estymatory błędów.

Modyfikowany Estymator Syntetyczny Założenie o zgodności struktur populacji i domeny pozostaje zazwyczaj niespełnione, zwłaszcza w przypadku specyficznych domen, co skutkuje dużymi błędami estymacji. Rozwiązaniem problemu może być taka modyfikacja estymatora, aby do wzmocnienia oszacowania w małej domenie wykorzystywane były informacje od jednostek czy też domen podobnych do badanej. Proponowana procedura estymacji przebiega w dwóch etapach. Pierwszym krokiem jest ustalenie, które jednostki czy też domeny są podobne do badanej. W zależności od stopnia podobieństwa czy też odległości ustalane są wagi dla dodatkowej informacji. I tak dane z jednostek podobnych będą miały stosunkowo wysoką wartość wagi, natomiast dane z jednostek odległych odpowiednio mniejszą lub nie będą w ogóle uwzględniane. Postać estymatora proporcji można zapisać: MES p d kd + = n + d n ~ d i= n yiwi 1 (3) gdzie w i wagi dla jednostek spoza małej domeny y i wartości badanej cechy zero-jedynkowej. Ustalenie podobieństwa badanej domeny do innych domen w populacji może zostać przeprowadzone między innymi za pomocą metod analizy wielowymiarowej. W pracy posłużono się metodą grupowania k-średnich. Jako alternatywną metodę klasyfikacji wykorzystano sieć neuronową typu Self Organizing Map (SOM), a następnie na uzyskanej mapie neuronów przeprowadzono grupowanie metodą k-średnich. Liczbę klas grupowania ustalono wykorzystując jako kryterium wartość indeksu Davies-Boulding (clustering evaluation index) postaci: DB c k = = 1 ~ d i= 1 w k; c Si + S j k i= j= i+ M max 1; 1 ij c gdzie: S i odchylenie standardowe w i-tej klasie; M ij odległość między klasami; c liczba klas. Indeks DB opiera się na ilorazie wariancji wewnątrz klas i odległości między klasami. Ustalenie optymalnej liczby klas polega na policzeniu wartości indeksu dla wszystkich wariantów ilości klas i wybraniu wariantu z minimalną wartością indeksu DB. Przy ustalaniu wag dla jednostek spoza małej domeny przyjęto założenie, iż waga powinna być wprost proporcjonalna do odsetka jednostek z małej domeny, które znalazły się w danej klasie. Wagę można zapisać jako: ndi nd wi = ndi max i nd gdzie n di liczba jednostek należących do domeny d które znalazły się w klasie i, γ współczynnik normujący z przedziału (0,1) określający maksymalną wartość wagi. γ i (4) (5)

Przykładowo, jeżeli w i-tej klasie znalazło się dwukrotnie więcej jednostek niż w j-tej, to wszystkie jednostki spoza małej domeny z i-tej klasy będą miały taką samą wagę i będzie to waga dwukrotnie wyższa niż jednostek z j-tej klasy. Warto zwrócić uwagę na jedną z zalet estymatora MES, którą jest możliwość wykorzystania informacji pochodzących spoza badania. Można mianowicie przy ustalaniu podobieństwa między domenami wykorzystywać dane z zupełnie innych, np. wcześniejszych badań bądź też dostępne informacje o populacji. W takim przypadku możliwej jest także wyznaczenie oszacowań parametrów dla domeny, która nie jest reprezentowana w próbie. Ocena własności estymatora MES Do oceny estymatora MES wykorzystano metodę bootstrapową. W kolejnych powtórzeniach losowano niezależnie 224 jednostki, traktując jako populację jednostki, które znalazły się pierwotnie w próbie. Wykonanych zostało 1000 symulacji. Dla każdej symulacji prowadzono grupowanie metodą k-średnich dla 5 klas i 20 iteracji oraz grupowanie za pomocą sieci neuronowej SOM przy założeniu sieci 12x12 z funkcją sąsiedztwa bubble i liczbą skupisk ustalaną z przedziału (2, 9) na podstawie indeksu DB. Powyższe założenia były optymalne dla danych z pierwotnej próby. Wyszukiwanie optymalnych parametrów grupowania dla każdej próby bootstrapowej mogłoby poprawić ostateczne wyniki estymacji, jednakże ze względu na długi czas pojedynczej symulacji zdecydowano się zachować jednolite parametry we wszystkich symulacjach. Aby ocenić własności estymatorów parametru ΘY d posługiwano się w niniejszym badaniu średnim obciążeniem estymatora we wszystkich s eksperymentach obliczanym według następującej formuły: s ( Pf, i ΘYd ) i= 1 BIAS f = s 100 (6) gdzie: P f,i jest wartością f-tego estymatora w i-tym eksperymencie; ΘY d jest rzeczywistą wartością proporcji cechy Y w domenie d. Drugim elementem oceny był pierwiastek średniego błędu kwadratowego, obliczany według wzoru: s 2 ( Pf, i ΘYd ) i= 1 sqr( MSE f ) = s 100 (7) Badaną charakterystyką były wskaźniki struktury, dlatego też obciążenie i średni błąd wyrażono dla przejrzystości w procentach. Po eksperymencie obliczano także wartość względnego momentu trzeciego, czyli miary skośności rozkładu uzyskanych wartości oszacowań oraz czwartego momentu względnego, będącego miarą spłaszczenia rozkładu.

Badanie reprezentacyjne małych przedsiębiorstw w województwie pomorskim Badanie sektora małych przedsiębiorstw w województwie pomorskim i lubelskim przeprowadzone zostało przez międzynarodowy zespół naukowców 1. Populację badania stanowiły małe przedsiębiorstwa w województwie pomorskim, liczące od 10 do 49 zatrudnionych zarejestrowane w rejestrze REGON na dzień 30 czerwca 1999. Z populacji zostały wykluczone niektóre branże, pominięto sekcję E energetykę oraz administrację publiczną, ochronę zdrowia i edukację. Liczebność próby dla województwa pomorskiego określono na poziomie 237 przedsiębiorstw, to jest ok. 5% populacji badania. Skonstruowana dla potrzeb badania ankieta obejmowała 58 pytań i składała się z sześciu działów. Otrzymana w wyniku przeprowadzonych wywiadów próba liczyła 239 jednostek. Dla potrzeb niniejszej pracy odrzucono z próby 15 jednostek, które nie spełniały niektórych postawionych przy projektowaniu badania kryteriów. Odrzucono firmy, które według podanego numeru REGON pochodziły z innych niż wybrane kategorii działalności gospodarczej oraz firmy, w ankietach których znajdowało się dużo braków odpowiedzi. Sektor budownictwa jest jednym z najistotniejszych działów każdej gospodarki. Bardzo często wyniki finansowe i wielkość produkcji tego sektora traktowane są jako barometr gospodarki. W publikacjach dotyczących sytuacji gospodarczej obok zmian wielkości produkcji dla całej gospodarki podawane są także zmiany wielkości produkcji budowlano-montażowej. W badanej grupie 224 przedsiębiorstw w województwie pomorskim 19 firm (8,5%) należało do sektora budownictwa (kod EKD zaczynający się od 45). Liczebność ta jest dalece niewystarczająca do wiarygodnego opisu sektora budownictwa przy pomocy estymatorów bezpośrednich. Wynika to z potencjalnie bardzo dużej wartość przeciętnego błędu oszacowania, który osiągać może nawet 11,5%. A zatem opis tego sektora powinien być oparty o inne, dające bardziej wiarygodne wyniki, metody estymacji. Jedną z takich możliwości jest uznanie tego działu jako małej domeny i zastosowanie metod estymacji dla małych domen. Wyniki badania W tablicy 2 prezentowane są wartości pierwiastka z MSE dla oszacowań przykładowych sześciu zmiennych: odsetka firm powstałych po 1994 roku; firm upatrujących swojej przewagi nad konkurencją w atrakcyjności produktów; firm upatrujących swojej przewagi nad konkurencją w wysokiej jakości; firm, które poniosły wydatki na inwestycje rzeczowe w 1999 r.; firm upatrujących swoich szans w wysokich kwalifikacjach pracowników; firm upatrujących swoich szans w dobrej znajomości rynku. Dwie ostatnie zmienne charakteryzowały się dość zbliżonym poziomem w populacji i domenie. Pierwsze cztery zmienne charakteryzowały się dość dużą różnicą między wartością w domenie i populacji sięgającą dla drugiej cechy ponad 20 punktów procentowych. 1 W skład zespołu badawczego wchodzili pracownicy Katedry Statystyki Uniwersytetu Gdańskiego dr hab. A. Balicki, dr hab. M. Szreder, mgr T. Jurkiewicz, Politechniki Gdańskiej dr hab. F. Bławat, dr hab. J. Ossowski, mgr K. Zięba i partnerzy zagraniczni z Kingston University (W. Brytania) i Panteion University (Ateny, Grecja). Część badania, obejmującą małe przedsiębiorstwa w województwie pomorskim, sfinansowana została ze środków programu Komisji Europejskiej Phare ACE Programme 1997 contract no. P97 8123 R oraz środków przyznanych na badanie własne BW 2320 5 0237 9 autorowi.

Można zauważyć, że o ile wariancja estymatora MES (tablica 1) jest w stosunku do estymatora HT sporo niższa, to na skutek obciążenia średni błąd kwadratowy jest przeważnie większy. Jedynie dla oszacowań dwóch ostatnich zmiennych estymator MES okazuje się efektywniejszy, ale tylko przy parametrze γ mniejszym niż 0,5. Tablica 1. Wariancja estymatorów (pierwiastek) wykorzystujących sieci neuronowe typu SOM w zależności od maksymalnej wagi γ MESp 1 MES p 2 MES p 3 MES p 4 MES p 5 MES p 6 1 3,89% 5,06% 5,18% 5,98% 5,24% 4,88% 0,5 3,99% 4,90% 5,28% 5,78% 5,19% 4,86% 0,3 4,28% 5,07% 5,65% 5,86% 5,40% 5,06% 0,2 4,68% 5,49% 6,18% 6,17% 5,79% 5,41% 0,1 5,60% 6,66% 7,48% 7,22% 6,89% 6,33% HT 8,59% 10,64% 11,72% 11,50% 10,83% 9,73% Tablica 2. Średni błąd kwadratowy (pierwiastek) estymatorów wykorzystujących sieci neuronowe typu SOM w zależności od maksymalnej wagi γ MESp 1 MES p 2 MES p 3 MES p 4 MES p 5 MES p 6 1 17,73% 15,81% 21,29% 13,30% 11,05% 11,40% 0,5 15,74% 13,95% 18,94% 11,86% 9,84% 10,19% 0,3 13,74% 12,10% 16,56% 10,40% 8,62% 8,96% 0,2 11,89% 10,42% 14,35% 9,04% 7,49% 7,80% 0,1 8,55% 7,41% 10,32% 6,53% 5,42% 5,68% HT * 7,5% 9,0% 8,2% 9,5% 9,4% 9,8% syn * 12,4% 12,2% 20,6% 17,0% 3,3% 3,8% * wartości przybliżone Tablica 3. Średni błąd kwadratowy (pierwiastek) estymatorów wykorzystujących metodę grupowania k-średnich w zależności od maksymalnej wagi γ MESp 1 MES p 2 MES p 3 MES p 4 MES p 5 MES p 6 1 17,12% 14,11% 24,22% 14,12% 10,83% 11,28% 0,5 15,47% 12,76% 21,87% 12,78% 9,82% 10,21% 0,3 13,74% 11,34% 19,40% 11,35% 8,76% 9,08% 0,2 12,07% 9,98% 17,03% 9,98% 7,73% 7,99% 0,1 8,90% 7,37% 12,53% 7,35% 5,74% 5,91% Tablica 4. Różnica błędów estymatorów z wykorzystaniem SOM i estymatorów z wykorzystaniem k-średnich γ MESp 1 MES p 2 MES p 3 MES p 4 MES p 5 MES p 6 1 0,61% 1,70% -2,93% -0,82% 0,22% 0,12% 0,5 0,27% 1,18% -2,93% -0,91% 0,02% -0,02% 0,3 0,00% 0,76% -2,84% -0,95% -0,13% -0,13% 0,2-0,18% 0,44% -2,68% -0,94% -0,23% -0,19% 0,1-0,35% 0,04% -2,21% -0,82% -0,32% -0,23%

Porównując wyniki uzyskane przy różnych metodach grupowania można stwierdzić, że uzyskane oszacowania nie różnią się zbyt mocno (patrz wykres 1). Najwyższa zaobserwowana różnica wynosi 4,8 punktu procentowego dla piątej zmiennej przy parametrze γ = 1. Efektywność estymatorów także pozostaje na zbliżonym poziomie, aczkolwiek w przypadku trzeciej zmiennej metoda grupowania k-średnich okazała się zdecydowanie mniej efektywna. Wykres 1. Wartości estymatorów wykorzystujących sieci neuronowe typu SOM i metodę grupowania k-średnich w zależności od maksymalnej wagi 80% 70% 60% 50% 40% 30% 20% 10% 0% p KS(0,1) KS(0,2) KS(0,3) KS(0,5) KS(1) p SOM(0,1) SOM(0,2) SOM(0,3) SOM(0,5) SOM(1) Na wykresie 2 przedstawiono przykłady uzyskanych rozkładów estymatorów MES dla różnych wartości szacowanego parametru p d. Rozkłady estymatorów charakteryzują się w miarę normalnym spłaszczeniem, α 4 w większości przypadków był bliski zeru i zdecydowanej większości dodatni, co oznacza, że rozkłady estymatorów są bardziej wysmukłe w porównaniu do rozkładu normalnego. Dla najbardziej spłaszczonego rozkładu wartość α 4 wynosiła ok. 0,2. Uzyskane rozkłady były także w przybliżeniu symetryczne, przy czym wielkość asymetrii rosła wraz ze zmniejszaniem parametru γ. Ponadto przy stosunkowo dużych wartościach parametru γ rozkłady można było uznać za normalne (test χ 2 przy podziale na 18 klas). Pewne zniekształcenia widoczne na wykresie wynikają z niedużej ilości powtórzeń symulacji.

Wykres 2. Przykładowe rozkłady modyfikowanych estymatorów syntetycznych oraz aproksymacja rozkładu normalnego p d 0,3 p d 0,5 p d 0,05

Wnioski Zastosowanie modyfikowanego estymatora syntetycznego MES wydaje się być dobrą alternatywą do szacowania parametrów rozkładów w małych domenach, w szczególności w tych domenach, które dość mocno różnią się od populacji. Charakteryzuje się on bowiem stosunkowo niską wariancją, jego obciążenie może być wprawdzie znaczne, jednak w zdecydowanej większości przypadków mniejsze niż estymatora syntetycznego. Rozkład estymatora w wielu przypadkach można uznać za normalny bądź bliski normalnemu. Wybór metody grupowania wydaje się mieć drugorzędne znaczenie, wprawdzie zaobserwować można różnice w efektywności, jednak wartości oszacowań parametrów są na zbliżonym poziomie. Ważnym elementem jest ustalenie sposobu ważenia informacji dodatkowych. Zmiana parametru γ, ustalającego maksymalną wartość wagi powodowała dość istotne zmiany zarówno oszacowań parametrów jak i efektywności estymatorów. W pracy przyjęto wagi uzależnione od ilości wystąpień jednostek z małej domeny w klasie. Wydaje się, że lepszym rozwiązaniem byłoby ustalanie wagi dla każdej obserwacji pochodzącej spoza małej domeny indywidualnie na podstawie odległości danej jednostki od jednostek należących do małej domeny. Metoda ta wymaga jednak obecności w próbie odpowiedniej ilości jednostek z małej domeny.