metody wagowe, metody imputacyjne.

Podobne dokumenty
ROZKŁAD NORMALNY. 2. Opis układu pomiarowego. Ćwiczenie może być realizowane za pomocą trzech wariantów zestawów pomiarowych: A, B i C.

Dobór zmiennych objaśniających do liniowego modelu ekonometrycznego

brak podstaw do odrzucenia hipotezy zerowej.

Weryfikacja hipotez dla wielu populacji

Analiza termodynamiczna ożebrowanego wymiennika ciepła z nierównomiernym dopływem czynników

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

MIEJSCE MODELU EKONOMETRYCZNEGO W WYCENIE NIERUCHOMOŚCI 1

Analiza pomiarów termoluminescencji izolatorów porcelanowych średniego napięcia

Ocena precyzji badań międzylaboratoryjnych metodą odporną "S-algorytm"

65120/ / / /200

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

Kognitywistyka II r. Teoria rzetelności wyników testu. Teorie inteligencji i sposoby jej pomiaru (4) Rzetelność czyli dokładność pomiaru

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

Prawdopodobieństwo i statystyka r.

Proces narodzin i śmierci

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Graf skierowany. Graf zależności dla struktur drzewiastych rozgrywających parametrycznie

Ocena siły oddziaływania procesów objaśniających dla modeli przestrzennych

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

WYCENA ENTROPOWA NA RYNKU ŁĄCZONYM

NADZOROWANIE DRGAŃ UKŁADÓW NOŚNYCH ROBOTÓW PRZEMYSŁOWYCH Z ZASTOSOWANIEM STEROWANIA OPTYMALNEGO PRZY ENERGETYCZNYM WSKAŹNIKU JAKOŚCI

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

Natalia Nehrebecka. Zajęcia 4

Wykład 15 Elektrostatyka

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Model klasyczny gospodarki otwartej

II.6. Wahadło proste.

Modelowanie przepływu cieczy przez ośrodki porowate Wykład III

WYDZIAŁ FIZYKI, MATEMATYKI I INFORMATYKI POLITECHNIKI KRAKOWSKIEJ Instytut Fizyki LABORATORIUM PODSTAW ELEKTROTECHNIKI, ELEKTRONIKI I MIERNICTWA

EFEKTYWNA STOPA PROCENTOWA O RÓWNOWAŻNA STPOPA PROCENTOWA

WYKŁAD 11 OPTYMALIZACJA WIELOKRYTERIALNA

ZWIĄZEK FUNKCJI OMEGA Z DOMINACJĄ STOCHASTYCZNĄ

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

Natalia Nehrebecka. Wykład 2

Analiza danych. Analiza danych wielowymiarowych. Regresja liniowa. Dyskryminacja liniowa. PARA ZMIENNYCH LOSOWYCH

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

WPŁYW POJEMNOŚCI KONDENSATORA PRACY JEDNOFAZOWEGO SILNIKA INDUKCYJNEGO Z POMOCNICZYM UZWOJENIEM KONDENSATOROWYM NA PROCES ROZRUCHU

m q κ (11.1) q ω (11.2) ω =,

ANALIZA KORELACJI WYDATKÓW NA KULTURĘ Z BUDŻETU GMIN ORAZ WYKSZTAŁCENIA RADNYCH

MIERNICTWO WIELKOŚCI ELEKTRYCZNYCH I NIEELEKTRYCZNYCH

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

0 0,2 0, p 0,1 0,2 0,5 0, p 0,3 0,1 0,2 0,4

Hipotezy o istotności oszacowao parametrów zmiennych objaśniających ˆ ) ˆ

SYMULACJE DLA MODELU GOSPODARKI KONKURENCYJNEJ Z ZAPASAMI

Dobór zmiennych do modelu ekonometrycznego

Energia potencjalna jest energią zgromadzoną w układzie. Energia potencjalna może być zmieniona w inną formę energii (na przykład energię kinetyczną)

Egzamin ze statystyki/ Studia Licencjackie Stacjonarne/ Termin I /czerwiec 2010

3. Siła bezwładności występująca podczas ruchu ciała w układzie obracającym się siła Coriolisa

1.1. Uprość opis zdarzeń: 1.2. Uprościć opis zdarzeń: a) A B A Uprościć opis zdarzeń: 1.4. Uprościć opis zdarzeń:

Badania sondażowe. Braki danych Konstrukcja wag. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

METEMATYCZNY MODEL OCENY

Podstawowe konfiguracje wzmacniaczy tranzystorowych. Klasyfikacja wzmacniaczy. Klasyfikacja wzmacniaczy

Minimalizacja globalna, algorytmy genetyczne i zastosowanie w geofizyce

Matematyka ubezpieczeń majątkowych r.

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

11. DYNAMIKA RUCHU DRGAJĄCEGO

Kształtowanie się firm informatycznych jako nowych elementów struktury przestrzennej przemysłu

Fizyka 7. Janusz Andrzejewski

BRYŁA SZTYWNA. Umowy. Aby uprościć rozważania w tym dziale będziemy przyjmować następujące umowy:

Zaawansowane metody numeryczne

Modele wieloczynnikowe. Modele wieloczynnikowe. Modele wieloczynnikowe ogólne. α β β β ε. Analiza i Zarządzanie Portfelem cz. 4.

Pattern Classification

Kryteria samorzutności procesów fizyko-chemicznych

AKADEMIA INWESTORA INDYWIDUALNEGO CZĘŚĆ II. AKCJE.

ĆWICZENIE 3 REZONANS W OBWODACH ELEKTRYCZNYCH

Regulacje i sądownictwo przeszkody w konkurencji między firmami w Europie Środkowej i Wschodniej

Indukcja elektromagnetyczna Indukcyjność Drgania w obwodach elektrycznych

Wartości wybranych przedsiębiorstw górniczych przy zastosowaniu EVA *

Tradycyjne mierniki ryzyka

Badanie współzaleŝności dwóch cech ilościowych X i Y. Analiza korelacji prostej. Badanie zaleŝności dwóch cech ilościowych. Analiza regresji prostej

INSTRUKCJA DO ĆWICZENIA

Podstawy Procesów i Konstrukcji Inżynierskich. Ruch obrotowy INZYNIERIAMATERIALOWAPL. Kierunek Wyróżniony przez PKA

DOLNOŚLĄSKA WOJEWÓDZKA KOMENDA OCHOTNICZYCH HUFCÓW PRACY

Ocena jakościowo-cenowych strategii konkurowania w polskim handlu produktami rolno-spożywczymi. dr Iwona Szczepaniak

POLE MAGNETYCZNE W PRÓŻNI - CD. Zjawisko indukcji elektromagnetycznej polega na powstawaniu prądu elektrycznego w

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

KOLOKACJA SYSTEMÓW BEZPRZEWODOWYCH NA OBIEKTACH MOBILNYCH

Zjawiska masowe takie, które mogą wystąpid nieograniczoną ilośd razy. Wyrazów Obcych)

Zawiadomienie o wyborze najkorzystniejszej oferty

1. Ciało sztywne, na które nie działa moment siły pozostaje w spoczynku lub porusza się ruchem obrotowym jednostajnym.

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Filtry analogowe. Opracowanie: Zbigniew Kulesza Literatura: U. Tietze, Ch. Schenk Układy Półprzewodnikowe, rozdział 14, WNT

EFEKTYWNE WYZNACZANIE NAPRĘŻEŃ ZA POMOCĄ METODY PURC Z WYKORZYSTANIEM UOGÓLNIONEJ STRATEGII APROKSYMACJI POCHODNYCH

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Wykład: praca siły, pojęcie energii potencjalnej. Zasada zachowania energii.

Nieparametryczne Testy Istotności

LABORATORIUM 6 ESTYMACJA cz. 2

Szybkie dzielenie. Szybkie dzielenie

Wpływ błędów parametrów modelu maszyny indukcyjnej na działanie rozszerzonego obserwatora prędkości

Spis treści I. Ilościowe określenia składu roztworów strona II. Obliczenia podczas sporządzania roztworów

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

Wykład 11. Pompa ciepła - uzupełnienie II Zasada Termodynamiki Entropia w ujęciu termodynamicznym c.d. Entropia w ujęciu statystycznym

Evaluation of estimation accuracy of correlation functions with use of virtual correlator model

6. METODY SYMULACYJNE SYSTEMU OCENY UKŁADÓW TOROWYCH (SOUT) (wg Woch, 1977)


Propozycja modyfikacji klasycznego podejścia do analizy gospodarności

System Przeciwdziałania Powstawaniu Bezrobocia na Terenach Słabo Zurbanizowanych SPRAWOZDANIE Z BADAŃ Autor: Joanna Wójcik

Transkrypt:

[ 183 ] W Jednym z poblemów paktycznych, któy zwązany jest z badanam statystycznym są bak danych. Konsekwencją neuzyskana odpowedz od częśc jednostek z póby jest spadek efektywnośc estymatoów. Zwykle bak danych powadzą także do obcążena estymatoów, ze względu na to, że ne pojawają sę one w póbe całkowce losowo. W ostatnm tzydzestolecu slne ozwnęły sę metody mające na celu edukcję błędu zwązanego z estymacją na podstawe nekompletnego zbou danych. Stosując badzo ogólne ujęce, metody te możemy podzelć na dwe gupy (po. Lttle Rubn 2002, s. 19-20; Sändal Lundstöm 2005, s. 17): metody wagowe, metody mputacyjne. Każda z wymenonych gup metod opea sę na dodatkowej nfomacj, któą uwzględna sę pzy estymacj. W pzypadku metod wagowych koekta ze względu na bak danych odbywa sę popzez modyfkację wyjścowych wag. W mputacj dodatkowa nfomacja wykozystywana jest do oszacowana tzw. modelu mputacyjnego, na podstawe któego uzupełnane są bak danych 1. W amach wyóżnonych gup wykształcły sę metody, któe ze względu na swoje własnośc zasługują na szczególną uwagę. Metody te to kalbacja oaz mputacja welokotna. Wymenone metody znajdują neco odmenne zastosowane. Ich użyteczność z punktu wdzena analzy nekompletnej póby zależy od dwóch głównych czynnków: pozomu złożonośc analzy oaz dostępnego wkładu nfomacyj- 1 W amach gupy metod mputacyjnych możemy wyóżnć metody bazujących na ozkładach pawdopodobeństwa (lkelhood-based appoaches). Imputacja odbywa sę w pzypadku tych metod w sposób pośedn dotyczy paametów, ne zaś poszczególnych watośc bakujących. Węcej nt. wskazanej gupy metod znajdzemy w pacach: Lttle Rubn 2002, cz. II; Molenbeghs Kenwad 2007, ozdzały 7-8.

[ 184 ] nego. Celem pacy jest poównane własnośc estymatoów otzymywanych pzy zastosowanu kalbacj oaz mputacj welokotnej. Weyfkacj poddano hpotezę, że mputacja welokotna jest metodą badzej efektywną nż metoda kalbacj. Wązać to możemy z faktem, że metoda ta ne powadz do utaty częśc nfomacj znajdującej sę w póbe (po. Lttle Rubn 2002, s. 53, Molenbegs Kenwad 2007, s. 119-133). Pozwala to na osągnęce podobnych wynków jake otzymujemy stosując kalbację pzy mnejszych wymaganach co do jakośc nfomacj dodatkowej. Poównane obu metod pzepowadzono w opacu o pzykład estymacj watośc globalnej pewnej cechy. W punkce pewszym pzedstawono estymatoy w postac wyjścowej. W punktach dugm tzecm opsane zostały odpowedno metoda kalbacj metoda mputacj welokotnej. Ostatn punkt pacy pośwęcony jest opsanu wynków zastosowana tych metod oaz ch podsumowanu. 1. B Załóżmy, że naszym celem jest estymacja paametu θ Y pewnej cechy Y na podstawe n-elementowej póby losowej z populacj o lczebnośc N. Nech π (=1,2,,n) oznacza pawdopodobeństwo nkluzj -tej jednostk do póby wyznaczone zgodne z pzyjętym schematem losowana. Na podstawe pawdopodobeństw nkluzj oblczane są wag d = 1/π, któe nfomują o tym le jednostek z populacj epezentowane jest pzez jednostkę z póby. Mając dane wynk z póby oaz wag możemy oszacować θ Y. Pzyjmujmy, że naszym celem jest estymacja watośc globalnej (θ Y =Y) zdefnowanej następująco 2 :, (1) Do oszacowana (1) możemy zastosować estymato Hovtza-hompsona: d y, (2) któy jest neobcążony dla π >0 (=1,2,,N) oaz pzy założenu, że póba jest kompletna (po. Bacha, 1998, s. 35-37). W paktyce badawczej założene o kompletnośc póby często ne jest spełnone. Nech nbędze lczbą znanych watośc cechy Y z póby. Oznacza to, że póba lczy n baków danych. Pzyjmjmy, że bak danych są losowe (mssng at andom MAR), pzez co ozumemy, że pawdopodobeństwo baku danych jest zależne N Y y Yˆ 1 n H 1 2 Estymatoy wybanych paametów dla wybanych schematów dobou póby wypowadzone pzy założenu dostępu do kompletnych pób znajdzemy w pacy Bacha (1998).

[ 185 ] od watośc znanych (po. Lttle Rubn, s. 11-13). Jeżel spełnone jest założene o losowośc baków danych, to oszacowane otzymane dla oganczonej póby możemy skoygować posługując sę dodatkową nfomacją o badanych jednostkach. Infomacja dodatkowa może pochodzć z póby (np. cecha dodatkowa) lub ze źódeł zewnętznych (np. ejesty admnstacyjne). 2. K Kalbacja jest metodą, któa polega na skoygowanu wyjścowych wag w tak sposób, aby możlwe najpełnej skompensować bak danych na analzowanej cesze. Do koekty wykozystuje sę nfomację pomocnczą zawatą w zboze danych lub pochodzącą ze źódeł zewnętznych. Ops metody kalbacj waz z pzykładam zastosowań znajdzemy w pacach: Sändal Lundstöm 2005; Paadysz Szymkowak 2007; Szymkowak 2010. Metoda kalbacj polega na wyznaczenu wag w dla =1,2,, któe będą możlwe najblższe wyjścowym wagom d otzymanym dla danego schematu losowana póby, pzy czym nowy system wag ma pozwalać na neobcążone oszacowane zadanego paametu. Postawony poblem jest to zagadnene optymalzacyjne, w któym szukamy w, któe mnmalzują odległość pomędzy w oaz d. Pzyjmując jako maę odległość χ 2 zadane to polega na wyznaczenu w, dla któego zachodz 3 : pzy waunku: gdze: w 2 d 2 d ( w, d) mn, (3) d 1 w 1 wekto watośc cech pomocnczych,, (4) wekto paametów lub ch oszacowań (wkład nfomacyjny). Dla zadanej may odległośc wag w możemy wyznaczyć za pomocą metody mnożnków Lagange a. Funkcja Langange a jest w tym pzypadku postac: 3 Devlle Sändal (1992) wskazują, że wybó may odległośc ne ma stotnego wpływu na własnośc estymatoów otzymywanych dla dużych pób. Kyteum dobou may odległośc pozostaje w takej sytuacj to, czy pzy zadanej meze sfomułowane zadane optymalzacyjne ma ozwązane oaz to jake własnośc posadają skoygowane wag. Z punktu wdzena własnośc wag stotne jest czy pzyjmują one watośc ujemne oaz czy występują wag znaczne wyższe od wag wyjścowych. W obu pzypadkach może to powadzć do newłaścwych oszacowań dla podpopulacj.

[ 186 ] w d Lw (, d, u) u w. (5) 1 d 1 Funkcja (5) osąga mnmum lokalne dla 4 : Pzekształcając ównane (6) oaz pzyjmując 1/2u =λ otzymujemy fomułę, na podstawe któej oblczane są skalbowane wag: Wekto λ wyznaczamy podstawając (7) do waunku (4): zakładając, że macez 2 L 2w 2d u0. (6) w d w =d (1+λ ). (7) ë λ d d 1 1 d jest neosoblwa. 1, (8) Estymato kalbacyjny watośc globalnej dla nekompletnej póby o lczebnośc <n otzymujemy podstawając w mejsce d we wzoze (2) skalbowane wag w : λë. (9) Estymato kalbacyjny będze blsk Y jeżel pomędzy badaną cechą oaz cecham pomocnczym występuje slna zależność (Devlle Sändal 1992). Ostateczna postać estymatoa zależy od wkładu nfomacyjnego. Jeżel dla obsewacj z póby znane są watośc pewnej cechy cągłej X, a ponadto możemy okeślć watość globalną tej cechy oaz lczebność populacj, to do estymacj możemy wykozystać estymato egesyjny. Wekto watośc cech pomocnczych jest w tym N pzypadku postac, natomast wekto paametów N 1 1 (Sändal Lundstöm, 2005, s. 72). Mając dane możemy wyznaczyć λ (wzó (8)). Estymato egesyjny otzymujemy podstawając λ do wzou (9): 1 Yˆ w y d 1 y d v y W 1 1 1 Y Ŵ gdze: YŴ N y N B, (10) y d y d 1 1 śedna ważona cechy Y, d d 1 1 śedna ważona cechy pomocnczej X, 2 2 4 Zachodz L w 0.

[ 187 ] a: N N 1 N śedna cechy X w populacj,. (11) Wyażene (10) może zostać zmodyfkowane w tak sposób, aby pozwalało na włączene do estymacj wedzy o pewnej cesze skokowej. Nech k=1,...,p oznacza kategoe pewnej cechy. Załóżmy ponadto że znane są lczebnośc tej cechy w populacj N 1 + + N p = N. Estymato pozwalający wykozystać zaówno wedzę o cesze cągłej (jak w pzypadku (10)) jak wedzę o cesze skokowej jest postac (Sändal Lundstöm 2005, s. 74):, (12) gdze N k k odnoszą sę odpowedno do k-tej podpopulacj k-tej wastwy póby. Waancja estymatoa kalbacyjnego jest sumą waancj wynkającej z losowego dobou póby V ˆS oaz waancj wynkającej z baków danych V ˆNR (Sändal Lundstöm 2005, s. 136-137): Składnk waancj (13) dane są następującym fomułam:, (13), (14), (15) gdze d j = 1/π j, pzy czym π j oznacza pawdopodobeństwo nkluzj dugego zędu, natomast:, (16) B dv dv y, (17) 1 1 Pzy współczynnku ufnośc 1-α, pzedzał ufnośc dla watośc globalnej Y wyznaczany jest zgodne z fomułą Y ˆ u V ˆ ( Y ˆ ) (Sändal Lundstöm, 2005, s. Ŵ 137): 3. I 1 B d 1 y y 2 d 1 p Yˆ N y B W k k Nk k k k 1 W Imputacja welokotna polega na zastąpenu każdego baku danych pzez m watośc, w wynku czego otzymujemy m kompletnych zboów danych. Każdy z uzy- VY ˆ( ˆ ) Vˆ Vˆ W S NR 1 1 2 Vˆ d d d vev ˆ eˆ d d v v eˆ S j j j j 1 j1 1 j 1 ˆ 2 Vˆ v v d e NR 1 eˆ y B 1 W

[ 188 ] skanych zboów danych analzujemy kozystając z wybanej, standadowej metody. Ostateczne oszacowane otzymujemy uśednając oceny otzymane na pzestzen poszczególnych zboów (Rubn 1987, s. 15). W pewszym koku mputacj należy okeślć postać modelu mputacyjnego (mputaton model), tj. modelu za pomocą któego uzupełnane będą bak danych. Wybó modelu zależy od chaakteu zależnośc pomędzy analzowanym cecham, a także od wzoca bakujących danych 5 (po. Schafe 1999, ozdzał IV). Jednym z model mputacyjnych, któy znajduje szeoke zastosowane jest model bazujący na welowymaowym ozkładze nomalnym. W pzypadku tego modelu, bak danych Y ms zastępowane są watoścam losowym z waunkowych ozkładów nomalnych względem watośc zaobsewowanych Y obs (Schafe 1999 ozdzał V): Y ms Y obs ~ N(μ, Σ). (18) Analogczne do pzypadku ozważonego dla estymatoa kalbacyjnego pzyjmjmy, że celem jest oszacowane paametu opsującego ozkład Y pzy czym w zboze znajdują sę dwe cechy pomocncze, z któych jedna jest cągła X 1, a duga skokowa X 2. Dla uposzczena pzyjmjmy, że łączny ozkład tych cech jest nomalny 6 :, (19) (20) Nech Y~N(μ 3, σ 3 ) będze ozkładem bzegowym analzowanej pzez nas cechy dla któej wystąpły bak danych, natomast 1 2 będze wektoem watośc cech pomocnczych. Zgodne z powyżej sfomułowanym modelem bak danych Y ms zastępowane są watoścam losowanym z ozkładu nomalnego z waunkową watoścą oczekwaną (po. Schafe 1997, podozdzał 5.2.4): (21) 5 Wzozec bakujących danych okeśla to w jak sposób bak danych ozkładają sę względem sebe w zboze danych. 6 Węcej nt. założena nomalnośc łącznego ozkładu dla óżnego typu cech znajdzemy w pacy Schafea (1997), ozdzał V.

[ 189 ] waancją: Paamety (21) (22) ozkładu waunkowego (18) szacowane są zwykle z wykozystanem metod algoytmcznych. Jednym z algoytmów ogólnej postac, któy znajduje zastosowane w tym pzypadku jest algoytm EM (epectaton-mamzaton) (patz: Lttle Rubn 2002, ozdzał VIII). Kok dug mputacj welokotnej polega na pzepowadzenu standadowej analzy, oddzelene dla każdego z m uzupełnonych zboów danych (z=1,2,,m). Ostateczne oszacowane paametu θ otzymujemy za pomocą fomuły: 2 z (22) ˆ. (23) Waancja estymatoa (23) jest sumą waancj wewnątzmputacyjnej W oaz waancj mędzymputacyjnej B: gdze: ˆ 1 m z 1 m 1 W B, (24) m W, (25) pzy czym S z jest waancją oblczoną dla z-tego zbou, natomast: m 1 B ˆ. (26) m 1 z1 Waancja wewnątzmputacyjna odzwecedla zóżncowane wynkające z losowego dobou póby, zaś waancja mędzymputacyjna pozwala ocenć zóżncowane pomędzy oszacowanam otzymanym dla poszczególnych zboów danych. Duży udzał waancj mędzymputacyjnej w waancj ogólnej śwadczy o nestablnośc oszacowań uzyskwanych dla kolejnych mputacj, co z kole wskazuje na pzyjęce newłaścwego modelu mputacyjnego (po. Schafe 1997, podozdzał 4.5.5). W pzypadku dużej póby, (1-α) 100%-owy pzedzał ufnośc dla θ konstuowany za pomocą fomuły ˆ t ; v, gdze t α,v oznacza watość z ozkładu t-studenta z v stopnam swobody, gdze (Lttle Rubn 2002,s. 87): m z 1 m Sz m z 1 2 W v ( m1) 1. (27) (1 1 m ) B

[ 190 ] 4. Z Zastosowane estymatoa kalbacyjnego mputacyjnego pzedstawono na pzykładze bazującym na danych z badana Busness Envonment and Entepse Pefomance Suvey (BEEPS) 2009 (Euopejsk Bank Odbudowy Rozwoju Bank Śwatowy 2010). Wyjścowy zbó danych lczył n=1234 obsewacj ne zaweał baków danych. Jednostką obsewacj były pzedsębostwa 7. Ops zbou danych zawea tabela 1. ABELA 1. OPIS ZBIORU DANYCH Oznaczene cechy Y Ops Logaytm ocznej spzedaży pzedsębostwa. X 1 Wek pzedsębostwa (lczba lat od założena do oku 2009). X 2 Klasyfkacja dzałalnośc {1,2,,10}. RYSUNEK 1. HISOGRAMY DLA Y, X 1 I X 2 Y X 1 X 2 0,15 0,6 0,3 Częstość 0,10 0,05 Częstość 0,4 0,2 Częstość 0,2 0,1 0,00 10 15 20 25 Logaytm ocznej spzedaży pzedsębostwa ŹRÓDŁO: OPRACOWANIE WŁASNE Na Rysunku 1 pzedstawono hstogamy dla Y, X 1 X 2. 0,0 0 50 100 150 Wek pzedsębostwa 0,0 0 2 4 6 8 10 Klasyfkacja pzedsąbostwa Na podstawe opsanego zbou danych dokonano poównana ozkładów estymatoa kalbacyjnego mputacyjnego. Rozkłady estymatoów wyznaczono w następujący sposób: 1. Z wyjścowego zbou danych wylosowano póbę postą o lczebnośc n=500. 2. Ze zbou otzymanego w koku 1 usunęto losowo ok. 10% obsewacj na Y w gupe najmłodszych pzedsębostw (bak danych losowe MAR). 7 Zbó zawea nfomacje o pzedsębostwach zlokalzowanych w kajach Euopy Śodkowej (Czechy, Estona, Ltwa, Łotwa, Polska, Słowacja, Węgy), powadzących jedną z dzesęcu wybanych odzajów dzałalnośc (zgodne z Intenatonal Standad Industal Classfcaton (ISIC, 2002)): podukcja żywnośc napojów (kod ISIC: 15), podukcja wyobów dewnanych (20), podukcja elementów metalowych (28), podukcja maszyn (29), budownctwo (45), spzedaż samochodów motocykl (50), spzedaż hutowa (51), spzedaż detalczna (52), usług hotelowe gastonomczne (55), tanspot nazemny (60).

[ 191 ] 3. Stosując estymatoy kalbacyjny (12) mputacyjny (23) bazujący na modelu (18) oszacowano watość globalną Y. Kok 1-3 powtózono stukotne w wynku czego otzymano ozkład estymatoów pzedstawony na ysunku 2 8. RYSUNEK 2. ROZKŁADY ESYMAORA KALIBRACYJNEGO I IMPUACYJNEGO ESYMAOR KALIBRACYJNY a) nfomacja pomocncza z populacj ESYMAOR IMPUACYJNY 30 n s =100 s k =0,010 s =0,007 30 n s =100 s k =0,010 s =0,007 Lczebność 20 10 Lczebność 20 10 0 20000 Kalbacja 20500 21000 21500 Dopasowane ozkładu nomalnego b) nfomacja pomocncza z póby 30 n s =100 25 s k =0,009 s =0,006 0 30 25 20200 20400 20600 20800 21000 Imputacja welokotna Dopasowane ozkładu nomalnego n s =100 s k =0,009 s =0,006 Lczebność 20 15 10 5 Lczebność 20 15 10 5 0 20000 20250 20500 20750 21000 21250 Kalbacja Dopasowane ozkładu nomalnego ŹRÓDŁO: OPRACOWANIE WŁASNE 0 20000 20250 20500 20750 21000 21250 Imputacja Dopasowane ozkładu nomalnego welokotna Poceduę estymacj pzepowadzono nezależne dla dwóch pzypadków. W pzypadku pewszym do oszacowana watośc globalnej Y wykozystano nfomację pomocnczą pochodzącą z populacj (znana watość globalna X 1 ysunek 2a). 8 Analogczne wynk otzymujemy dla 500 1000 eplkacj.

[ 192 ] W pzypadku dugm nfomacja pomocncza pochodzła z póby (watość globalna X 1 jest szacowana na podstawe póby ysunek 2b). Lną szaą zaznaczono na ysunku 2 ozkłady estymatoów, lną czaną dopasowane ozkłady nomalne, lną ponową wskazano watość paametu w populacj. Analza otzymanych ozkładów (ysunek 2) pozwala na sfomułowane następujących wnosków: Zaówno estymato kalbacyjny jak mputacyjny pozwolł na zmnmalzowane obcążena wynkającego z baków danych. Watość oczekwana otzymanych ozkładów jest badzo blska watośc szacowanego paametu. Estymato mputacyjny posadał nższą waancję nż estymato kalbacyjny. Rozkład estymatoa mputacyjnego był badzej dopasowany do ozkładu nomalnego 9, nż ozkład estymatoa kalbacyjnego. Wskazuje to na mnejszą dokładność pzedzałów ufnośc otzymywanych dla oszacowana za pomocą estymatoa kalbacyjnego. Zastąpene nfomacj pomocnczej z populacj nfomacją z póby ne wpłynęło stotne na oszacowane otzymane za pomocą estymatoa kalbacyjnego. Celem opacowana było poównane własnośc estymatoów kalbacyjnego mputacyjnego. Poównane pzepowadzono na pzykładze estymacj watośc globalnej dla danych bakujących losowo (MAR). Wynk wskazują na to, że zaówno estymato kalbacyjny jak estymato mputacyjny pozwalają zmnmalzować obcążene wynkające z nekompletnej nfomacj, jeżel tylko bak danych są losowe (po. Sändal Lundstöm 2005, s. 72-74, Lttle Rubn 2002, s. 85-90). Pommo baku spełnena założena nomalnośc, zastosowane modelu mputacyjnego bazującego na welowymaowym ozkładze nomalnym pozwolło na skuteczną edukcję obcążana (Schafe 1997, podozdzał 5.1). Estymato mputacyjny okazał sę meć mnejszą waancję, co wskazuje na jego wększą efektywność w poównanu z estymatoem kalbacyjnym (po. Molenbeghs Kenwad 2007, s. 133-134). Rozkład estymatoa mputacyjnego był w pzyblżenu zgodny z ozkładem stosowanym do konstukcj pzedzałów ufnośc. W pzypadku estymatoa kalbacyjnego odchylena od założonego ozkładu były wększe (po. Sändal Lundstöm 2005, s. 137). 9 Rozkład estymatoa mputacyjnego jest neco badzej spłaszczony od ozkładu nomalnego stąd do konstukcj pzedzałów ufnośc wykozystuje sę w tym pzypadku ozkład t-studenta (patz: Lttle Rubn, s. 87).

[ 193 ] Podstawowym oganczenam otzymanych wynków jest postać estymatoa oaz odzaju nfomacj dodatkowej. W ozważanym pzykładze, estymacj poddano wyłączne postą funkcję watośc badanych cech 10. Rozkłady estymatoa kalbacyjnego otzymane dla nfomacj pomocnczej z populacj nfomacj pomocnczej z póby ne óżnły sę stotne. Zagadnene dobou nfomacj pomocnczej jej wpływu na własnośc estymatoów wymaga jednak ozwnęca. W opsanym pzykładze nfomacja dodatkowa ne była obaczona dużym błędem (po. Sändal Lundstöm 2005, podozdzał 10.6). Poównując estymatoy kalbacyjny mputacyjny należy zwócć uwagę na aspekty paktyczne zwązane z ch zastosowanem. Stosowane mputacj welokotnej wąże sę z konecznoścą ponesena dodatkowych kosztów zwązanych z pzechowywanem danych, co ma znaczene w pzypadku dużych zboów (Sändal Lundstöm 2005, s. 164). Co węcej, kalbacja pozwala w wększym stopnu wykozystać nfomację pochodzącą ze źódeł zewnętznych, co czyn ją użyteczną, także w pzypadku, gdy lczba cech uwzględnonych w zboze danych jest newelka (po. Lttle Rubn 2002, s. 53). Istotne jest ówneż to, że kalbacja ne wymaga defnowana łącznego ozkładu opsującego zależność watośc bakujących od watośc znanych, co zwększa zakes zastosowań tej metody w poównanu z mputacją welokotną (po. Molenbeghs Kenwad 2007, s. 133-134). L Bacha Cz. (1998), Metoda epezentacyjna w badanu opn publcznej maketngu, Efekt, Waszawa. Devlle J. C., Sändal C.-E. (1998), Calbaton estmatos n suvey samplng, Jounal of the Amecan Statstcal Assocaton, 87. Euopejsk Bank Odbudowy Rozwoju Bank Śwatowy (2010), Busness Envonment and Entepse Pefomance Suvey (BEEPS) 2009, http://www.ebd.com/pages/ eseach/economcs/data/beeps.shtml (data dostępu: 2014.10.01). Intenatonal ade Cente (2002), Intenatonal Standad Industal Classfcaton (ISIC): http://www.nvestmentmap.og/ndusty_classfcaton.asp (data dostępu: 2014.10.01). Lttle J. A., Rubn D. (2002), Statstcal Analyss wth Mssng Data, John Wley & Sons, Hoboken. 10 Metody wagowe pozwalające na estymację badzej złożonych paametów (np. współczynnków egesj) opsano w pacy: Molenbeghs Kenwad 2010, ozdzał 10.

[ 194 ] Molenbeghs G., Kenwad M. G. (2007), Mssng Data n Clncal Studes, John Wley &Sons, Chcheste. Paadysz J., Szymkowak M. (2007), Imputacja kalbacja jako emedum na bak odpowedz w badanu budżetów gospodastw domowych, aksonoma, 14 Rubn D.B. (1987), Multple Imputaton fo Nonesponse n Suveys, John Wley & Sons, Hoboken. Sändal C.-E., Lundstöm S. (2005), Estmaton n Suveys wth Nonesponse, John Wley & Sons, Chcheste. Schafe J. L. (1997), Analyss of Multvaate Incomplete Data, Chapman & Hall, London. Szymkowak M. (2010), Konstukcja estymatoów kalbacyjnych watośc globalnej z uwzględnenem wektoa zmennych nstumentalnych, Zeszyty naukowe Unwesytetu Ekonomcznego w Poznanu, 149.