Wykorzystanie metod bootstrapowych do oceny siły zależności korelacyjnych. Wprowadzenie Małgorzata Rószkiewicz, Robert Kozarski Szkoła Główna Handlowa Analiza zależności, jako procedura formalna, stwarza możliwość weryfikacji poglądów i hipotez odnoszących się do relacji łączących obserwowane zjawiska i procesy. Teorie i hipotezy mogą być formułowane w oparciu o czyste relacje między zjawiskami, wychodząc z definicji pojęć. W dalszej kolejności poddaje się je weryfikacji. Procedura konfirmacji lub falsyfikacji polega na konfrontacji teorii lub hipotezy z rzeczywistością. Rozbieżność miedzy sformułowaną teorią oraz odnoszącymi się do niej danymi empirycznymi może mieć wiele przyczyn, które nie muszą wynikać z konstrukcji logicznej analizowanej teorii. Trudności w potwierdzeniu teorii modelem formalnym, ujętym w reguły matematyczne, może m.in. wynikać z czynników nielosowych, których działanie można określić jako lokalne, a które tworząc interakcje z głównymi determinantami, zdefiniowanymi w modelu zależności, mogą osłabiać spodziewane efekty. W każdej zbiorowości czynniki te mogą mieć innych charakter, wynikając z kontekstu historycznego, geograficznego lub emocjonalnego. Uwzględnienie występowania różnego typu czynników wchodzących w interakcje w głównymi determinantami, wynikającymi z teorii lub hipotezy, nie jest nowym problemem w metodach analizy zależności. Ich oddziaływanie można ujawnić na wiele sposobów, np. posługując się modelami uwzględniającymi efekty interakcji w kształtowaniu odchyleń od średniego poziomu zmiennej zależnej, lub też, poprzez dekompozycję całego zbioru obserwacji na homogeniczne względem tych czynników podgrupy i prowadzeniu analizy zależności w ramach każdego z tak wyróżnionych segmentów. Nie trudno zauważyć, że to drugie rozwiązanie odnoszące się do poststratyfikacji i polegające na dekompozycji całego zbioru obserwacji na homogeniczne względem niektórych cech podgrupy, stawia wymóg dysponowania bardzo licznym zbiorem danych, tak by rozmiary wydzielonych segmentów spełniały kryterium niezbędnej liczby obserwacji. Ścieżka ta ze względu na koszty i organizację badań jest w wielu przypadkach niedostępna. Problem ten można rozwiązać jednak sięgając do nieklasycznych metod analizy statystycznej danych, do których należą
metody bootstrapowe. Rozpoznanie występowania zależności potwierdzających bądź nie stawianą hipotezę polega tu na podejściu symulacyjnym. 2. Charakterystyka podejścia boostrapowego Metody bootstrapowe (bootstrap methods), zostały zaproponowane po raz pierwszy przez Bradley a Efrona (por. Efron [979]) ze Stanford University w 979 roku jako pewna modyfikacja metody Jacknife. Słowo bootstraps pochodzi z języka angielskiego i oznacza sznurówki stąd alternatywną nazwą dla omawianych metod jest określenie metody sznurowadłowe (por. Domański i in. [998]), jednak stosowane jest raczej sporadycznie i w literaturze polskojęzycznej z zakresu metod ilościowych używa się określenia metody bootstrapowe. Metody bootstrapowe należą do metod symulacyjnych, tak więc ich rozwój warunkowany był w dużym stopniu zwiększaniem się mocy obliczeniowej komputerów. Są wykorzystywane w statystyce i ekonometrii m.in. do rozwiązywania problemów estymacyjnych i badania mocy stosowanych testów statystycznych (por. Davidson [999], Horovitz [2000]). Metody bootstrapowe, ze względu na swoją prostotę i skuteczność, znajdują coraz szersze zastosowanie w metodach ilościowych. Stosując metody bootstrapowe w badaniu populacji (zbiorowości) generalnej ze względu na jednowymiarową zmienna losową X zakładamy że: - dysponujemy pierwotną, skończoną próbą prostą ( X, X 2,, X n ) realizacje tworzą ciąg ( x, x2,, ) x n! ;!, której kolejne - zakładamy, że nie znamy rozkładu prawdopodobieństwa P badanej zmiennej losowej w populacji (zbiorowości) generalnej; - interesuje nas wartość (rozkład) statystyki z próby θˆ ( X ) będąca estymatorem parametru θ w populacji generalnej; Standardowy schemat postępowania przy podstawowej procedurze bootstrapowej jest następujący (por. ): ) Konstruujemy rozkład prawdopodobieństwa określony za pomocą następującej funkcji: P( X N = xl ) = dla l =,2,..., n n nazywamy rozkładem bootstrapowym z próby gdzie n jest wymiarem próby losowej. 2
2) Dokonujemy aproksymacji nieznanego rozkładu statystyki θ losując niezależnie n razy według rozkładu bootstrapowego wartości z próby pierwotnej ( x, x2,, ) tworzą próbę bootstrapową (bootstrap sample) ( X X,! X ) o wartościach ( x, x ), 2, n, 2, n x!. x n!, które 3) Po wygenerowaniu próby bootstrapowej dokonujemy aproksymacji nieznanego rozkładu statystyki θ za pomocą rozkładu statystyki postaci θ ˆ ( X ) rozkładem bootstrapowym statystyki θ. 4) Rozkład statystyki ˆ ( X ), który nazywamy θ możemy wyznaczyć za pomocą aproksymacji metodą Monte Carlo. Polega to na generowaniu B kolejnych niezależnych prób (replikacji) z próby pierwotnej/bootstrapowej. Następnie dla każdej replikacji obliczamy wartość statystyki θ ˆ ( X ), a następnie jej wartość średnią i odchylenie standardowe. 5) Na podstawie przeprowadzonych b =,2,!, B replikacji próby bootstrapowej możemy wyznaczyć histogram empiryczny wartości interesującej nas statystyki i ocenić zgodność np. z rozkładem normalnym. Algorytm bootstrapowy dla próby o liczebności n = 4 można przedstawić w postaci poniższego schematu (por. Sacchi [998]). ( x, x, x x ) 2 3, 4 Próba pierwotna/ bootstrapowa ( x, x, x x ) 2, 3 ( x, x, x x ) 3 4, 4... ( x, x, x x ) 3 2, Kolejne replikacje losowane niezależnie z próby bootstrapowej θˆ θˆ 2.... ˆ θ B Wartości statystyki dla kolejnych replikacji ˆ θ ( b), se ( b) Ocena punktowa statystyki Schemat algorytmu bootstrapowego 3
Dosyć często w literaturze porusza się problem liczby replikacji B (por. Davidson i MacKinnon [2000], Efron i Tibshiriani [993]). Różne statystyki wymagają różnej liczby replikacji, aby wnioskowanie na ich podstawie było wystarczające. Nawet mała liczba replikacji (np. B = 50) jest wystarczająca aby otrzymać dobrą estymację błędu standardowego (standard error) ( θˆ ) se B ˆ ( ) () ˆ ˆ θ b θ () b se oceny parametru θ. 2 2 [ ] θ = gdzie ˆ θ () b jest średnią arytmetyczną wartości statystyki b= B () b θ ˆ dla kolejnych replikacji. Zwykle potrzebna jest większa liczba replikacji do bootstrapowej estymacji przedziałowej. W takich przypadkach wykonuje się zwykle od 000 do 0 000 replikacji. Początkowo metody bootstrapowe były traktowane jako komputerowa metoda wyznaczania standardowego błędu parametru populacji θ, o nieznanym rozkładzie prawdopodobieństwa P statystyki z próby θ ( X ). Było to o tyle wygodne, że wynik otrzymywało się automatycznie niezależnie od tego jak skomplikowaną matematycznie postać miał estymator θˆ ( X ), jak również nie wymagało teoretycznych rozważań nad postacią analityczną tego błędu (por. Efron, Tibshiriani [993]). Zaletą metod bootstrapowych jest to, że nie trzeba wiedzieć do jakiej klasy rozkładów należy badany rozkład, aby wnioskować na jego temat, jednak nasze wnioski są silnie uzależnione od informacji, jakie uzyskujemy w próbie wylosowanej ze zbiorowości generalnej. W analizach z wykorzystaniem metod bootstrapowych można dokonywać zarówno estymacji punktowej jak i przedziałowej. W przypadku tej drugiej najczęściej stosowane metody to (por. Domański i in. [998], Efron i Tibshiriani [993]): - metoda percentyli (percentile intervals) - metoda t-bootstrap (boostrap-t intervals) - BC α (bias-corrected and accelerated) - ABC (accelerated bootstrap confidence interavals) Metody te są szczegółowo opisują m.in. Efron i Tibshiriani [993], Maddala [997], Horowitz [2000]. Chodzi o precyzje oszacowania mierzoną standardowym błędem oceny (por. Efron i Tibshiriani [993]). 4
3. Wykorzystanie podejścia bootstrapowego w analizie korelacji Estymację współczynnika korelacji można przeprowadzić według powyższych zasad. Poniżej wykorzystano metodą percentyli, która bazuje na wyznaczonych wartościach empirycznych tych mierników pozycyjnych dla statystyki ˆ ( X ) θ dla kolejnych replikacji, które pozwalają na wyznaczenie przedziału ufności dla szukanej wartości statystyki θ. Przedział ufności dla statystyki θ przy poziomie ufności ( 2α ) ma następującą postać: ( α ) ( α ) [ θ ; θ ] = [ θ ; θ ] 2α g d gdzie ( α ) θ oraz ( ) θ α są percentylami rzędu α i α rozkładu empirycznego statystyki θ ( X ), czyli wartościami tej zmiennej o numerach ( B α ) i ( ( α ) rosnąco. B uporządkowanymi Estymacja wartości współczynnika korelacji ρ ( X,Y ) wymaga przyjęcia założenia, że dysponujemy dwuwymiarową zmienna losową ( X, Y ). Wówczas próbę pierwotną, z której wylosujemy niezależnie próbę bootstrapową można przedstawić w postaci macierzy: x y x2 y2 r =...... x n y n nx2, gdzie n jest liczebnością badanej próby. Próba bootstrapowa r powstaje poprzez niezależne n-krotne losowanie poszczególnych wierszy macierzy r i przyjmuje postać: r = x x... x k k 2 k n k y k y2... k yn nx2, gdzie k =,2,!, n oznacza numer losowania. Mając próbę bootstrapową losujemy niezależnie B kolejnych replikacji, które tworzymy ciąg (, r 2,, r B ) współczynnika korelacji ( r () b ) r!. Następnie dla każdej replikacji wyznaczamy wartości ρ, gdzie b =,2,!, B oraz wartości błędu standardowego 5
se () b i budujemy histogram częstości empirycznych dla otrzymanych współczynników korelacji. W kolejnym kroku wyznaczamy percentyle empiryczne o numerach ( B α ) i ( B ( α ), na podstawie których wyznaczamy bootstrapowe przedziały o poziomie ufności 2α (percentile intervals). 5. Zastosowanie podejścia bootstrapowego do estymacji siły korelacji długości gromadzenia majątku względem wieku Ilustracją przedstawionych zagadnień może być uznawana już za klasyczną grupa teorii i hipotez odnoszących się do mechanizmu takich zachowań ekonomicznych, które odnoszą się do gromadzenia zasobów w gospodarstwach domowych. Z ekonomicznego punktu widzenia uznaje się, że tego typu zachowania ekonomiczne, podlegają zasadzie maksymalnej użyteczności, zaś wybór racjonalny w tym zakresie dotyczy podziału środków na konsumpcję lub oszczędności. Kryteriami wyboru są tu zysk lub przyszła konsumpcja. Na tym gruncie funkcjonują dwie podstawowe koncepcje wyjaśniające powstawanie oszczędności w gospodarstwach domowych, tj. hipoteza permanentnego dochodu M. Friedmana (Friedman [957]) oraz hipoteza cyklu życia F. Modiglianiego i A. Ando (Modigliani, Brumberg, 954, s. 388-436]. Koncepcja dochodu permanentnego M. Friedmana głosiła występowanie subiektywnie określonego poziomu dochodu, tzw. dochodu stałego (permanentnego), który jest efektem wyobrażeń o własnych możliwościach dochodowych. Z koncepcją dochodu permanentnego wiąże się wprost hipoteza cyklu życia, która zakładała z kolei konieczność gromadzenia oszczędności w okresie aktywności zawodowej, by wesprzeć poziom konsumpcji w okresie emerytalnym, zagrożony naturalnym spadkiem dochodów w tym okresie życia. Obie koncepcje wiąże warunkowanie tworzenia oszczędności poziomem dochodów i jego zmiennością w czasie oraz podstawowymi czynnikami demograficznymi, takimi jak wiek, trwanie życia, długość okresu emerytalnego itp. Przedstawiona konstrukcja teoretyczna napotyka na znaczne trudności w weryfikacji empirycznej. Odnosząc się tylko do doświadczeń polskich można dla przykładu przytoczyć prace prowadzone przez zespół B. Liberdy (Liberda [999]) na danych pochodzących z budżetów gospodarstw domowych. Wskazały one na możliwość występowania segmentowej funkcji oszczędzania względem dochodu, zaś zróżnicowanie stopy oszczędzania względem wieku tylko częściowo potwierdziło hipotezę cyklu życia. Zagadnieniom tym poświęcone 6
było również badanie empiryczne zrealizowane w 200 r. w Instytucie Statystyki i Demografii SGH w Warszawie w ramach grantu KBN [Rószkiewicz [2003]]. W badaniu tym przedmiotem obserwacji było subiektywne postrzeganie swej sytuacji materialnej, w szczególności posiadanie zabezpieczenia materialnego. W ramach tego badania obserwacji poddano również długość okresu gromadzenia majątku. Zgodnie z hipotezą cyklu życia należałoby oczekiwać niemal wprost proporcjonalnej zależności między długością tego okresu i wieku. Obserwacja danych empirycznych dotyczących długości gromadzenia majątku przez gospodarstwo domowe oraz wieku głowy gospodarstwa domowego, wskazała jednakże na korelację jedynie rzędu 0,45, (p<0,0), co daje słabe podstawy do empirycznego potwierdzenia teoretycznej reguły. Wstępna analiza pozwoliła wyodrębnić dwie główne determinanty możliwości gromadzenia majątku, jakimi okazały się poziom osiąganego dochodu oraz poziom wykształcenia. Cechy te stały się podstawą dokonania grupowania jednostek, według grup kwartylowych średniego miesięcznego dochodu na osobę w gospodarstwie domowym oraz według poziomu wykształcenia głowy gospodarstwa domowego. W rezultacie takiej dekompozycji zbiorowości uzyskano współczynniki korelacji długości okresu gromadzenia majątku i wieku głowy gospodarstwa domowego dla każdego z 2 wyodrębnionych segmentów, które zestawia tablica. Tablica. Współczynniki korelacji długości okresu gromadzenia majątku i wieku głowy gospodarstwa domowego oraz ich istotność, policzone klasycznie przy założeniu próby prostej Wykształcenie głowy gospodarstwa domowego Średni miesięczny dochód na osobę Co najwyżej Niepełne wyższe lub w gospodarstwie domowym Średnie podstawowe wyższe 400 PLN i mniej 0,649 0,475 za mała liczebność (0,000) (0,064) próby (400 600> PLN 0,352 0,25 0,086 (0,0) (0,93) (0,99) (600 800> PLN 0,406 0,565 0,65 (0,005) (0,000) (0,020) Powyżej 800 PLN 0,243 0,453 0,508 (0,32) (0,000) (0,000) Źródło: Obliczenia własne. Zrealizowana próba losowa nie była próbą prostą, lecz zastosowano tu dobór dwustopniowy, warstwowy. Dlatego też należy oczekiwać, zgodnie z sugestiami L. Kisha i R. 7
Frankela (L. Kish i R. Frankel [974]), że uwzględnienie przyjętej techniki losowania zmieni na niekorzyść istotność otrzymanych wyników. Z tego powodu, by rozstrzygnąć w jakim zakresie dochód na osobę w gospodarstwie domowym i poziom wykształcenia głowy gospodarstwa domowego są czynnikami interaktywnymi dla korelacji długości gromadzenia majątku względem wieku, dla wyróżnionych segmentów zastosowano podejście bootstrapowe. Do obliczeń wykorzystano pakiet GAUSS 3.2. Analizę przeprowadzono na podstawie B = 0 000 replikacji. Jako próby pierwotne potraktowano elementy znajdujące się w 2 wyodrębnionych wcześniej segmentach. Otrzymane z analizy symulacyjnej wyniki są zebrane i przedstawione w tablicy 2. Histogramy empiryczne otrzymanych bootstrapowo współczynników korelacji przedstawia tablica 3. Tablica 2. Współczynniki korelacji długości okresu gromadzenia majątku i wieku głowy gospodarstwa domowego oraz ich istotność, przy założeniu próby prostej Średni miesięczny dochód na osobę Poziom wykształcenia głowy gospodarstwa domowego Niepełne wyższe lub Co najwyżej podstawowe Średnie wyższe 400 PLN i mniej (400 600> PLN (600 800> PLN Powyżej 800 PLN Liczebność próby/segmentu 52 23 5 korel. Z próby (istotność) 0,649 (0,000) 0,475 (0,064) korel. metoda bootstrap 0,632 0,469 Błąd standardowy 0,3 0,56 Przedział ufności <0,358 ; 0,804> <0,26 ; 0,735> Za mała liczebność próby Liczebność próby/segmentu 5 34 korel. Z próby (istotność) 0,352 (0,) 0,25 (0,93) 0,086 (0,99) korel. metoda bootstrap 0,355 0,29 0,084 Błąd standardowy 0,20 0,06 0,356 Przedział ufności <0,4 ; 0,582> <0,03 ; 0,43> <-0,678 ; 0,732> Liczebność próby/segmentu 3 35 korel. Z próby (istotność) 0,406 (0,005) 0,565 (0,000) 0,654 (0,020) korel. metoda bootstrap 0,402 0,562 0,7 Błąd standardowy 0,43 0,096 0,3 Przedział ufności <0,; 0,668> <0,354 ; 0,73> <0,475 ; 0,979> Liczebność próby/segmentu 2 58 56 korel. Z próby (istotność) 0,243 (0,32) 0,453 (0,000) 0,508 (0,000) korel. metoda bootstrap 0,240 0,456 0,52 Błąd standardowy 0,223 0,085 0,085 Przedział ufności <-0,23 ; 0,643> <0,284 ; 0,62> <0,342 ; 0,669> Źródło: Obliczenia własne. 8
Uzyskane metodą bootstrapową wyniki pozwalają na ocenę wpływu poziomu dochodu oraz poziomu wykształcenia na kształtowanie się zależności długości okresu gromadzenia majątku względem wieku. Zróżnicowanie wartości współczynników w ramach wyznaczonych segmentów wskazuje, że oba czynniki są interaktywne względem analizowanej zależności. Przy tym zróżnicowanie współczynników korelacji względem dochodu jest silniejsze niż względem poziomu wykształcenia. Rysującą się prawidłowością wydaje się być wzrost siły analizowanej zależności wraz ze wzrostem dochodów oraz wraz ze wzrostem poziomu wykształcenia głowy gospodarstwa domowego. Najbardziej podatne na motyw cyklu życia wydają się zatem gospodarstwa domowe o relatywnie wysokich dochodach i relatywnie lepiej wykształconych. Pewnym odstępstwem względem tej prawidłowości jest segment gospodarstw o relatywnie niskich dochodach i charakteryzujących się najniższym poziomem wykształcenia. Występująca tu zależność długości okresu gromadzenia majątku wraz wiekiem jest efektem zdominowania tej grupy przez gospodarstwa utrzymujące się z rolnictwa, które w naturalny sposób identyfikują swe bezpieczeństwo materialne z posiadaną, w większości przypadku od pokoleń, ziemią, będącą jednocześnie źródłem utrzymania. Dlatego też zidentyfikowany w tym segmencie motyw cyklu życia należy uznać jednak za pozorny. 9
Tablica 3. Histogramy korelacji wieku i okresu oszczędzania dla wyróżnionych segmentów 0
Tablica 3. (cd) Źródło: Opracowanie własne
L I T E R A T U R A [] Davidson J. [999], The Size Distortion of Bootstrap Tests, Econometric Theory 5, s. 36-376. [2] Davidson R., MacKinnon J. G. [2000], Bootstrap Tests: How Many Bootstraps? Econometric Reviews 9. [3] Domanski C., Pruska K., Wagner W. [998], Wnioskowanie statystyczne przy nieklasycznych założeniach, Wydawnictwo Uniwersytetu Łódzkiego, Łódź. [4] Efron B. [979], Bootstrap Methods: Another Look at the Jackknife, Annals of Statistics, Vol. 7, s. -26. [5] Efron B., Tibshirani R. J. [993], An Introduction to Bootstrap, Monographs on Statistics and Applied Probability, No. 57, Chapman and Hall, London. [6] Friedman M., [957], A Theory of Consumption Function, Princeton, Princeton University Press. [7] Horowitz J. L. [2000], The Bootstrap, Handbook of Departament of Economics University of Iowa, Iowa City. [8] Kish L., Frankel R. [974], Inference from Complex Samples, Journal of the Royal Statistical Society, Series B, 36, s. -37. [9] Liberda B., [999], Stopy oszczędzania gospodarstw domowych w Polsce, w: Determinanty oszczędzania w Polsce, pod red. B. Liberdy, Raport CASE nr 28, Warszawa, s. 83-96. [0] Maddala G. S. [997], Unit Roots, Cointegration, Structural Change, Oxford University Press. [] Modigliani F., Brumberg R., [954], Utility Analysis and the Consumption Function: An Interpretation of the Cross-Section Data, Post-Keynesian Economics. Eds.: Kenneth Kurihara, New Brunswick, Rutgers University Press, s. 388-436. [2] Rószkiewicz M., [2003], Percepcja systemu ubezpieczeń społecznych a postawy wobec zabezpieczenia własnej starości, Gospodarka Narodowa, Nr 3. [3] Sacchi M. D. [998], A Bootstrap Procedure for High-Resolution Velocity Analysis, Geophysics, Vol. 63, N o. 5, s. 723. 3