Analiza wielowymiarowa sytuacji ekonomicznej Polski oraz krajów Azji i Europy Wschodniej Wstęp Anna Żemojtel Leszek Boguszewski Koło Naukowe Metod Ilościowych przy Katedrze Statystyki Wydziału Zarządzania Uniwersytetu Gdańskiego Przeprowadzone badanie przedstawia ocenę sytuacji ekonomicznej Polski na tle wybranych krajów Azji i Europy Wschodniej. Sytuacja ekonomiczna utożsamiana jest często z sytuacją finansową danego kraju, jego zdolnościami płatniczymi i odpowiednim, niskim poziomem zadłużenia. Ponadto bezpośrednio wpływa ona na poziom życia społeczeństwa oraz jego zamożność. Jednak jako zjawisko wielowymiarowe, sytuacja ekonomiczna determinowana jest również przez szereg innych zmiennych, niekoniecznie o charakterze finansowym. Wiele informacji o sytuacji danego kraju dostarcza analiza zjawiska bezrobocia 1, głównie stopy bezrobocia. Stopa bezrobocia to relacja pomiędzy liczbą zarejestrowanych osób bezrobotnych a liczbą osób czynnych zawodowo (zdolnych do podjęcia pracy), wyrażona procentowo. W odniesieniu do wielu państw stopa bezrobocia jest indykatorem gospodarki, wskaźnikiem jej kondycji. Aby określić sytuację ekonomiczną danego kraju niezbędna jest wielowymiarowa analiza zmiennych, istotnych z punktu widzenia aspektu ekonomicznego. Celem niniejszych badań jest przedstawienie statystycznych metod analizy wielowymiarowej służących obiektywnej ocenie kondycji ekonomicznej wybranych państw Azji i Europy Wschodniej oraz Polski. Dodatkowym celem jest pogrupowanie państw w jednorodne podzbiory ze względu na kondycję ekonomiczną, oraz wskazanie państwa o najlepszej i najgorszej kondycji ekonomicznej. W pierwszej części referatu przedstawione zostaną zagadnienia metodologiczne opracowane na podstawie literatury przedmiotu, w dalszej części omówione zostaną metody 1 Jest to pozostawanie poza zatrudnieniem w okresie badanym osób aktywnie poszukujących pracy, które są gotowe do podjęcia pracy w badanym tygodniu i następnym, (definicja GUS oparta na standardach międzynarodowych). 1
badawcze, takie jak analiza głównych składowych, analiza skupień oraz porządkowanie liniowe, połączone z badaniem empirycznym. Zarys teoretyczny Analiza głównych składowych W analizie wielowymiarowej danych statystycznych podstawowe badania mają na celu wskazanie istotnych zależności, jakie zachodzą między zmiennymi opisującymi zjawiska wielowymiarowe. Obiektem poddanym analizie w naszej pracy jest sytuacja ekonomiczna, którą ze względu na swą niejednorodną naturę należy rozpatrywać na wielu płaszczyznach, uwzględniając szereg współtworzących ją elementów (cech, zmiennych). W badaniach tych szczególnie przydatna, a niekiedy niezbędna, jest redukcja wymiaru przestrzeni cech; zwykle bowiem wymiar ten jest większy od 2. Dotyczy to głównie możliwości przybliżonego przedstawienia obserwacji wielowymiarowych na płaszczyźnie, służącemu lepszemu zrozumieniu badanego zjawiska. Zmniejszaniu wymiaru przestrzeni danych służy analiza głównych składowych, (ang. principal components analysis). Metoda ta polega na ortogonalnym (prostopadłym) przekształceniu p-wymiarowego układu zmiennych opisujących obserwację wielowymiarową na nowy układ zmiennych nieskorelowanych, tzw. głównych składowych, o wymiarze mniejszym od p. Redukcja wymiaru przestrzeni cech, uporządkowanie ich na podzbiory (główne składowe) jest przydatna głównie ze względu na możliwość zinterpretowania relacji między składowymi, graficznej prezentacji konfiguracji porównywanych zmiennych, a wreszcie uporządkowania tych zmiennych według przyjętych cech. Następne kroki prowadzą do zmniejszenia udziału wariancji kolejnych głównych składowych w całkowitej zmienności obserwacji wielowymiarowych. Fakt, że pierwsza główna składowa ma największą wariancję, znajduje odzwierciedlenie w stwierdzeniu, że największy procent całkowitej wariancji cech opisujących dane zjawisko wielowymiarowe jest wyjaśniony właśnie przez tę składową, zaś kolejne główne składowe wyjaśniają już coraz mniejszy procent całkowitej zmienności 2. 2 Więcej na ten temat: Manly B.F.J. (1994), Multivariate statistical methods, Chapman & Hall/ CRC, s. 76-80 Morrison D.F. (1990), Wielowymiarowa analiza statystyczna, PWN, Warszawa, s. 393-416. 2
Analiza skupień Przez skupienie rozumie się na ogół zbiór obserwacji podobnych do siebie, przy czym obserwacje należące do dwóch różnych skupień powinny różnić się między sobą w sposób istotny. Celem analizy skupień (ang. cluster analysis) jest organizowanie obserwowanych danych w sensowne struktury lub grupy poprzez analizę podobieństw w obszarach poddanych badaniu. Podobieństwa pomiędzy obiektami zostają wyznaczone na podstawie odpowiedniego wskaźnika lub miary podobieństwa czy też odległości. Posługując się tego rodzaju analizą będziemy dążyć do utworzenia grup obiektów, których elementy pod względem wybranych cech będą do siebie jak najbardziej podobne i jednocześnie maksymalnie różne niż w pozostałych grupach. Jeżeli w grupie skupiona jest mała liczba elementów (skrajnie 1), to skupienie takie będzie nazywane słabym. Jeżeli natomiast w grupie znajdzie się duża liczna elementów to mamy do czynienia z silnym skupieniem 3. Porządkowanie liniowe Analizy omówione wcześniej nie prowadzą do jednoznacznego określenia, które państwa mają najlepszą sytuację ekonomiczną, a które najgorszą. Analiza skupień pozwoliła na wyznaczenie pewnych ośrodków grawitacyjnych, wokół których skupiają się poszczególne państwa. Niemniej odległości między skupieniami nie pozwalają prowadzić rozważań na temat lepszej lub gorszej sytuacji ekonomicznej bądź lepszego czy gorszego rozwoju kraju. Aby móc dokonać takiej oceny, należy uporządkować te obiekty ze względu na wszystkie obserwowalne cechy. Można wówczas stwierdzić, że dane państwo mające wyższą pozycję w uporządkowanym zbiorze charakteryzuje się najlepszą sytuacją ekonomiczną. Przeprowadzana przez nas analiza wielowymiarowa zmierza do uporządkowania obiektów wielocechowych oraz odnalezienia obiektu pierwszego i ostatniego 4. 3 Więcej na ten temat: Marek T. (1989), Analiza skupień w badaniach empirycznych. Metody SAHN, PWN, Warszawa, s. 23-24. 4 Zagadnienie porządkowania liniowego dokładniej omówione jest w książce: Ostasiewicz W. (1998), Statystyczne metody analizy danych, Wydawnictwo Akademii Ekonomicznej im. Oskara Langego we Wrocławiu, Wrocław, s. 114-117. 3
Badanie empiryczne Wybór cech diagnostycznych Pierwszym krokiem w wyborze zmiennych była wstępna analiza korelacji, która umożliwiła nam odrzucenie części zmiennych i pozostawienie tych, które mają istotny wpływ na badane zjawisko, a jednocześnie nie są ze sobą silnie skorelowane. W rezultacie do zasadniczej analizy pozostawiliśmy 10 zmiennych objaśniających: X1 - Import- cif (ceny bieżące) na 1 mieszkańca w $ USA, X2 - Eksport- fob (ceny bieżące) na 1 mieszkańca w $ USA, X3 - Wydatki w % PKB, X4 - Rezerwy dewizowe w mln $ USA, X5 - Długi zagraniczne na 1 mieszkańca w $ USA, kraje powyżej 10 mld $ USA, X6 - Zagraniczne inwestycje bezpośrednie w kraju w mln $ USA, X7 - Krajowe inwestycje bezpośrednie za granicą w mln $ USA, X8 - PKB na 1 mieszkańca w $ USA, X9 - Procent bezrobotnych mających wykształcenie wyższe, X10 - Pracujący w pośrednictwie finansowym i innych usługach (w tys.) /ogół pracujących. Analiza głównych składowych Analiza głównych składowych umożliwia uporządkowanie cech charakteryzujących zmienność rozwoju sytuacji ekonomicznej w poszczególnych państwach. Poniższe obliczenia zostały przeprowadzone na podstawie zestandaryzowanych danych macierzy obserwacji, wykorzystując procedury metody głównych składowych zawarte w pakiecie statystycznym Statistica. W wyniku otrzymano wektory wartości własnych λ j, j =1,2, 3 oraz wartości w j mówiące o tym, jaki procent wariancji cech składowych wyjaśniają cztery (spośród możliwych 10) główne składowe. Pozostawione przez nas główne składowe łącznie wyjaśniają ponad 82 % całkowitej zmienności porównywanych cech, co prezentuje poniższa tablica. 4
Tablica 1. Wartości własne λ l. Wartość % ogółu Skumulowana Skumulowany własna wyjaśnionej wariancji wartość własna % ogółu wyjaśnionej wariancji X1 3,9925 39,9249 3,9925 39,9249 X2 1,8687 18,6873 5,8612 58,6121 X3 1,2818 12,8177 7,1430 71,4299 X4 1,0970 10,9701 8,2400 82,3999 X5 0,8568 8,5680 9,0968 90,9679 X6 0,3882 3,8816 9,4850 94,8495 X7 0,2707 2,7072 9,7557 97,5567 X8 0,2031 2,0311 9,9588 99,5878 X9 0,0375 0,3748 9,9963 99,9625 X10 0,0038 0,0375 10,0000 100,0000 Źródło: Opracowanie własne- Statistica 6.0 Pozostawiliśmy 4 główne składowe, gdyż celem tej analizy jest wyjaśnienie jak największej części zmienności przez jak najmniejszą liczbę składowych. Ilustracją istotności głównych składowych jest wykres osypiska. Wykres 1. Wykres osypiska 4,5 4,0 3,5 39,92% Wartości własne macierzy korelacj Tylko zmienne aktywne 3,0 Wartość własna 2,5 2,0 1,5 1,0 0,5 18,69% 12,82% 10,97% 8,57% 3,88% 2,71% 2,03%,37%,04% 0,0-0,5-1 0 1 2 3 4 5 6 7 8 9 10 11 12 Numer wart. własnej Źródło: Opracowanie własne - Statistica 6.0. 5
Następnym etapem w analizie głównych składowych jest obliczenie współczynników korelacji j-tej zmiennej z l-tą składową główną, co pokazuje poniższa tablica. Tablica 2. Wyniki analizy głównych składowych po dokonaniu normalizacji. ZMIENNE ŁADUNKI SKŁADOWE w1 w2 w3 w4 KORELACJE MIĘDZY ZMIENNYMI A SKŁADOWYMI X1 0,4830-0,0649 0,0383-0,0229 0,9652-0,0887 0,0434-0,0240 X2 0,4779 0,0516 0,0444 0,1749 0,9549 0,0706 0,0503 0,1832 X3 0,2179-0,1314-0,4276-0,4725 0,4354-0,1796-0,4841-0,4949 X4 0,1085 0,6348-0,0809 0,0683 0,2167 0,8677-0,0916 0,0716 X5 0,0467-0,1821-0,4051 0,7768 0,0932-0,2489-0,4587 0,8136 X6 0,1963-0,4344 0,1990-0,2251 0,3922-0,5938 0,2253-0,2358 X7 0,4054-0,1985 0,2152 0,2351 0,8100-0,2713 0,2436 0,2463 X8 0,3230 0,5283-0,1344-0,0987 0,6453 0,7221-0,1521-0,1034 X9 0,0802 0,1481 0,7193 0,1075 0,1603 0,2024 0,8144 0,1126 X10 0,4040-0,1035-0,1472-0,1017 0,8073-0,1415-0,1667-0,1065 Wartości własne λ l 3,9925 1,8687 1,2818 1,0970 % całkowitej zmienności 39,9249 18,6873 12,8177 10,9701 Skumulowany % całkowitej 39,9249 58,6121 71,4299 82,3999 zmienności Źródło: Obliczenia własne. Pierwsza składowa ma wysoką wagę względem importu- cif (ceny bieżące) na 1 mieszkańca w $ USA, eksportu- fob (ceny bieżące) na 1 mieszkańca w $ USA, krajowych inwestycji bezpośrednich za granicą w mln $ USA oraz pracujących w pośrednictwie finansowym i innych usługach (w tys.) /ogół pracujących. Na drugą składową w największym stopniu wpływają rezerwy dewizowe w mln $ USA, PKB na 1 mieszkańca w $ USA oraz zagraniczne inwestycje bezpośrednie w kraju w mln $ USA. Dwie kolejne składowe wyjaśniają łącznie 23,78 % zmienności w, związku z czym ich waga w wyjaśnianiu analizowanego zjawiska jest dosyć mała. Wartość trzeciej składowej najsilniej determinuje odsetek bezrobotnych mających wykształcenie wyższe, natomiast na wartość czwartej składowej najsilniej wpływają wydatki w % PKB. 6
Analiza skupień W następnym kroku pogrupowano 5 państwa ze względu na 10 zmiennych obserwowalnych. W procedurach grupowania, czyli sekwencyjnego zmniejszania liczby obiektów poprzez łączenie ich w grupy wyższego rzędu, istnieje możliwość graficznego przedstawienia wyników grupowania w postaci dendrogramu. Drzewko połączeń ilustruje kolejne połączenia skupień coraz to wyższego rzędu. Uzyskana hierarchia pozwala na określenie wzajemnego położenia skupień i obiektów w nich zawartych. Wykres 2. Dendrogram Diagram drzewa Metoda Warda Kwadratowa odl. euklidesowa Białoruś Indie Chiny Tajlandia Indonezja Pakistan Rosja Litwa Łotwa Polska Turcja Estonia Izrael Malezja Republika Korei Japonia 0 20 40 60 80 100 120 Odległość wiąz. Źródło: Opracowanie własne - Statistica 6.0. Jak widać na wykresie 2, możemy zaobserwować 4 skupiska oraz jeden obiekt odbiegający, wyraźnie różniący się od innych (ang. outlier). Obiektem tym jest Japonia, która zdecydowanie różni się od innych przebadanych państw. Z kolei duże podobieństwo wykazują grupami: 5 W naszej analizie będziemy posługiwać się hierarchiczną metodą poszukiwania skupień, polegającą na takim formowaniu zespołów, że na każdym poziomie łączenia obiektów tworzone skupisko składa się z grup otrzymanych w poprzednich krokach. Wykorzystaliśmy metodę Warda dla kwadratowych odległości euklidesowych. 7
Grupa 1: Malezja i Republika Korei, Grupa 2: Estonia i Izrael, przy czym oba skupiska są dość podobne względem siebie, Grupa 3: Litwa, Łotwa (bardzo zbliżone), Turcja oraz Polska, Grupa 4: Indonezja, Pakistan (bardzo podobne), Rosja, Białoruś, Indie, Chiny oraz Tajlandia. W celu sprawdzenia trafności otrzymanych skupień posłużyliśmy się inną metodą grupowania, k-średnich. Grupowanie wydaje się mocniejsze, gdyż wyniki potwierdziły się, przy grupowaniu na pięć skupisk otrzymaliśmy identyczne zespoły, jak przy wykorzystaniu metody hierarchicznej. Wykres średnich dostarcza ciekawych informacji, jakimi wartościami zmiennych charakteryzują się poszczególne grupy. Wykres 3. Wykres średnich 5 Wykr. średnich każd. skupienia 4 3 2 1 0-1 -2-3 Skupien.1 Skupien.2 Skupien.3 Skupien.4 outlier 1 2 3 4 5 6 7 8 9 10 Zmienne Źródło: Opracowanie własne - Statistica 6.0 Możemy zauważyć, że Japonia zdecydowanie przewyższa pozostałe kraje poziomem rezerw dewizowych oraz PKB, ale jednocześnie ma niski poziom zagranicznych inwestycji. Skupisko trzecie, w którym znajduje się Polska, charakteryzuje się niskim udziałem bezrobotnych mających wykształcenie wyższe, poza tym nie wyróżnia się niczym szczególnym, przyjmując przeciętne wartości innych zmiennych. Co ciekawe, z największym obciążeniem z powodu zadłużenia borykają się społeczeństwa Malezji i Republiki Korei. 8
Porządkowanie liniowe Kolejnym etapem analizy sytuacji ekonomicznej państw jest porządkowanie liniowe. Jest ono swego rodzaju podsumowaniem całego badania, pozwala na całościowe ujęcie analizowanego zjawiska, oceniając poziom każdego państwa na tle innych. Otrzymany ranking (przeprowadzony metodą wzorca rozwoju 6 ) przedstawia się następująco: Tablica 3. Porządkowanie liniowe Pozycja Kraj Miara rozwoju 1 Japonia 0.5231 2 Izrael 0.5133 3 Estonia 0.4306 4 Malezja 0.3878 5 Republika Korei 0.3512 6 Łotwa 0.3357 7 Polska 0.3232 8 Litwa 0.3125 9 Turcja 0.2525 10 Chiny 0.2434 11 Tajlandia 0.2028 12 Rosja 0.1897 13 Pakistan 0.1711 14 Indonezja 0.1576 15 Białoruś 0.1469 16 Indie 0.1290 Źródło: opracowanie własne przy pomocy Excel. Wyniki potwierdzają obiegową opinię, że krajem o najwyższej pozycji ekonomicznej jest Japonia, za nią plasują się Izrael i Estonia oraz Malezja z Republiką Korei. Polska zajmuje miejsce w środkowej części klasyfikacji (siódma pozycja) wraz z Litwą, Łotwą i Turcją. Tablicę zamykają Białoruś i Indie. Wyniki uzyskane dzięki porządkowaniu liniowemu kolejny raz potwierdzają wnioski z wcześniejszych analiz. Nie bez przyczyny Japonia nie 6 Kierując się wskazówkami zaczerpniętymi z literatury tematu długi zagraniczne oraz stopa bezrobocia osób z wyższym wykształceniem uznane zostały za destymulanty. 9
pasowała do żadnego powstającego skupienia, a kolejne państwa tworzyły grupy ze swoimi sąsiadami z porządkowania liniowego. Potwierdza to także wykres średnich każdego skupienia, widzimy wyraźnie, że grupa 4 (m.in. Białoruś i Indie) przyjmuje zdecydowanie najmniejsze wartości większości badanych cech. Z kolei skupienie polskie to typowy średniak (zielona linia). Analizując wyniki badania należy pamiętać, że są one oparte na dziesięciu wyselekcjonowanych zmiennych. Te z kolei są wypadkowymi w pewnej mierze subiektywnego wyboru oraz dostępności danych. Także lista badanych państw została zawężona do znaczących reprezentantów regionów. Przypuszczalnie dodając bądź odejmując jakąś zmienną otrzymalibyśmy nieco inne wyniki. Nie ujmuje to wszakże wartości tego badania jako naszej oceny sytuacji ekonomiczno-gospodarczej Polski na tle wybranych krajów Azji oraz Europy wschodniej. W wyniku przeprowadzonych analiz wykazano, że państwa wcale nie różnią się tak bardzo (dla przykładu Polska znalazła się w tej samej grupie, co Turcja), co powinno zachęcać nas do współpracy ekonomicznej i być może do czerpania z niektórych krajów wzorców do naśladowania. Literatura: 1. Manly B.F.J. (1994), Multivariate statistical Methods, Chapman & Hall/ CRC, 2. Marek T. (1989), Analiza skupień w badaniach empirycznych. Metody SAHN. PWN, Warszawa, 3. Morrison D.F. (1990) Wielowymiarowa analiza statystyczna PWN, Warszawa, 4. Ostasiewicz W. (1998), Statystyczne metody analizy danych. Wydawnictwo Akademii Ekonomicznej im. Oskara Langego we Wrocławiu, Wrocław, 5. Rocznik Statystyki Międzynarodowej (2004), GUS Praca napisana pod naukową opieką dr hab. Andrzeja Balickiego, prof.. UG, Kierownika Katedry Statystyki oraz dr Kamili Najman i dr Krzysztofa Najmana z Katedry Statystyki, Wydziału Zarządzania, Uniwersytetu Gdańskiego. 10