Metody analizy i prezentacji danych statystycznych Materiały do wykładu

Transkrypt

1 Metody analizy i prezentacji danych statystycznych Materiały do wykładu Dr Adam Kucharski Spis treści 1 Podstawowe pojęcia statystyczne Populacja i zbiorowość Badanie statystyczne Standaryzacja danych Szeregi statystyczne Graficzna prezentacja danych Analiza szeregu przekrojowego Miary opisujące szereg i jego strukturę Badanie koncentracji Analiza szeregu czasowego Analiza dynamiki Dekompozycja szeregu czasowego Średnia ruchoma Modele trendu Zmienne zero-jedynkowe Wyodrębnianie wahań sezonowych Rodzaje prognoz i ich własności Ocena jakości prognoz ex post Szeregi przekrojowo-czasowe 30

2 1 Podstawowe pojęcia statystyczne 1.1 Populacja i zbiorowość W ramach naszego wykładu będziemy wykorzystywać wiedzę uzyskaną podczas zajęć ze Statystyki. Dlatego na początek przypomnimy sobie pojęcia poznane na tym przedmiocie. Zaczniemy od najbardziej podstawowych. Zbiorowość statystyczna zbiór osób, przedmiotów lub zjawisk podobnych do siebie, ale nie identycznych, poddanych badaniu statystycznemu. Pojedynczy element zbiorowości podlegający bezpośredniemu badaniu to jednostka statystyczna. Populacja generalna tworzą ją wszystkie elementy, będące przedmiotem badania, co do których formułujemy wnioski ogólne. Aby określić ją zgodnie z celem badania wszystkie jednostki muszą być określone pod względem: rzeczowym (co lub kogo badamy); przestrzennym (obszar objęty badaniem); czasowym (okres lub moment objęty badaniem). Populacja próbna podzbiór populacji generalnej, obejmujący elementy wybrane w określony sposób. Wyniki z jej badania uogólnia się na populację generalną. Badanie statystyczne pełne bezpośredniej obserwacji podlegają wszystkie elementy populacji generalnej. Badanie statystyczne częściowe obserwacji podlega tylko część populacji generalnej (tzw. próba). Wyróżnimy następujące rodzaje badań częściowych: reprezentacyjne; monograficzne (badany jest indywidualny przypadek np pojedynczy region bądź firma); ankietowe. Częściej wykonujemy drugi z wymienionych rodzajów badań. Dzieje się tak ponieważ zwykle nie możemy zbadać całości populacji generalnej ze względu na jej liczebność oraz/lub związane z tym koszty. Koszt przeprowadzenia badania częściowego jest niższy a samo badanie trwa krócej. Powtarzając je co jakiś czas zyskujemy szansę uaktualnienia wyników. Badania częściowe wykonujemy również wtedy, gdy jednostki statystyczne ulegają zniszczeniu w trakcie samego badania. Oba rodzaje badań obarczone są błędami, przy czym w badaniu częściowym dodatkowo pojawia się niebezpieczeństwo złego doboru struktury próby 1. Próba musi odnosić się do populacji generalnej z określoną dokładnością. Należy w tym celu spełnić dwa warunki: 1. próba musi być losowa prawdopodobieństwo znalezienia się w próbie powinno być jednakowe dla każdej jednostki; 2. próba powinna być dostatecznie liczna. W badaniach ekonomicznych występuje problem z doborem losowym, dlatego ograniczamy się do pojęcia niezależności jednostek z punktu widzenia wybranych zmiennych. Jednostki statystyczne różnią się między sobą ze względu na tzw. cechy statystyczne. Wyróżnimy następujące ich rodzaje: 1 Tą wadą często obarczone są badania oparte na sondażach telefonicznych. 2 z 32

3 cechy mierzalne warianty cechy wyrażone są za pomocą liczb. Dzielą się one dalej na: skokowe przyjmują skończoną lub przeliczalną liczbę wartości; ciągłe przyjmują dowolną (zależną od dokładności pomiaru) wartość z ustalonego przedziału; cechy niemierzalne warianty wyrażone są w sposób opisowy; cechy quasi-ilościowe (porządkowe) warianty są przedstawione w sposób opisowy, lecz można je uporządkować wg natężenia badanej cechy. 1.2 Badanie statystyczne Postępowanie zmierzające do udzielenia odpowiedzi na postawiony przez nas problem na podstawie materiału statystycznego oraz wykorzystujące stosowne narzędzia tworzy procedurę zwaną badaniem statystycznym. Przeprowadzając badanie tego rodzaju przechodzimy następujące etapy: 1. Przygotowanie badania: określenie celu badania; określenie zbiorowości i jednostki statystycznej; określenie charakteru badania (pełne lub częściowe); określenie sposobu pozyskiwania danych i ich źródeł; przygotowanie materiałów (formularzy, tablic roboczych itd.); przygotowanie planu finansowego; 2. Gromadzenie materiału statystycznego (obserwacja statystyczna), który może pochodzić ze źródeł: pierwotnych (dane zebrane bezpośrednio); wtórnych (dane pochodzą z wcześniejszych opracowań); 3. Grupowanie i prezentacja zebranego materiału przy pomocy tabel i wykresów; 4. Analiza wyników i wyciąganie wniosków. Jeśli chodzi o wtórne źródła danych, to bardzo popularne obecnie jest wykorzystywanie internetu. Dlatego przyjrzymy się kilku wybranym serwisom zawierającym dane statystyczne. Główny Urząd Statystyczny ( Strona GUS stanowi obfite źródło danych ekonomicznych, demograficznych i innych. Część z nich dostępna jest odpłatnie. Dane udostępniane są w postaci elektronicznych wersji publikacji GUS oraz pogrupowane według kategorii. Pobieżnie omówimy niektóre z nich: Ceny. Handel Znajdują się tu m.in. dane dotyczące inflacji, cen wybranych produktów czy niektóre z tablic Rocznika Statystycznego Handlu Zagranicznego. Ludność Obok elektronicznej wersji Rocznika Demograficznego znajdziemy w tym dziale tablice trwania życia czy strukturę ludności Polski z punktu widzenia różnych kryteriów. Praca. Wynagrodzenia Do pobrania udostępniono dane o pracujących, bezrobociu czy aktywności ekonomicznej ludności. Oprócz tego znajdują się tu informacje na temat wynagrodzeń klasyfikowanych według wybranych kryteriów. 3 z 32

4 Przemysł. Budownictwo. Środki trwałe Dział zawiera m.in. produkcję wybranych wyrobów czy dane na temat budownictwa mieszkaniowego. Rachunki narodowe Jako że rachunki narodowe są podstawą obliczania wartości PKB, właśnie tu znajdziemy dane i informacje merytoryczne związane z tą ważną kategorią ekonomiczną. Środowisko. Energia Dane dotyczące zużycia paliw i energii oraz ochrony środowiska. Warunki życia Dane na temat budżetów gospodarstw domowych, dochodów ludności itp. Opracowania zbiorcze Tutaj znajdują się odnośniki do stron związanych z publikacjami GUS. Warto zajrzeć na przykład do Biuletynu Statystycznego ukazującego się co miesiąc a zawierającego szeregi statystyczne o bardzo różnorodnej tematyce. Urząd publikuje także roczniki statystyczne z wybranych dziedzin, ale w ich przypadku musimy liczyć się z ograniczeniami ilości udostępnianych informacji. Statystyka regionalna Dział ten zawiera m.in. dane i opracowania wykonane przez Wojewódzkie Urzędy Statystyczne. Rodzaj tych danych zależy od konkretnego urzędu. Narodowy Bank Polski ( Oficjalna strona NBP zawiera szereg informacji na temat samego banku, jego polityki i wydawanych przepisów prawnych. Znajdują się tam również dane statystyczne m.in. bilans NBP, instrumenty banku centralnego, kursy walut i inne. W dziale Publikacje znajduje się Biuletyn Informacyjny NBP, zawierający wiele cennych danych na temat rynku bankowego i pieniężnego w Polsce. Oprócz tego na stronie znaleźć można analizy przygotowane przez pracowników banku. Dom Maklerski BOŚ S.A. (bossa.pl) oraz Gazeta giełdowa Parkiet ( W internecie łatwo znaleźć dane giełdowe. Wymienione powyżej strony zawierają obszerne zbiory danych tak bieżących jak i historycznych. Pobrać należy plik tekstowy przygotowany dla programu Metastock i wczytać go do arkusza kalkulacyjnego przy pomocy odpowiedniego kreatora. Izba Zarządzających Funduszami i Aktywami ( Na tej stronie znajdują się dane statystyczne, analizy ekonomiczne i inne informacje związane z funduszami inwestycyjnymi obecnymi na polskim rynku. Zgromadzone dane statystyczne (czy to ze źródeł pierwotnych, czy wtórnych) poddaje się grupowaniu, którego wyróżnimy dwa rodzaje: 1. typologiczne polegające na wyodrębnianiu grup odmiennych jakościowo np pod względem cech terytorialnych bądź rzeczowych; 2. wariancyjnie polegające na porządkowaniu jednostek i łączeniu ich w klasy o odpowiednich wartościach cechy. Jeżeli grupowanie w postaci szeregów nam nie wystarczy, dane można przedstawić przy pomocy tablic wielodzielnych, których szczególnym przypadkiem są tablice dwudzielne (korelacyjne). Oczywiście publikacje o charakterze statystycznym zostały przez autorów pogrupowane, ale niekiedy dane z naszego punktu widzenia okazują się zbyt szczegółowe. W takiej sytuacji możemy dokonać agregacji danych 2 przestrzegając jednak, aby grupować podobne warianty cechy. 2 Z działaniem tego typu mamy do czynienia na przykład tworząc szereg rozdzielczy punktowy z szeregu szczegółowego. 4 z 32

5 1.3 Standaryzacja danych Cechy mierzalne podlegające obserwacji statystycznej zazwyczaj mają miano, które niekiedy utrudnia porównywanie cech ze sobą. Wyjściem w takiej sytuacji może się stać standaryzacja zmiennych. Jednym ze sposobów standaryzacji danych jest podzielenie wszystkich elementów szeregu przez jego wartość maksymalną. Ma to tę zaletę, że dane po przekształceniu zyskują stały punkt odniesienia (wartość jeden). Przykład 1 Rozpatrzmy dostępny na stronie NBP średniomiesięczny kurs euro za pierwsze osiem miesięcy 2008 roku. Tabela 1 zawiera dane przed i po standaryzacji. Tabela 1: Przykład standaryzacji wykorzystującej wartość maks. Miesiąc Kurs EUR Kurs wystand. Styczeń 3, Luty 3,5825 0,9929 Marzec 3,5374 0,9804 Kwiecień 3,4444 0,9547 Maj 3,4069 0,9443 Czerwiec 3,3760 0,9357 Lipiec 3,2600 0,9035 Sierpień 3,2884 0,9114 Średnia 3,4380 0,9529 Odch. stand. 0,1217 0,0337 źródło: obliczenia własne na podst. danych z Postępowanie przedstawione w tabeli 1 przydaje się m.in. podczas przetwarzania danych powstających przy zliczaniu wyników pochodzących z ankiet. 1.4 Szeregi statystyczne Dane liczbowe jakie gromadzimy podczas badania statystycznego najczęściej mają postać szeregów statystycznych. Szereg statystyczny ciąg wielkości statystycznych, uporządkowanych według określonych kryteriów. Podstawowe rodzaje szeregów statystycznych ze względu na sposób prezentacji danych: szczegółowy; rozdzielczy: punktowy; z przedziałami klasowymi. Szeregi rozdzielcze dzielą zbiorowość statystyczną na części (klasy) wg określonej cechy i podają liczebność lub częstość każdej z klas. Zazwyczaj szeregi punktowe buduje się dla cech 5 z 32

6 skokowych zaś te z przedziałami klasowymi dla cech ciągłych choć jeśli liczba obserwacji w przypadku cechy skokowej jest duża również w jej wypadku sięga się po przedziały. Podstawowe rodzaje szeregów ze względu na charakter danych: czasowe; przekrojowe; przekrojowo-czasowe. Szeregi szczegółowe najlepiej nadają się do prezentowania niedużych ilości danych. Kiedy ich liczba wzrasta przechodzimy na szeregi rozdzielcze. O ile budowa szeregu punktowego nie budzi wątpliwości, to pojawiają się one już dla szeregu z przedziałami klasowymi. Tworzenie przedziałów może odbywać się w sposób intuicyjny (sama struktura szeregu sugeruje ilość i rozpiętość przedziałów) lub w oparciu o określone procedury. Poniżej znajdują się etapy postępowania, które pozwala zamienić szereg szczegółowy na rozdzielczy z przedziałami klasowymi. 1. Ustalenie liczby klas (k): jeżeli przez n oznaczymy ogólną liczebność szeregu, wówczas liczbę klas można wyznaczyć na podstawie jednego ze wzorów: k n (1) k 1 + 3,322 log n (2) 2. Ustalenie rozpiętości przedziałów: Zazwyczaj przyjmuje się jednakowe rozpiętości przedziałów. Dzięki temu liczebności w poszczególnych klasach są porównywalne. Różne rozpiętości stosujemy, kiedy populacja jest niejednorodna i występuje silna koncentracja obserwacji w jednej z klas. Niech h oznacza rozpiętość przedziału: h x max x min k Wartość h często trzeba przybliżyć. Wykorzystujemy wtedy tzw. przybliżenie z nadmiarem: hk R 3. Ustalanie granic klas: Zwykle jako dolną granicę przyjmuje się x min lub bliską mu wartość. Należy też pamiętać, że dla cech ciągłych dolne granice klas następnych powinny być równe górnym granicom klas poprzednich. Przykład 2 Spróbujmy skonstruować przykładowy szereg rozdzielczy. Z Małego Rocznika Statystycznego 2008 wybraliśmy dane dotyczące głębokości maksymalnej polskich jezior 3, które znalazły się w tabeli 2. Dane obejmują n = 23 jeziora. Na podstawie wzoru (2) ustalamy liczbę klas: R k k 1 + 3,322 log(23) 5,52 Zaokrąglamy wartość k do 6. Następnie ustalamy rozpiętość przedziałów: h 68 2,6 6 10,9 Pamiętając o regule przybliżania z nadmiarem, ustalamy rozpiętość przedziału na 11 m. W ostatnim kroku określamy granice przedziałów, pamiętając o tym, że w naszym przykładzie mamy do czynienia z cechą ciągłą. Jako dolną granicę przyjmiemy 2,5. Efekt końcowy znalazł się w tabeli 3. 3 Jeziora te uporządkowano malejąco wg powierzchni zwierciadła wody (3) 6 z 32

7 Tabela 2: Maksymalna głębokość większych jezior w Polsce Nazwa jeziora Maks. głębokość [m] Nazwa jeziora Maks. głębokość [m] Miedwie 43,8 Dominickie 17,1 Jeziorak Duży 12 Sasek Mały 3,7 Niegocin 39,7 Chełmżyńskie 27,1 Jamno 3,9 Tajno 6,6 Wdzydze Połud. 68 Raduń 25,1 Raduńskie Dolne 35,4 Chłop 23 Gaładuś 54,8 Przytoczno 12,5 Pogubie Wielkie 2,6 Harsz 47 Wdzydze Półn. 18,8 Wielkie 3,7 Ewingi 3 Gremzdy 14,3 Serwy 41,5 Boczne 17 Zdworskie 5 źródło: Mały Rocznik Statystyczny 2008, tabela 14 s. 44 Tabela 3: Struktura większych jezior Polski wg ich głębokości maksymalnej Maks. głębokość [m] 1.5 Graficzna prezentacja danych Liczba jezior 2,5-13,5 9 13,5-24,5 5 24,5-35,5 3 35,5-46,5 3 46,5-57,5 2 57,5-68,5 1 Razem 23 źródło: obliczenia własne Prezentacja danych na wykresie ma wiele zalet. Pozwala na przykład ogarnąć zachowanie się dużej liczby obserwacji. Analiza wykresu pomaga ocenić własności szeregu (np. asymetrię) i dobrać stosowne narzędzia dalszej analizy. Z uwagi na to, że źródła i rodzaje danych oraz cele badań są bardzo różnorodne, istnieje ogromna mnogość rodzajów wykresów. Wymieńmy tylko niektóre: statystyczne: rozkład empiryczny; histogram; wykres ramkowy; prezentujące strukturę lub częstość: wykres kołowy (pierścieniowy); 7 z 32

8 wykres kolumnowy (grupowany lub skumulowany); wykres warstwowy skumulowany; opisujące dekompozycję bądź zależność: punktowy; liniowy o skali równomiernej; liniowy o skali logarytmicznej. Tworząc wykresy warto pamiętać o następujących uwagach: 1. Wykorzystując układ współrzędnych na osi odciętych odkładamy wartości cechy, a na osi rzędnych liczbę wystąpień danego wariantu. 2. Dla szeregów czasowych oś odciętych zawiera interwały czasowe zaś oś rzędnych wielkości zjawisk w kolejnych momentach (okresach) czasu. 3. Skale na obu osiach są od siebie niezależne. 2 Analiza szeregu przekrojowego 2.1 Miary opisujące szereg i jego strukturę Dokonując analizy szeregu statystycznego wskazane jest obliczyć komplet miar opisujących jego strukturę. Oparcie się tylko na jednej lub dwóch nie daje pełnej informacji. Należy przy tym pamiętać o własnościach użytych miar (przykładowo o tym, że miary klasyczne obliczane są ze wszystkich elementów szeregu). Do najważniejszych charakterystyk zaliczymy: średnią arytmetyczną; wariancję (odchylenie standardowe); współczynnik skośności (lub inną miarę asymetrii); dominantę; kwartyle; rozstęp; współczynnik zmienności. Przykład 3 Rozpatrzmy dane na temat liczby ludności zamieszkującej miasta wszystkich 16 województw naszego kraju. Dane pochodzą z tablicy 2 zawartej w publikacji pt. Miasta w liczbach przygotowanej przez Centrum Statystyki Miast Urzędu Statystycznego w Poznaniu, a dostępnej na internetowej stronie GUS. Dla danych z tabeli 4 obliczmy podstawowe miary statystyczne. Z wyników zawartych w tabeli 5 dowiadujemy się, że w polskich miastach na koniec 2006 roku mieszkało średnio 1460,56 tys. osób. Najmniejsza liczba ludności zamieszkiwała miasta województwa opolskiego a największa śląskiego. W połowie województw mieszkało w miastach nie więcej niż 1217,8 tys. osób zaś połowa obserwacji mieści się między 815,33 a 1723,35 tys. osób. Odchylenie standardowe wyniosło 899,05 tys. osób. Wskazuje to na dużą zmienność szeregu, co potwierdza współczynnik zmienności rzędu niemal 62%. 8 z 32

9 Tabela 4: Ludność zamieszkująca w miastach poszczególnych województw. Stan na 31 XII Województwo Ludność miejska [tys.] Dolnośląskie 2042,7 Kujawsko-pomorskie 1267,3 Lubelskie 1013,0 Lubuskie 645,6 Łódzkie 1657,3 Małopolskie 1618,1 Mazowieckie 3346,7 Opolskie 547,8 Podkarpackie 849,9 Podlaskie 711,6 Pomorskie 1477,3 Śląskie 3666,1 Świętokrzyskie 579,8 Warmińsko-mazurskie 855,9 Wielkopolskie 1921,5 Zachodniopomorskie 1168,3 źródło: Miasta w liczbach , Tabela 5: Zestawienie wyników obliczeń dla danych z tabeli 4 Miara Wartość Miara Wartość Średnia aryt. 1460,56 Q 1 815,33 Mediana 1217,8 Q ,35 Wariancja 8, Wsp. zmienności 0,616 Odchyl. stand. 899,05 Rozstęp 3118,3 x min 547,8 Q 3 Q 1 908,03 x max 3666,1 A Q 0,114 źródło: obliczenia własne Naszą uwagę powinna zwrócić również duża różnica pomiędzy średnią a medianą wskazując na silną asymetrię prawostronną. Z uwagi na występowanie najliczniejszego wariantu cechy w skrajnym położeniu nie obliczamy dominanty, a w konsekwencji nie możemy ocenić siły asymetrii przy pomocy miar klasycznych. Dlatego obliczony został pozycyjny współczynnik skośności (A Q ). Wskazuje on na niedużą asymetrię prawostronną. Może to dziwić, gdy spojrzymy na wykres na rysunku 1 gdzie wyraźnie widać silną asymetrię prawostronną. Różnica ta bierze się z faktu, iż A Q mierzy asymetrię 50% środkowych elementów szeregu, a wśród nich nie występują aż tak duże różnice. Analiza wykresu na rysunku 1 (dane o liczbie ludności uporządkowano rosnąco) pozwala znaleźć przyczynę takiego stanu rzeczy. Dwa województwa: mazowieckie i śląskie bardzo wyraźnie odstają pod względem badanej cechy od pozostałych regionów. Poza tym w sześciu wojewódz- 9 z 32

10 Rysunek 1: Ludność zamieszkująca miasta poszczególnych województw źródło: Miasta w liczbach , twach liczba ludności miejskiej znajduje się wyraźnie poniżej miliona osób. Z tego powodu całą analizę należy wykonać oddzielnie dla możliwie jednorodnych grup. Przyjmiemy następujący podział: 1. grupa 1 województwa: opolskie, świętokrzyskie, lubuskie, podlaskie, podkarpackie, warmińskomazurskie; 2. grupa 2 województwa: lubelskie, zachodniopomorskie, kujawsko-pomorskie, pomorskie, małopolskie, łódzkie, wielkopolskie, dolnośląskie; 3. grupa 3 województwa: mazowieckie, śląskie. Tabela 6: Zestawienie wyników dla grupy 1 Miara Wartość Miara Wartość Średnia aryt. 698,43 Q 1 596,25 Mediana 678,6 Q 3 815,33 Wariancja 14577,82 Wsp. zmienności 0,173 Odchyl. stand. 120,74 Rozstęp 308,1 x min 547,8 Q 3 Q 1 219,08 x max 855,9 A Q 0,248 źródło: obliczenia własne 10 z 32

11 Przyjrzyjmy się wynikom otrzymanym dla grupy 1, które znalazły się w tabeli 6. Najbardziej rzuca się w oczy bardzo wyraźny spadek zmienności, podnoszący nasze zaufanie do średniej arytmetycznej. Zmieniła się również siła asymetrii szeregu. Pozostałe dwa przypadki można przeanalizować w podobny sposób. 2.2 Badanie koncentracji Jedną z własności, którą można badać w szeregach jest tzw. koncentracja mierzona m.in. przy pomocy kurtozy. Jednakże zmienne ekonomiczne (takie jak dochód) odznaczają się nierównomiernym rozłożeniem pomiędzy podmioty gospodarcze. Z tego powodu przydatne staje się przeanalizowanie stopnia podziału cechy pomiędzy poszczególne jednostki. Służy do tego współczynnik koncentracji Lorenza. Przyjmuje on wartości z przedziału 0, 1. Wartość 0 oznacza równomierny podział (brak koncentracji) zaś 1 całkowitą koncentrację. Jego wartość przybliżoną można wyznaczyć na podstawie wzoru: K L 1 k i=1 z ski + z sk 1 2 ω i (4) Prześledźmy sposób wyznaczania współczynnika Lorenza przy pomocy przykładu. Przykład 4 Jako źródło danych wykorzystamy Rocznik statystyczny województw 2007 opublikowany na stronie GUS. Zbadamy czy można powiedzieć, że występuje koncentracja PKB w województwach uporządkowanych ze względu na liczbę ludności, oraz jak jest ona silna. Wykorzystamy zagregowane dane znajdujące się w tablicach II A oraz II E. Dane pochodzą z 2005 roku. Tabela 7: PKB a liczba ludności wytwarzane w województwach Województwa wg Liczba PKB liczby ludności [tys.] województw [mln zł] < > Razem źródło: Rocznik statystyczny województw 2007, Stopień koncentracji ilustruje tzw. krzywa koncentracji (krzywa Lorenza). Na osi odciętych zaznaczamy skumulowane odsetki dla województw, a na osi rzędnych skumulowane odsetki dla PKB. Łącząc punkty o współrzędnych (ω ski, z ski ) otrzymujemy wspomnianą krzywą przedstawioną na rysunku 2. Krzywa ta wpisuje się w kwadrat, którego przekątną nazywamy linią równomiernego podziału. W miarę wzrostu koncentracji, krzywa Lorenza oddala się od przekątnej. Rośnie tym samym pole powierzchni powstałej figury (obszar zaznaczony szarym kolorem na rysunku 2). Stosunek owego pola do połowy pola kwadratu określa współczynnik Lorenza. Dla naszego przykładu wartość współczynnika ta wynosi: K L = 1 0,325 = 0, z 32

12 Tabela 8: Obliczenie współczynnika Lorenza Województwa wg Odsetek woj. Odsetek PKB Skumul. odsetki Pole liczby ludności [tys.] ω i z i ω ski z ski figury <2000 0,375 0,165 0,3750 0,165 0, ,375 0,3212 0,7500 0,4862 0, ,125 0,1674 0,8750 0,6536 0, ,0625 0,1327 0,9375 0,7863 0,3250 >5000 0,0625 0, ,0558 Razem 1 1 0,325 źródło: obliczenia własne z ski ω ski Rysunek 2: Krzywa Lorenza dla przykładu z tabeli 8 źródło: obliczenia własne Stwierdzamy więc, że istnieje dość duży stopień koncentracji wytworzonego PKB w województwach. Rzeczywiście, analiza wskaźników struktury z tabeli 8 pozwala zauważyć, że największe udziały wartości PKB występują w dwóch przedziałach: drugim i ostatnim. 3 Analiza szeregu czasowego 3.1 Analiza dynamiki Szeregi przekrojowe ujmują zjawisko w sposób statyczny. Czas, kiedy dokonano obserwacji jest w nich ustalony i niezmienny. Statystyka stosuje również podejście dynamiczne, które opiera się na szeregach czasowych. Podobnie jak szeregi przekrojowe, mogą one być charakteryzowane przez miary przeciętne (najczęściej średnią arytmetyczną) oraz zróżnicowanie (zwykle wariancję, odchylenie standardowe, współczynnik zmienności). Należy przy tym pamiętać, że w przypadku szeregu momentów oblicza się średnią chronologiczną zgodnie ze wzorem: ȳ ch = 0,5y 1 + y y n 1 + 0,5y n n 1 (5) 12 z 32

13 Dla szeregu okresów obliczamy klasyczną wersję tej miary. Szeregi czasowe stanowią również punkt wyjścia dla (omawianych podczas zajęć ze Statystyki opisowej) miar dynamiki. Przypomnijmy, że na bazie indeksów łańcuchowych wyznaczany średnie tempo zmian zjawiska w czasie przy pomocy średniej geometrycznej: ī G = n 1 i n n 1 i n 1 n 2... i 2 1 = n 1 i n 1 (6) Znając średnią geometryczną szeregu czasowego możemy wyznaczyć średniookresowe tempo zmian. T n = ȳ ch 1 (7) Zwróćmy uwagę na to, że średnia geometryczna indeksów łańcuchowych w rzeczywistości pomija wartości zawarte między skrajnymi wyrazami. Ma to duże znaczenie przy interpretacji danych, ponieważ aby podtrzymać jej wiarygodność obserwacje z kolejnych okresów nie powinny się zbytnio różnić. Przykład 5 Sięgnijmy do Biuletynu Statystycznego GUS ( z lipca W tablicy 11 znajdują się dane kwartalne dotyczące przeciętnego zatrudnienia bez jednostek budżetowych prowadzących działalność w zakresie obrony narodowej i bezpieczeństwa publicznego. Dokonajmy analizy tego szeregu. Tabela 9: Obliczenia dla szeregu danych kwartalnych Przeciętne zatrudnienie [tys.](x t ) Okres X t i t t I-III IV-VI , VII-IX , X-XII , I-III , IV-VI ,0040 Średnia arytm. 7883,8330 Odch. stand. 133,4434 Wsp. zmien. [%] 1,69 Średnia geom. 1,0094 źródło: obliczenia własne na podst. BS GUS nr 07/2008 Niska wartość współczynnika zmienności pozwala stwierdzić, że średnia arytmetyczna dobrze opisuje średni poziom przeciętnego zatrudnienia w analizowanym okresie. Kształtowało się ono na poziomie 7883,8 tys. osób. Znajdujące się w ostatniej kolumnie tabeli 9 indeksy łańcuchowe wskazują na niewielkie zmiany w kolejnych okresach. Uznajemy więc, że średnia geometryczna dobrze opisze średnie tempo zmian, które wyniosło 0,94%. Możemy więc stwierdzić, że między pierwszym kwartałem 2007 a drugim 2008 nie dochodziło do dynamicznych zmian przeciętnego zatrudnienia. 3.2 Dekompozycja szeregu czasowego Inny kierunek analiz zmierza do dzielenia zachowania szeregu czasowego na poszczególne elementy. Szereg taki składa się z pewnych powtarzających się elementów, które można zdekomponować 13 z 32

14 na: Tendencję rozwojową (trend) długookresową skłonność do jednokierunkowych zmian wartości zmiennej. Efekt działania stałego zestawu czynników. Stały (przeciętny) poziom zmiennej występujący w szeregu, w którym brak tendencji rozwojowej. Wartości oscylują wokół pewnego stałego poziomu. Wahania cykliczne długookresowe, rytmiczne wahania wartości zmiennej wokół trendu lub stałego poziomu. Wahania sezonowe wahania mające skłonność do powtarzania się w określonym czasie nie przekraczającym roku. Wahania przypadkowe losowe zmiany zmiennej o zróżnicowanej sile. Wymienione wyżej elementy spotykamy praktycznie w dowolnych konfiguracjach (np. małe wahania losowe, stały poziom zmiennej i wahania sezonowe dla jednego szeregu) czego ilustracją jest rysunek 3. y t (a) y t (b) t t Rysunek 3: Przykłady dekompozycji szeregu czasowego: (a) Wahania przypadkowe i trend liniowy, (b) Wahania sezonowe i stały poziom zmiennej. Wahania przypadkowe można próbować eliminować, zaś trend wyodrębniać z szeregu, używając do tego celu tzw. metod wygładzania, które podzielimy na następujące grupy: 1. metody mechaniczne (np. średnia ruchoma); 2. metody analityczne (funkcje trendu). 3.3 Średnia ruchoma Zaliczana do grupy metod mechanicznych średnia ruchoma, nie wymaga przyjmowania zbyt wielu założeń. Ograniczamy się jedynie do określenia liczby obserwacji, na podstawie których obliczamy średnią ruchomą. Sposoby jej wyznaczania różnią się między sobą. Jeżeli naszym celem jest jedynie wygładzenie szeregu i wyodrębnienie trendu, wówczas obliczamy tzw. średnią scentrowaną. Z kolei dla celów prognostycznych wykorzystuje się wariant wyznaczający średnią wartość dla przyszłych okresów. W obu przypadkach liczbę elementów branych pod uwagę przy obliczaniu średniej nazywamy stałą wygładzania (k). 14 z 32

15 Średnią scentrowaną inaczej wyznacza się dla parzystej a inaczej dla nieparzystej liczby okresów. Załóżmy, że chcemy wygładzić szereg średnią o stałej wygładzania k = 3. Przykładowe wartości otrzymamy stosując wzory: ȳ 2 = y 1 + y 2 + y 3 3 Z kolei dla stałej k = 4 należy zastosować: ȳ 3 = 0,5y 1 + y 2 + y 3 + y 4 + 0,5y 5 4 ȳ n 1 = y n 2 + y n 1 + y n 3 ȳ n 2 = 0,5y n 4 + y n 3 + y n 2 + y n 1 + 0,5y 5 4 Przykład 6 Z tego samego, 7/2008 numeru Biuletynu Statystycznego co w przykładzie poprzednim użyjemy danych zawartych w tablicy 47, a obejmujących produkcję sprzedaną przemysłu ogółem w okresie od maja 2007 do lipca Wygładzony przy pomocy średniej ruchomej scentrowanej o k = 3 szereg znalazł się w tabeli 10. Tabela 10: Produkcja sprzedana przemysłu wygładzanie szeregu Okres Prod. sprzed. Średnia ruchoma Reszty 2007 V 68,2446 [mld zł] k=3 e t 2007 VI 68, ,2008 0, VII 67, ,2543-0, VIII 68, ,3520-0, IX 71, ,8648-1, X 78, ,9691 3, XI 74, ,7987 0, XII 68, ,6797-3, I 72, ,2823 0, II 73, ,2498 0, III 74, ,8364-0, IV 76, ,9981 2, V 71, ,2796-3, VI 74, ,9277 2, VII 72,7829 źródło: obliczenia własne na podst. BS GUS nr 07/2008 Wartości powstałe po użyciu średniej ruchomej pozbawione są części wahań losowych. Jest to tzw. efekt wygładzania, który rośnie ze wzrostem stałej wygładzania. Płacimy za to utratą części obserwacji, tym większą, im silniej wygładzamy szereg. Wpływ k na wygładzenie szeregu na bazie danych z ostatniego przykładu ilustrują wykresy na rysunkach 4 i 5. Uśredniona wartość z oczywistych powodów odbiega od danych rzeczywistych. Między daną rzeczywistą a uśrednioną dla odpowiadających sobie okresów obliczamy różnicę (zwaną resztą i oznaczaną symbolem e t ), co ilustruje ostatnia kolumna tabeli 10. Reszty wyznaczamy więc według wzoru: e t = y t ȳ (k) t (8) 15 z 32

16 gdzie: y t obserwacja rzeczywista w okresie t; ȳ (k) t wartość k-okresowej średniej ruchomej w okresie t. Rysunek 4: Produkcja sprzedana przemysłu wygładzona średnią ruchomą o k =3. źródło: BS GUS nr 07/2008 oraz obliczenia własne Rysunek 5: Produkcja sprzedana przemysłu wygładzona średnią ruchomą o k =5. źródło: BS GUS nr 07/2008 oraz obliczenia własne Analiza reszt pozwala poznać własności wygładzonego szeregu. Na przykład znaczna przewa- 16 z 32

17 ga wartości ujemnych (dodatnich) świadczy o częstym przeszacowywaniu (niedoszacowywaniu) wyników przez średnią ruchomą. Średnia ruchoma w wersji prognostycznej zachowuje wszystkie własności średniej scentrowanej. Inna jest jednak filozofia wyznaczania jej wartości. Na użytek prognozowania przyjmuje się, że wartość zmiennej prognozowanej w okresie prognozy będzie równa średniej arytmetycznej z k poprzednich wartości tej zmiennej. Dla danych z tabeli 10 obliczmy średnią ruchomą trójokresową w wariancie prognostycznym. Przykład 7 Tabela 11: Produkcja sprzedana przemysłu prognozy Okres Prod. sprzed. Średnia ruchoma Reszty 2007 V 68, VI 68, VII 67,8971 [mld zł] k=3 e t 2007 VIII 68, ,2008 0, IX 71, ,2546 3, X 78, ,3520 9, XI 74, ,8648 1, XII 68, ,9691-6, I 72, ,7987-1, II 73, ,6797 1, III 74, ,2823 2, IV 76, ,2498 3, V 71, ,8364-3, VI 74, ,9981 0, VII 72, ,2796-1, VIII 72,9277 źródło: obliczenia własne na podst. BS GUS nr 07/2008 Średnia z tabeli 11 obliczana jest dla tej samej co w poprzednim przykładzie stałej wygładzania i w konsekwencji daje te same wartości. Zmienia się jednak ich sens merytoryczny. Uśredniona na podstawie kilku ostatnich obserwacji wartość staje się prognozą w okresie kolejnym. Przestaje tym samym obowiązywać zasada iż średnia musi znaleźć się w przedziale pomiędzy najmniejszym a największym wyrazem szeregu. W konsekwencji obserwujemy wyższe (co do wartości bezwzględnej) reszty. Plusem jednak takiego postępowania jest to, że możemy wyprognozować poziom zmiennej w okresie, dla którego brak danych. Jak ilustruje to wykres na rysunku 6 sam efekt wygładzenia również ma inny przebieg. Nie uległa jednak zmianie reguła, w myśl której im wyższa stała wygładzania tym silniej usuwane są wahania przypadkowe. Powiemy wtedy, że słabnie wpływ wahań losowych na wartość prognozy. Z uwagi na jakość otrzymywanych prognoz, duże znaczenie ma dekompozycja szeregu czasowego. Użycie średniej ruchomej do szeregu z wyraźnym trendem liniowym doprowadza zawsze do systematycznego przeszacowywania lub niedoszacowywania prognoz. Najlepiej sprawdza się ona w szeregach o stałym poziomie zmiennej, bez wahań sezonowych. 17 z 32

18 Rysunek 6: Produkcja sprzedana przemysłu prognozowana średnią ruchomą o k =3. źródło: BS GUS nr 07/2008 oraz obliczenia własne 3.4 Modele trendu Drugą grupę metod wyodrębniających elementy dekompozycji szeregu czasowego stanowią funkcje trendu. Niektóre szeregi mają skłonność do systematycznych zmian w czasie np. stale rosną lub maleją. Mówimy wówczas, że zawierają trend, który w modelach reprezentuje się przy pomocy sztucznej zmiennej. Zazwyczaj oznacza się ją symbolem t a jako wartości przyjmuje numery kolejnych okresów (t=1, 2, 3,...,n). Zmienna t wprowadzana jest jako argument funkcji matematycznej, służącej objaśnianiu zachowania się zmiennej y t zawierającej kolejne obserwacje szeregu. Najprostszą z możliwych postaci jest funkcja liniowa: y t = α + βt (9) Jej parametry znajdujemy wykorzystując metodę najmniejszych kwadratów lub stosując wzory: n (t t)y t gdzie: β = t=1, α = ȳ β t (10) n (t t) 2 t=1 t = 1 n n t=1 t = n z 32

19 Przykład 8 Ponownie sięgnijmy do Biuletynu Statystycznego nr 7/2008. Wykorzystamy zawarte w tablicy 21 (Aktywa krajowe i zagraniczne) dane na temat zadłużenia netto instytucji rządowych szczebla centralnego. Wyznaczymy dla nich parametry liniowej funkcji trendu. Tabela 12: Wyznaczanie parametrów trendu liniowego Okres Zadłużenie Numer okresu [mld zł] t t t (t t)y t (t t) IX 58, ,5-265,199 20, X 60, ,5-210,805 12, XI 55, ,5-138,758 6, XII 61, ,5-92,909 2, I 58, ,5-29,481 0, II 66, ,5 33,379 0, III 68, ,5 102,198 2, IV 67, ,5 169,610 6, V 69, ,5 244,696 12, VI 75, ,5 339,921 20,25 Suma 152,652 82,5 źródło: obliczenia własne na podst. BS GUS nr 07/2008 Parametry równania linii trendu: β = 152,652 82,5 = 1,85 α = 64,38 1,85 5,5 = 54,2 Gotowe równanie: ŷ t = 54,2 + 1,85t (11) Daszek nad symbolem zmiennej objaśnianej informuje, że mamy do czynienia nie z wartością rzeczywistą a teoretyczną, wyznaczoną na podstawie równania 11. Interpretacja parametrów jest następująca: z okresu na okres zadłużenie netto instytucji centralnych wzrastało średnio o 1,85 mld zł; niezależny od upływu czasu, stały poziom tego zadłużenia wynosił w badanym okresie 54,2 mld zł. Graficzna prezentacja linii trendu znalazła się na wykresie zamieszczonym na rysunku 7. Analizując zachowanie się szeregu stwierdzamy, że liniowa postać funkcji trendu dobrze sprawdza się w tym przypadku. Dopasowanie modelu do danych rzeczywistych sprawdza się przy pomocy współczynnika determinacji (R 2 ): R 2 = n (ŷ t ȳ) 2 t=1 = 1 n (y t ȳ) 2 t=1 n t=1 e 2 t (12) n yt 2 nȳ 2 t=1 19 z 32

20 Rysunek 7: Zadłużenie netto instytucji centralnych a linia trendu źródło: obliczenia własne Współczynnik determinacji przyjmuje wartości z przedziału 0, 1. Im bliżej jedności, tym lepsze dopasowanie modelu do danych rzeczywistych. Wyznaczmy współczynnik R 2 dla naszego przykładu. Obliczenia pomocnicze znajdują się w tabeli 13. Tabela 13: Wyznaczanie współczynnika determinacji Numer okresu Reszty t yt 2 ŷ t e t e 2 t ,10 56,048 2,885 8, ,65 57,899 2,331 5, ,58 59,749-4,246 18, ,44 61,599 0,340 0, ,40 63,450-4,489 20, ,50 65,300 1,457 2, ,97 67,151 0,981 0, ,81 69,001-1,157 1, ,83 70,851-0,938 0, ,99 72,702 2,836 8,04 Suma 41789, ,40 źródło: obliczenia własne 20 z 32

Pokazać jeszcze