GŁÓWNY URZĄD STATYSTYCZNY RZECZYPOSPOLITEJ POLSKIEJ KOŃCOWY RAPORT TECHNICZNY Z DZIAŁAŃ ZREALIZOWANYCH W RAMACH UMOWY O DOTACJĘ EUROSTATU NR 50502.2012.001-2012.519 TYTUŁ AKCJI: ŁĄCZENIE DANYCH STATYSTYCZNYCH Z INFORMACJĄ GEOPRZESTRZENNĄ W PAŃSTWACH CZŁONKOWSKICH OKRES KWALIFIKOWANY: OD 11.12.2012 DO 10.02.2014 Warszawa, 10.02.2014 Akcja opisana w niniejszym raporcie została zrealizowana przy finansowej pomocy Unii Europejskiej. Wyłączna odpowiedzialność za nią spoczywa na autorze. Komisja Europejska nie jest odpowiedzialna za żaden przypadek ewentualnego wykorzystania zawartych w niniejszym raporcie informacji.
Zawartość 1. Wstęp... 4 2. Definicje pojęć i nazw stosowanych w raporcie... 5 3. Metody prezentacji kartograficznej danych statystycznych... 7 4. Uprzestrzennienie adresów przedsiębiorstw... 8 a. Cel akcji... 8 b. Dane źródłowe... 9 c. Zakres prac... 10 5. Przestrzenna wizualizacja danych demograficznych... 12 a. Wprowadzenie... 12 b. Cel akcji... 13 c. Dane źródłowe... 13 (i). Dane atrybutowe... 13 (ii). Dane przestrzenne... 14 d. Środowisko programistyczne... 14 e. Zakres prac... 14 (i.) Kilometrowa siatka kwadratów... 15 (ii.) Obręby ewidencyjne... 17 (iii.) Rejony statystyczne i obwody spisowe... 20 f. Prezentacja wyników... 21 6. Prezentacja kierunków przepływu ludności związanych z zatrudnieniem... 23 a. Cel akcji... 23 b. Dane źródłowe... 23 (i.) Dane atrybutowe... 23 (ii.) Dane przestrzenne... 24 c. Środowisko programistyczne... 25 d. Przygotowanie danych do wizualizacji... 25 e. Prezentacja dojazdów do pracy... 27 f. Prezentacja kierunków przepływu ludności związanych z zatrudnieniem na przykładzie miasta Poznania... 28 g. Prezentacja kierunków przyjazdu do pracy do miast wojewódzkich (przepływy wewnątrz wojewódzkie)... 30 7. Możliwości zastosowania danych geoprzestrzennych pozyskanych z Bazy Danych Obiektów Topograficznych do budowy wskaźników statystycznych opisujących stan zagospodarowania przestrzennego... 31 a. Cel akcji... 31 b. Zakres prac... 31 c. Teoretyczne aspekty zagadnienia i przyczyny podjęcia prac... 32 d. Założenia metodologiczne wskaźników... 33 e. Dane źródłowe... 34 (i.) Zakres danych... 34 (ii.) Ewaluacja danych... 35 f. Pozyskanie danych statystycznych dla gmin i siatki kilometrowej... 37 (i.) Założenia i przygotowanie danych do badania... 37 (ii.) Przebieg badań i ich wyniki... 38 g. Porównanie otrzymanych wyników z danymi statystyki publicznej... 42 8. Wizyta studyjna... 43 9. Wnioski... 47 Główny Urząd Statystyczny 2
a. Uprzestrzennienie adresów przedsiębiorstw... 48 b. Przestrzenna wizualizacja danych demograficznych... 48 c. Prezentacja kierunków przepływu ludności związanych z zatrudnieniem... 49 d. Możliwości zastosowania danych geoprzestrzennych pozyskanych z Bazy Danych Obiektów Topograficznych do budowy wskaźników statystycznych opisujących stan zagospodarowania przestrzennego... 50 10. Literatura... 51 11. Załącznik I - Przestrzenna wizualizacja danych demograficznych... 52 12. Załącznik II - Prezentacja kierunków przepływu ludności związanych z zatrudnieniem... 52 Główny Urząd Statystyczny 3
1. Wstęp Niniejszy raport jest raportem końcowym z działań podjętych w ramach akcji zatytułowanej Łączenie danych statystycznych z informacją geoprzestrzenną w państwach członkowskich realizowanej w ramach umowy o dotację numer 50502.2012.001-2012.519. Umowa podpisana została w dniu 10.12.2012 roku. Okres kwalifikowany realizacji działań objętych tą umową zawiera się w okresie od 11.12.2012 do 10.02.2014. Projekt realizowany był przez zespół składający się z pracowników Głównego Urzędu Statystycznego (Departament Programowania i Koordynacji Badań oraz Departament Badań Regionalnych), Ośrodka Statystyki Miast w Urzędzie Statystycznym z Poznaniu oraz Centrum Informatyki Statystycznej. Niniejszy raport jest raportem końcowym i zawiera podsumowanie prac prowadzonych w okresie od 11.12.2012 do 10.02.2014. W ramach przedmiotowego projektu przeprowadzono analizę możliwości przedstawiania danych demograficznych w podziale innym niż stosowany obecnie podział administracyjny. W ramach projektu wypracowano sposób prezentacji danych statystycznych w podziale ewidencyjnym, statystycznym oraz w podziale na kilometrową siatkę kwadratów. W tym celu w trakcie trwania projektu przeprowadzono szereg analiz geoprzestrzennych z wykorzystaniem danych zebranych podczas Narodowego Spisu Ludności i Mieszkań 2011 oraz dodatkowo pozyskanych danych przestrzennych (obręby ewidencyjne, rejony statystyczne oraz obwody spisowe). Przeprowadzenie owych analiz było możliwe dzięki temu, że na potrzeby spisów w statystyce publicznej utworzono przestrzenną bazę punktów adresowych reprezentujących położenie budynków mieszkalnych dla obszaru Polski. Przy pomocy tak pozyskanych danych w ramach projektu utworzono dodatkowo bazę punktów adresowych reprezentujących położenie przedsiębiorstw. Pozwoliło to w późniejszej fazie projektu na prezentację na mapach wyników badań statystycznych obrazujących dojazdy do pracy. Ośrodek Statystyki Miast Urzędu Statystycznego w Poznaniu wypracował metodologię badania dojazdów do pracy z wykorzystaniem danych pozyskanych na cele Narodowego Spisu Powszechnego Ludności i Mieszkań 2011. Wyniki tego badania zostały wykorzystane w pracach w ramach projektu, a ich celem było pokazanie efektów powiązania geoinformacji z informacją statystyczną. Główny Urząd Statystyczny 4
Ponadto Departament Badań Regionalnych i Środowiska zbadał możliwości wykorzystania zbieranych w statystyce danych przestrzennych do budowy wskaźników statystycznych opisujących stan zagospodarowania przestrzennego, w tym opracował metody budowy wskaźników dla gęstości zabudowy i gęstości dróg. Celem tego działania była ocena możliwości wykorzystania danych geoprzestrzennych pochodzących ze źródeł administracyjnych do analiz regionalnych. Ponadto, zgodnie z zapisami umowy po siedmiu miesiącach realizacji projektu (w lipcu 2013 roku) sporządzono oraz przekazano do Eurostatu raport pośredni z wdrażania akcji, zawierający podsumowanie prac prowadzonych w okresie od 11.12.2012 do 10.07.2013. 2. Definicje pojęć i nazw stosowanych w raporcie Na potrzeby niniejszego opracowania przyjęto następujące definicje: Baza Dojazdów oznacza zbiór danych zawierający informacje pozwalające scharakteryzować zjawisko dojazdów do pracy. Baza Przyjazdów oznacza zbiór danych zawierający informacje pozwalające scharakteryzować zjawisko dojazdów do pracy, gdzie reprezentację graficzną posiada miejsce zatrudnienia osoby dojeżdżającej do pracy. Baza Wyjazdów oznacza zbiór danych zawierający informacje pozwalające scharakteryzować zjawisko dojazdów do pracy, gdzie reprezentację graficzną posiada miejsce zamieszkania osoby dojeżdżającej do pracy. Dojeżdżający do pracy osoba, której siedziba pracodawcy znajduje się poza granicami administracyjnymi gminy * zamieszkania. Przyjeżdżający do pracy osoba, przyjeżdżająca do gminy * miejsca pracy z innej gminy *, która jest jej miejscem zamieszkania. Wyjeżdżający do pracy osoba, wyjeżdżająca z gminy * zamieszkania do innej gminy *, która jest jej miejscem pracy. Zatrudniony osoba, której źródłem przychodu są wynagrodzenia ze stosunku: pracy, służbowego, spółdzielczego i z pracy nakładczej, a także zasiłki pieniężne z ubezpieczenia społecznego wypłacane przez zakład pracy. Przestrzenne bazy adresowe bazy danych przestrzennych przechowujące statystyczne punkty adresowe (punkty lokalizujące budynki, w których znajduje się co najmniej jedno mieszkanie) oraz granice podziału statystycznego (rejony statystyczne i obwody spisowe). Aktualizacja przestrzennych baz adresowych odbywa się kwartalnie. Źródłem obiektów Główny Urząd Statystyczny 5
i atrybutów dla przestrzennych baz adresowych jest rejestr TERYT, zawierający informacje opisowe oraz identyfikatory budynków i jednostek podziału statystycznego. BDOT Baza Danych Obiektów Topograficznych- dane gromadzone i dostępne w państwowym zasobie geodezyjnym i kartograficznym poziomu centralnego. BJS Baza Jednostek Statystycznych - baza zawierająca jednolity opis i identyfikację podmiotów gospodarczych, jest aktualizowana poprzez dane z badań oraz w oparciu o źródła administracyjne. TERYT Krajowy Rejestr Urzędowy Podziału Terytorialnego Kraju- hierarchiczny podział terytorialny kraju (regiony, województwa, podregiony, powiaty, gminy, rodzaje gmin) prowadzony przez GUS. Identyfikatory tego rejestru stanowią obowiązujący standard identyfikacji terytorialnej dla organów prowadzących urzędowe rejestry i systemy informacyjne administracji publicznej. NOBC System identyfikacji adresowej ulic, nieruchomości, budynków i mieszkań- system będący składnikiem TERYT. Zawiera adresy budynków i mieszkań w układzie rejonów statystycznych i obwodów spisowych. Podział administracyjny (podział terytorialny) trójstopniowy podział terytorium państwa na mniejsze obszary w którego skład wchodzą granice gmin, powiatów oraz województw. Podział statystyczny w niniejszym opracowaniu - granice obwodów spisowych i rejonów statystycznych. Obwód spisowy jednostka przestrzenna wyodrębniona pod kątem sprawnego przeprowadzenia czynności spisowych przez jednego rachmistrza spisowego dla spisów powszechnych i innych badań statystycznych. Wielkość obwodu spisowego uzależniona jest od liczby mieszkań i mieszkańców. Kryterium wielkości obwodu spisowego wynosi nie więcej niż 500 osób i 200 mieszkań. Rejon statystyczny jednostka przestrzenna agregacji danych statystycznych, złożona z kilku, nie więcej niż dziewięciu, obwodów spisowych. Obręb ewidencyjny jednostka powierzchniowa podziału kraju wyodrębniona dla celów ewidencji gruntów i budynków (katastru nieruchomości). Obszar obrębu tworzą powierzchnie wszystkich działek ewidencyjnych wchodzących w jego skład. EPSG (The EPSG Geodetic Parameter Dataset) rejestr używanych na świecie układów współrzędnych geodezyjnych, * - z uwzględnieniem podziału gmin miejsko-wiejskich na część miejską i wiejską. Główny Urząd Statystyczny 6
3. Metody prezentacji kartograficznej danych statystycznych Prezentacja danych statystycznych przy wykorzystaniu narzędzi GIS, powinna odbywać się zgodnie z kartograficznymi metodami wizualizacji zjawisk i dobór tych metod winien być taki, aby mapa jak najlepiej obrazowała przedstawiane zjawisko. Ze względu na charakter cech metody te można podzielić na dwie grupy: metody jakościowe - dotyczą cech niemierzalnych; zalicza się tu metodę zasięgów, powierzchniową i sygnaturową, metody ilościowe - dotyczą cech, które można scharakteryzować przy pomocy danych liczbowych; zalicza się do nich metodę izoliniową, kropkową, kartogramu i kartodiagramu. Metoda zasięgów polega na oznaczaniu na mapie obszarów występowania określonego zjawiska. Oznaczenia tego można dokonać w różny sposób, np. poprzez: ograniczenie powierzchni tzw. liniami zasięgu, (czyli najdalszymi granicami, do których dociera występowanie danego zjawiska), oznaczenie powierzchni barwą lub szrafem, umieszczenie na danym obszarze powtarzających się znaków lub napisu określającego zjawisko (często bez rysowania linii zasięgu) itp. Metoda ta stosowana jest na mapach geologicznych, tektonicznych, geomorfologicznych, glebowych, zasięgu występowania roślin, zwierząt, ras, ludów, języków, religii, typów gospodarki rolnej, itp. Metoda powierzchniowa (chorochromatyczna) polega na przedstawieniu cech jednostek powierzchniowych, zarówno rozproszonych jak i zwartych, które przedstawione są w formie znaków powierzchniowych zróżnicowanych barwą lub deseniem. Metoda sygnaturowa polega na przedstawianiu zjawisk i obiektów (których nie da się przedstawić w skali mapy) za pomocą sygnatur, czyli znaków umownych, służących do lokalizacji na mapie obiektów małych lub zjawisk występujących na małych, rozproszonych obszarach. Ze względu na kształt sygnatury można je podzielić na: punktowe i liniowe. Metoda izoliniowa polega na przedstawianiu cech ilościowych zjawisk występujących w sposób ciągły za pomocą izolinii, czyli linii łączących punkty o tej samej wartości liczbowej natężenia danego zjawiska. Izolinie wyznacza się poprzez interpolację w oparciu o wartości przedstawianej cechy w punktach pomiarowych. Interpolację przeprowadza się przy założeniu, że wartości cechy zmieniają się proporcjonalnie do odległości. Na tej podstawie na liniach prostych łączących punkty pomiarowe wyznacza się wartości wykreślanej izolinii, a następnie tak otrzymane punkty łączy się linią ciągłą. Różnica wartości pomiędzy kolejnymi izoliniami powinna być stała. Główny Urząd Statystyczny 7
Metoda kropkowa polega na przedstawieniu bezwzględnych rozmiarów zjawiska w określonej jednostce przestrzennej za pomocą kropek, przy czym każda kropka ma określoną wagę, czyli odpowiada określonej liczbie elementów zbiorowości. Stan rzeczywistości oddaje zbiór kropek na danym obszarze. Metoda kartogramu polega na przedstawieniu przedziałów wartości wskaźnika, odnoszących się do jednostek przestrzennych np. administracyjnych, statystycznych. Przyporządkowane do jednostek przedziały są symbolizowane na mapie z zastosowaniem wydzieleń skali barwnej lub szrafu. Metodę stosuje się do prezentowania danych względnych. Metoda kartodiagramu polega na przedstawianiu danych bezwzględnych, charakteryzujących zjawiska, za pomocą diagramów umieszczonych w określonych jednostkach przestrzennych. Diagramy są, jedno-, dwu- lub trójwymiarowymi figurami geometrycznymi (np. kołami, prostokątami, kulami, prostopadłościanami) lub symbolami, których wielkość (liczba, wysokość, powierzchnia lub objętość) jest proporcjonalna do wielkości przedstawianego zjawiska. Istotnym zagadnieniem związanym z prezentacją danych statystycznych przy wykorzystaniu narzędzi GIS jest stopień agregacji danych. Przedstawiając dane o wysokim stopniu agregacji, można jedynie odnieść je do jednostek podziału administracyjnego kraju (gmina, powiat, województwo). Wartości jednostkowe umożliwiają wizualizację danych nie tylko w podziale administracyjnym, lecz pozwalają zejść poniżej obwodu spisowego i rejonu statystycznego, jak również umożliwiają analizę w oparciu o dowolną siatkę jednostek przestrzennych np. grid. 4. Uprzestrzennienie adresów przedsiębiorstw a. Cel akcji W celu umożliwienia wizualizacji migracji ludności między miastami w ramach akcji zaplanowano i przeprowadzono szereg działań mających na celu utworzenie bazy punktów adresowych reprezentujących położenie przedsiębiorstw. Na tak przygotowanej bazie, oraz w połączeniu z posiadaną już przez statystykę przestrzenną bazą punktów adresowych możliwe było przeprowadzenie wizualizacji migracji ludności między miastami związanej z dojazdem do pracy opisanej w rozdziale 6. Ponadto działanie to pozwoli w przyszłości na prezentację na mapach wyników większej liczby badań statystycznych obrazujących między innymi zjawiska dotyczące kierunków rozwoju gospodarki, czy dojazdów do pracy. Główny Urząd Statystyczny 8
b. Dane źródłowe W ramach akcji przeprowadzona została analiza źródeł danych zawierających informacje o adresie miejsca pracy. Dane adresowe przedsiębiorstw które mogłyby być wykorzystywane w statystyce publicznej zawarte są w następujących rejestrach: Zakładu Ubezpieczeń Społecznych (Centralny Rejestr Ubezpieczonych i Rejestr Płatników Składek), Ministerstwa Finansów( Krajowa Ewidencja Podatników- KEP), POLTAX- bazy urzędów skarbowych, BJS - Baza Jednostek Statystycznych. Po zakończeniu analizy źródeł danych główną przeszkodą przy uprzestrzennianiu adresów przedsiębiorstw był brak porównywalnej struktury zapisu adresu. W wymienionych rejestrach na cechy adresowe miejsca pracy składają się bowiem następujące elementy: - nazwa gminy, - kod gminy wg TERYT, - nazwa miejscowości, - nazwa ulicy - nr budynku; Aby adres mógł być wykorzystany do określenia współrzędnych (x, y) miejsca pracy, powinien zawierać dodatkowo informacje takie jak: - kod miejscowości - kod ulicy. Stąd pojawiła się konieczność uzupełnienia kodów miejscowości i ulic w danych pozyskanych z wyżej wymienionych rejestrów w oparciu o prowadzony w Głównym Urzędzie Statystycznym rejestr TERYT. Ponadto dużego nakładu pracy wymagało również porównanie spójności między zapisem słownym nazwy gminy a wprowadzonym przez gestorów kodem gminy oraz korekta błędnych zapisów. Istotnym problemem zaobserwowanym w trakcie przeprowadzania analizy był fakt, iż w dużym stopniu rejestry zawierają informacje o adresie siedziby firmy a nie o miejscach prowadzenia działalności. Stąd konieczność łączenia informacji pochodzących z różnych źródeł administracyjnych. Informacja jedynie o siedzibie firmy jest niewystarczająca szczególnie w odniesieniu do firm o dużej liczbie zatrudnionych, ponieważ powoduje koncentrację miejsc pracy Główny Urząd Statystyczny 9
(szczególnie w dużych miastach). Aby zminimalizować negatywny skutek takiej sytuacji należy prowadzić intensywne prace zmierzające do określenia wszystkich możliwych źródeł danych wskazujących miejsca prowadzenia działalności dla tych firm. c. Zakres prac W ramach akcji przeprowadzone zostały dwa główne działania polegające na: 1. pozyskaniu danych opisowych oraz przestrzennych umożliwiających stworzenie przestrzennej bazy położenia przedsiębiorstw; 2. dodaniu współrzędnych dla punktów adresowych przedsiębiorstw; Osobom, dla których udało się zidentyfikować adres miejsca pracy co najmniej do poziomu miejscowości (tj. populacji ok. 10 367 tys. stanowiącej 100% populacji, dla której możliwe jest parowanie) dopisane zostały współrzędne miejsca pracy. Do przypisania współrzędnych do miejsc pracy wykorzystano następujące zbiory zawierające współrzędne: - rejestry prowadzone przez statystykę (NOBC, BJS) - oraz udostępnione przez służbę geodezyjną i kartograficzną BDOT. Dla tak przygotowanego zbioru danych przeprowadzono następujące czynności w celu dodania współrzędnych x, y: 1. Wykonano proces łączenia adresu po kodzie województwa, powiatu, gminy, miejscowości, ulicy i numerze porządkowym. Proces ten umożliwił dopasowanie współrzędnych adresów miejsc pracy dla około 61,3% populacji. Niestety proces ten nie pozwolił na uzyskanie pełnego uprzestrzennienia danych adresowych przedsiębiorstw. W związku z tym dla rekordów do których nie udało się dopisać współrzędnych zastosowano kolejno następujące uproszczenia: - Przy parowaniu miast z dzielnicami i delegaturami proces parowania przeprowadzony został zarówno po identyfikatorze miejscowości głównej (np. Warszawy) jak również identyfikatorach dzielnic i delegatur (np. Wawer, Wilanów). Proces ten dopasował współrzędne adresów miejsc pracy dla około 0,2% populacji. - W zbiorze przygotowanym na podstawie danych z rejestrów znaleziono wiele przypadków, w których powodem nieprzypisania współrzędnych był problem białych znaków (tj. spacje, odstępy) w polu numeru porządkowego. W parowanych zbiorach występowały odpowiadające Główny Urząd Statystyczny 10
sobie rekordy, przy czym różniły się one zapisem w polu numer porządkowy (np. 4C a nie 4 C ). Wobec powyższego zignorowano białe znaki w tym polu. Proces ten dopasował współrzędne adresów miejsc pracy dla około 0,5% populacji. 2. Dla przypadków, gdy wypełnione było pole kodu miejscowości i ulicy natomiast brakowało numeru porządkowego lub zaczynał się on od litery lub znaku specjalnego np.? / przyjęto współrzędne dowolnego punktu z tym samym kodem miejscowości i ulicy. Proces ten dopasował współrzędne adresów miejsc pracy dla około 0,6% populacji. 3. Dla przypadków, gdy znany był kod miejscowości, ale brakowało kodu ulicy oraz numeru porządkowego lub zaczynał się on od litery lub znaku specjalnego? /, Przyjęto współrzędne centroidy miejscowości. Proces ten dopasował współrzędne adresów miejsc pracy dla około 1,2% populacji. 4. W wykazie znaleziono wiele przypadków, w których powodem nienadania współrzędnych był problem oznaczeń literowych w polu numeru porządkowego. W parowanych zbiorach występowały odpowiadające sobie rekordy, przy czym różniły się one zapisem w polu numer porządkowy: w jednym 3 w drugim 3A W tym kroku uelastyczniono proces parowania i wzajemnie dopisywano współrzędne niezależnie, w którym zbiorze oznaczenie literowe występowały jeżeli występowało wiele punktów spełniających kryteria wybierany był dowolny punkt. Proces ten dopasował współrzędne adresów miejsc pracy dla około 5,9% populacji. 5. W przypadkach braku odnalezienia odpowiadających sobie punktów adresowych wybrano punkt o najmniejszej różnicy w numerze porządkowym na + lub - (jeżeli w numerze wystąpi litera to niniejszą analizę wykonano bez uwzględniania liter, zarówno w zbiorze porównywanym jak i tym, do którego porównywano). Z numerami porządkowymi ze znakami / - \, dla których nie udało się dopisać współrzędnych proces parowania przeprowadzono dla numeru przed lub po tym znaku. Proces ten dopasował współrzędne adresów miejsc pracy dla około 18,6% populacji. 6. Dla przypadków, gdy znany był kod miejscowości natomiast brakowało kodu ulicy, natomiast występowała nazwa ulicy i numer porządkowy przyjęto współrzędne centroidy miejscowości. Proces ten dopasował współrzędne adresów miejsc pracy dla około 3,6% populacji. 7. Dla pozostałych przypadków, gdzie nie udało się uzyskać oczekiwanego rezultatu dopisano współrzędną centroidy miejscowości. Proces ten dopasował współrzędne adresów miejsc pracy dla około 8,1% populacji. Główny Urząd Statystyczny 11
Po wykonaniu powyższych uproszczeń uzyskano przypisanie współrzędnych miejsca pracy dla 100% populacji dla których adres ten udało się zidentyfikować. 5. Przestrzenna wizualizacja danych demograficznych a. Wprowadzenie Na potrzeby przeprowadzenia Powszechnego Spisu Rolnego 2010 i Narodowego Spisu Powszechnego Ludności i Mieszkań 2011 w statystyce publicznej zaprojektowano i utworzono dla całego obszaru Polski przestrzenne bazy adresowe zawierające: statystyczne punkty adresowe (lokalizacje budynków, w których znajduje się co najmniej jedno mieszkanie) oraz granice rejonów statystycznych i obwodów spisowych. Statystyczne punkty adresowe zostały określone przez atrybuty opisowe (województwo, powiat, gmina, miejscowość, ulica, numer adresowy) i graficzne (położenie określone przez współrzędne punktu adresowego). Z kolei obwody spisowe i rejony statystyczne określa przebieg granic oraz ich identyfikatory. Źródłem obiektów i atrybutów dla przestrzennych baz adresowych jest rejestr TERYT, zawierający informacje opisowe oraz identyfikatory budynków i jednostek podziału statystycznego, Aktualizacja przestrzennych baz adresowych odbywa się kwartalnie. Podstawą do aktualizacji są dane opisowe pobierane z rejestru TERYT w formie różnicowych plików XML. Pliki te zawierają informację o zmianach w istniejących obiektach (zmiany w atrybutach lub usunięcie obiektu) oraz o nowopowstałych obiektach. Zmiany przebiegu granic rejonów statystycznych i obwodów spisowych są wykonywane raz w roku. Zgodnie z Rozporządzeniem Rady Ministrów z dnia 15 grudnia 1998 r. w sprawie szczegółowych zasad prowadzenia, stosowania i udostępniania krajowego rejestru urzędowego podziału terytorialnego kraju oraz związanych z tym obowiązków organów administracji rządowej i jednostek samorządu terytorialnego granice podziału statystycznego dostosowywane są do przebiegu granic obrębów ewidencyjnych. Przestrzenne bazy adresowe zawierają również klasę obiektów osi ulic. Większość ulic znajdujących się w katalogu ULIC rejestru TERYT posiada swoją reprezentację przestrzenną. Jest to pomocnicza klasa obiektów ułatwiająca operatorom aktualizację baz. Utrzymywanie i aktualizacja w statystyce publicznej przestrzennych baz adresowych, a zwłaszcza statystycznych punktów adresowych, pozwala włączać informację przestrzenną do operatów do badań statystycznych, dzięki czemu uzyskuje się wynikowe dane statystyczne Główny Urząd Statystyczny 12
z informacją o ich lokalizacji. Daje to ogromne możliwości w zakresie przestrzennej analizy danych oraz prezentacji wyników badań na mapach. W celu prezentacji wyników Powszechnego Spisu Rolnego 2010 oraz Narodowego Spisu Powszechnego Ludności i Mieszkań 2011 w Głównym Urzędzie Statystycznym w 2013 roku uruchomiona została platforma do przestrzennej wizualizacji danych statystycznych Portal Geostatystyczny. Dane pozyskane w trakcie spisów powszechnych przechowywane są w Analitycznej Bazie Mikrodanych (ABM), w której na cele wizualizacji przestrzennej przygotowywane zostały predefiniowane agregaty z zachowaniem zasad tajemnicy statystycznej. Na podstawie tak przygotowanych agregatów Portal obecnie udostępnia dane w postaci predefiniowanych kartogramów tematycznych. Oprócz gotowych analiz przestrzennych w niedalekiej przyszłości planowana jest rozbudowa Portalu Geostatystycznego o prezentację wyników pozostałych badań statystycznych, a także zharmonizowanie prezentacji wyników badań pomiędzy portalem a dotychczasowymi bazami, np. Bankiem Danych Lokalnych. b. Cel akcji Użytkownicy korzystający z danych statystycznych zgłaszają zapotrzebowanie na dane odniesione przestrzennie, nie tylko w podziale administracyjnym, ale również innych podziałach przestrzeni. Coraz częściej formułowane są potrzeby dostarczenia danych na poziomach agregacji niższych niż gminy. Postulaty takie są zgłaszane przez przedstawicieli jednostek samorządu terytorialnego, naukowców, przedsiębiorców oraz indywidualnych odbiorców. W odniesieniu do danych ze spisów powszechnych, z uwagi na fakt, iż zebrane informacje mają odniesienie przestrzenne do punktu adresowego, istnieje możliwość dowolnej ich agregacji. W ramach niniejszego projektu zaplanowano wypracowanie metodologii tworzenia procesu prezentacji przestrzennych oraz ocenę przydatności owych prezentacji dla danych statystycznych pozyskiwanych na podstawie innych badań niż spisy powszechne. Ponadto w ramach akcji przeprowadzono analizę możliwości prezentacji danych statystycznych w podziale innym niż administracyjny. W wyniku przeprowadzonych prac wypracowano metodologię tworzenia agregatów w podziale statystycznym (rejony statystyczne i obwody spisowe), ewidencyjnym (obręby ewidencyjne) oraz w podziale na siatkę kwadratów (kilometrowa siatka kwadratów). c. Dane źródłowe (i). Dane atrybutowe Główny Urząd Statystyczny 13
W ramach przeprowadzonych działań wykorzystane zostały dane o rozmieszczeniu ludności zebrane podczas Narodowego Spisu Ludności i Mieszkań 2011. Dzięki wykorzystaniu przestrzennych baz adresowych możliwe było w spisie zbieranie danych o rozmieszczeniu ludności w odniesieniu do precyzyjnie określonych współrzędnych x, y miejsca zamieszkania respondenta. Wszystkie działania opisane w tym rozdziale zostały wykonane z wykorzystaniem zbioru danych, w którym każdej osobie w populacji kraju przyporządkowano parę współrzędnych. Dane źródłowe o rozmieszczeniu ludności przygotowano w formie tabel.xls. Tabele zawierały całą populację osób z przypisanymi współrzędnymi w Państwowym Układzie Współrzędnych Geodezyjnych 1992 (ETRS89 / Poland CS92, kod EPSG: 2180). Jest to układ homogeniczny dla całego obszaru Polski. (ii). Dane przestrzenne W ramach prac objętych akcją wykorzystano warstwy wektorowe (w postaci plików.shp oraz klas obiektów geobaz ArcGIS): rejony statystyczne (utrzymywane w statystyce publicznej), obwody spisowe (utrzymywane w statystyce publicznej), obręby ewidencyjne (pozyskane od służb geodezyjnych), kilometrowa siatka kwadratów Grid_ETRS89_LAEA_PL_1K (pobrana ze strony EFGS). d. Środowisko programistyczne Prace związane z agregacją danych o rozmieszczeniu ludności do różnych podziałów przestrzeni przeprowadzono przy pomocy: Microsoft Excel, ArcGIS 10 w wersji ArcInfo. Dane atrybutowe wygenerowano w systemie SAS Enterprise Guide w wersji 4.3. i zapisano w postaci tabel.xls. e. Zakres prac W ramach akcji przeprowadzona została analiza sposobu agregacji danych demograficznych do różnych podziałów przestrzeni oraz analiza sposobu przestrzennej wizualizacji uzyskanych w ten sposób danych. W wyniku przeprowadzonych prac wypracowana została metodologia tworzenia agregatów w podziale statystycznym (rejony statystyczne i obwody spisowe), ewidencyjnym (obręby ewidencyjne) oraz w podziale na siatkę kwadratów (kilometrowa siatka kwadratów), Główny Urząd Statystyczny 14
natomiast metodologia ta może zostać swobodnie zmodyfikowana w celu przeprowadzenia agregacji do dowolnego podziału przestrzeni. Na podstawie tak przygotowanych danych opracowane zostały wizualizacje zjawisk demograficznych dla całego kraju w ww. podziałach. (i.) Kilometrowa siatka kwadratów Prace przeprowadzone zostały z wykorzystaniem kilometrowej siatki kwadratów przygotowanej przez Europejskie Forum ds. Geostatystyki EFGS i opublikowanej na stronie http://www.efgs.info/data/eurogrid/grid_etrs89_laea_pl_1k.zip/view. Siatka ta została przygotowana w odwzorowaniu azymutalnym równopowierzchniowym Lamberta (ETRS 1989 LAEA) dzięki czemu wszystkie przecięcia siatki posiadają pełne współrzędne (np. 4750000, 3503000). Daje to możliwość agregacji punktów odpowiadających rozmieszczeniu populacji do odpowiedniego oczka siatki bez potrzeby wykorzystywania zaawansowanych narzędzi do analizy przestrzennej a jedynie przy wykorzystaniu podstawowych funkcji dostępnych w każdym oprogramowaniu bazodanowym. Aby przeprowadzić agregację do oczek siatki wykonano następujące czynności: 1. Konwersja danych o populacji do układu współrzędnych zgodnego z układem siatki kwadratów (ETRS 1989 LAEA); 2. Wszystkie oczka siatki grid mają przypisany identyfikatory GRD_FIXID, GRD_FLOAID oraz GRD_NEWID. Identyfikator GRD_FLOAID składa się z ciągu znaków AAAA.BBBB.C oznaczających odpowiednio: A- współrzędna x w kilometrach; B- współrzędna y w kilometrach; C- kod kraju; Główny Urząd Statystyczny 15
Rysunek 1 Aby możliwe było przypisanie do wszystkich rekordów kolumny z identyfikatorem GRD_FLOAID należało uruchomić funkcję która wybierze pierwsze cztery cyfry z kolumn x oraz y a następnie zestawi je w ciąg znaków zgodnych z GRD_FLOAID. Rysunek 2 W przypadku wykonywania czynności np. za pomocą oprogramowania ArcGIS wykorzystano funkcje Visual Basic for Applications (VBA). Dla poszczególnych pól skonstruowano następujące wyrażenia: GRD_FLOAID (string, 14) Mid ( [x_etrs],1,4 ) & "." & Mid ( [y_etrs],1,4 ) & ".4" GRID_FIXID (string, 22) "4.0." & Mid ( [x_etrs],1,4 ) & "0000." & Mid ( [y_etrs],1,4 ) & "0000" Główny Urząd Statystyczny 16
3. Następnie wykonano deduplikację wszystkich rekordów pod kątem powtarzających się ID przy jednoczesnym zliczeniu deduplikowanych rekordów. W przypadku ArcGIS może to być funkcja dissolve. 4. Następnie, w celu uzupełnienia kolumny GRD_NEWID, wykonano parowanie otrzymanej tabeli z pierwotną tabelą grid po jednym z identyfikatorów. Umożliwiło to wypełnienie kolumny GRD_NEWID odpowiednimi wartościami. (ii.) Obręby ewidencyjne Agregacja danych demograficznych do nieregularnego podziału przestrzeni, jakim są obręby ewidencyjne, wymagała wykorzystania oprogramowania GIS. W tym przypadku wykorzystano ArcGIS w wersji ArcInfo. Przetwarzanie danych odbywało się w geobazie plikowej ArcGIS. Początkowo z przygotowanych tabel.xls utworzono w geobazie jedną punktową klasę obiektów OSOBY z ok. 38,5 mln obiektów i podjęto próbę agregacji. W związku z dużą liczbą obiektów operacja nie powiodła się z powodu zbyt małej pamięci operacyjnej maszyny (próbę podjęto na stacji roboczej oraz na serwerze). Ponieważ dane źródłowe przygotowane zostały w formie 39 tabel.xls, które powstały po podzieleniu całej populacji na jednomilionowe części, zdecydowano się na załadowanie ich do geobazy jako 39 klas obiektów i przeprowadzenie agregacji na każdej klasie oddzielnie. Aby uniknąć powtarzalności manualnego przetwarzania danych, wykorzystano język programowania Python, aby zautomatyzować przetwarzanie kolejnych klas obiektów i utworzyć jeden zbiór z ostatecznym wynikiem. W geobazie utworzono trzy zestawy danych: INPUT do tego zestawu załadowano dane wejściowe: o OBR poligonowa klasa obiektów z obrębami ewidencyjnymi dla całej Polski, o osoby_xx 39 punktowych klas obiektów ze współrzędnymi osób, PROCESS do przechowywania roboczych klas obiektów tworzonych podczas pracy skryptu, OUTPUT do zapisania wyjściowej klasy obiektów. W przygotowanym skrypcie Python wykorzystano następujące moduły: os moduł do obsługi plików, arcpy moduł zawierający narzędzia ArcGIS. Skrypt z opisem w formie komentarzy: Główny Urząd Statystyczny 17
#-*- coding:utf-8 -*-# #import modułów import arcpy import os UMOWA O DOTACJĘ NR 50502.2012.001-2012.519 #zdefiniowanie głównej przestrzeni roboczej mainworkspace = r"c:\grant\osoby_obr_test5.gdb" arcpy.env.workspace = mainworkspace #zdefiniowanie warstwy, z którą łączymy dane klasa obiektów z obrębami ewidencyjnymi w zestawie danych INPUT joinlayer = "INPUT/OBR" #zdefiniowanie nazwy wynikowej klasy obiektów outputfc = "OUTPUT/OSOBY_OBR" #zdefiniowanie nazwy pola, po którym odbywać się będzie łączenie danych podczas przygotowywania wynikowej klasy obiektów (jest to numer obrębu ewidencyjnego) joinfield = "NR" #utworzenie listy wejściowych klas obiektów (wszystkich klas obiektów w zestawie danych INPUT, których nazwa zaczyna się od osoby ) arcpy.env.workspace = mainworkspace + "\INPUT" listfc = arcpy.listfeatureclasses("osoby*") arcpy.env.workspace = mainworkspace #utworzenie analizy liczebności osób w obrębach dla pierwszej wejściowej klasy obiektów z utworzonej w poprzednim kroku listy #zdefiniowanie nazwy wejściowej klasy obiektów z osobami - pierwsza klasa obiektów z listy (indeks 0 ) osobynazwa = "INPUT/" + listfc[0] #zdefiniowanie nazwy pierwszej wyjściowej klasy obiektów połączonych wyniknazwa = "PROCESS/OBR_" + listfc[0] #zdefiniowanie mapowania pól fieldmappings = arcpy.fieldmappings() #dodanie do mapowania całej tabeli atrybutów klasy obiektów, z którą łączymy dane fieldmappings.addtable(joinlayer) #złączenie przestrzenne obrębów z pierwszą klasą obiektów z osobami (wykorzystanie narzędzia Spatial Join), wynikiem jest klasa obiektów z geometrią i atrybutami obrębów ewidencyjnych oraz dodatkowym atrybutem joincount zawierającym liczbę osób w danym obrębie arcpy.spatialjoin_analysis(joinlayer, osobynazwa, outputfc, "JOIN_ONE_TO_ONE", "", fieldmappings, "INTERSECT") #skopiowanie klasy wyjściowej do warstw przejściowych (dla porządku) arcpy.copyfeatures_management(outputfc, wyniknazwa) #dołączanie do warstwy joinlayer kolejno wszystkich klas obiektów wejściowych wraz z bieżącym aktualizowaniem liczby osób w wyjściowej klasie obiektów (utworzenie pętli, która począwszy od drugiej indeks 1 pozycji na liście wejściowych klas obiektów, do końca listy będzie wykonywała operacje złączenia przestrzennego obrębów z osobami for i in listfc[1:]: #zdefiniowanie nazw wejściowej klasy obiektów i wynikowej (roboczej) klasy obiektów osobynazwa = "INPUT/" + i wyniknazwa = "PROCESS/OBR_" + i Główny Urząd Statystyczny 18
#złączenie przestrzenne obrębów z bieżącą klasą obiektów z osobami, wynikiem jest robocza klasa obiektów z geometrią i atrybutami obrębów ewidencyjnych oraz dodatkowym atrybutem joincount zawierającym liczbę osób w danym obrębie arcpy.spatialjoin_analysis(joinlayer, osobynazwa, wyniknazwa, "JOIN_ONE_TO_ONE", "", fieldmappings, "INTERSECT") #utworzenie słownika, w którym umieszczone zostaną: numer obrębu i liczba osób w obrębie dla bieżącej analizy #utworzenie pustego słownika licznik = {} #utworzenie kursora szukającego w roboczej klasie obiektów curw = arcpy.searchcursor(wyniknazwa) #wykorzystanie kursora szukającego do wypełnienia słownika wartościami do każdego numeru obrębu przyporządkowana w słowniku zostaje liczba ludności for roww in curw: licznik[roww.getvalue(joinfield)] = roww.getvalue("join_count") #usunięcie kursorów po wykorzystaniu del roww, curw #utworzenie kursora aktualizującego wyjściową klasę obiektów curout = arcpy.updatecursor(outputfc) #uruchomienie kursora aktualizującego wyjściową klasę obiektów rowout = curout.next() #aktualizacja wszystkich wierszy wyjściowej klasy obiektów (dodanie liczby osób z roboczej klasy obiektów do obecnej liczby) pętla powtarzana do momentu while rowout: #pobranie numeru obrębu z wyjściowej klasy obiektów id = rowout.getvalue(joinfield) #sprawdzanie czy pobrany numer ma wartość w słowniku if id in licznik: #aktualizacja pola z liczbą osób (dodanie liczby osób z bieżącej roboczej klasy obiektów rowout.join_count = rowout.join_count + licznik[id] #zapisanie zmian w wierszu curout.updaterow(rowout) #przejście do kolejnego wiersza rowout = curout.next() #usunięcie kursorów po wykorzystaniu del rowout, curout Powyższy skrypt w sposób automatyczny wykonał 39 złączeń przestrzennych klasy obiektów obręby ewidencyjne z klasami obiektów osób. Przy pierwszym złączeniu utworzono wyjściową klasę obiektów, w której znalazło się pole z liczbą osób. Przy każdym kolejnym złączeniu do istniejącej wartości pola liczby osób dla każdego obrębu dodawana była liczba osób z bieżącego złączenia. Główny Urząd Statystyczny 19
Po przygotowaniu i przetestowaniu skryptu wykonał on całą operację agregacji danych źródłowych do obrębów ewidencyjnych automatycznie bez potrzeby ingerencji operatora. (iii.) Rejony statystyczne i obwody spisowe Agregację danych demograficznych do rejonów statystycznych i obwodów spisowych zrealizowano podobnie jak do obrębów ewidencyjnych. W związku z ograniczeniami pamięci operacyjnej, jako dane źródłowe wykorzystano 39 punktowych klas obiektów ze współrzędnymi osób, które przy pomocy skryptu Python były kolejno przetwarzane. Wykorzystano jednak inną niż w przypadku obrębów ewidencyjnych metodę cyklicznego przetwarzania danych oraz agregację do rejonów statystycznych i obwodów spisowych zaprogramowano w ramach jednego skryptu. Skrypt z opisem w formie komentarzy: #-*- coding:utf-8 -*-# import arcpy import os #zdefiniowanie głównej przestrzeni roboczej mainworkspace = r"c:\grant\osoby.gdb" arcpy.env.workspace = mainworkspace #zdefiniowanie listy klas obiektów, z którymi następować będzie łączenie zbiorów ze współrzędnymi osób joinfeatures = ["REJ","OBW"] #zdefiniowanie pola, w którym przechowywany jest unikalny identyfikator obiektu w klasach obiektów, z którymi następować będzie łączenie dissolvefield = "NR" #utworzenie listy wejściowych klas obiektów (wszystkich klas obiektów w zestawie danych INPUT, których nazwa zaczyna się od osoby ) arcpy.env.workspace = mainworkspace + "\INPUT" listfc = arcpy.listfeatureclasses("osoby*") arcpy.env.workspace = mainworkspace #utworzenie pętli, która wykonana zostanie dla każdej klasy obiektów z wyżej zdefiniowanej listy for joinfeature in joinfeatures: #zdefiniowanie warstwy, z którą łączymy dane joinlayer = "INPUT/" + joinfeature #zdefiniowanie nazwy wynikowej klasy obiektów outputfc = "OUTPUT/OSOBY_" + joinfeature #utworzenie pustej listy nazw wynikowych klas obiektów listawynikow = [] #dołączanie do warstwy joinlayer kolejno wszystkich klas obiektów wejściowych i zapisywanie wyników w postaci roboczych klas obiektów for i in listfc: #zdefiniowanie nazw wejściowej klasy obiektów i wynikowej (roboczej) klasy obiektów Główny Urząd Statystyczny 20
osobynazwa = "INPUT/" + i wyniknazwa = "PROCESS/" + joinfeature + "_" + i #dołączenie utworzonej wynikowej (roboczej) klasu obiektów do listy z nazwami wynikowych klas obiektów (do późniejszego ich połączenia) listawynikow.append(wyniknazwa) #zdefiniowanie mapowania pól fieldmappings = arcpy.fieldmappings() #dodanie do mapowania tabeli atrybutów klasy obiektów, z którą następuje łączenie zbioru ze współrzędnymi osób fieldmappings.addtable(joinlayer) #złączenie przestrzenne bieżącej klasy obiektów z listy joinfeatures z bieżącą klasą obiektów z osobami, wynikiem jest robocza klasa obiektów z geometrią i atrybutami bieżącej klasy obiektów z listy joinfeatures oraz dodatkowym atrybutem joincount zawierającym liczbę osób w danym obrębie arcpy.spatialjoin_analysis(joinlayer, osobynazwa, wyniknazwa, "JOIN_ONE_TO_ONE", "", fieldmappings, "INTERSECT") #połączenie wszystkich wynikowych (roboczych) klas obiektów w jedną klasę obiektów mergefc = "PROCESS/" + joinfeature + "_OSOBY_Merge" arcpy.merge_management(listawynikow, mergefc) #generalizacja wyniku sumowanie wartości z pola Join_Count przechowującego liczbę ludności dla każdego z obiektów w klasie wynikowej arcpy.dissolve_management(mergefc, outputfc, dissolvefield, [["Join_Count","SUM"]]) Powyższy skrypt w sposób automatyczny wykonał dla 2 klas obiektów (rejony statystyczne i obwody spisowe) po 39 złączeń przestrzennych z klasami obiektów osób. Złączenia zapisane zostały jako 39 roboczych klas obiektów, które następnie zostały połączone w jedną klasę (ze zmultiplikowanymi geometriami dla każdego obiektu było 39 obiektów z taką samą geometrią, lecz z różnymi wartościami liczby ludności). Tę klasę obiektów zagregowano przy pomocy narzędzia Dissolve dostępnego w ArcGIS. Narzędzie zdeduplikowało geometrie obiektów oraz zsumowało wartości liczby ludności z każdej reprezentacji geometrii danego obiektu, dając w wyniku łączną liczbę ludności w obiekcie. Po przygotowaniu i przetestowaniu skryptu wykonał on całą operację agregacji danych źródłowych do rejonów statystycznych i obwodów spisowych automatycznie bez potrzeby ingerencji operatora. f. Prezentacja wyników Na podstawie opracowanych w powyższych działaniach agregatów wykonano analizę sposobu ich prezentacji. Po przeprowadzeniu szeregu prób stwierdzono, iż w przypadku danych o rozmieszczeniu ludności zróżnicowanie graficzne najlepiej oddają prezentacje na kartogramach w 5 przedziałach: Główny Urząd Statystyczny 21
- wykorzystujące metodę tworzenia przedziałów opartą na wyznaczeniu środkowego przedziału, który jest skupiony wokół średniej wartości zjawiska, w tym przypadku możliwe jest stosowanie gradientów dwóch barw; dla tej metody prezentacji ustalono te same przedziały dla wszystkich sposobów podziału przestrzeni, - przyjmujące równoliczne przedziały (kwantyle), w tym przypadku możliwe jest stosowanie palety monochromatycznej. Przygotowano prezentacje dla siatki kilometrowej, obrębów ewidencyjnych, rejonów statystycznych i obwodów spisowych dla obszaru całej Polski oraz dla okolic Warszawy z wykorzystaniem ww. metod tworzenia przedziałów i doboru barw. Dla siatki kilometrowej zastosowano dwa warianty dwubarwnej gradientowej skali. Dzięki wykorzystaniu dwubarwnej gradientowej skali, dla której zdefiniowano taką samą dla wszystkich prezentacji klasyfikację przedziałów, otrzymano mapy gęstości zaludnienia o różnym stopniu szczegółowości. Różnice wizualne między tymi mapami są niewielkie i uzależnione głównie od kształtów jednostek podziału przestrzeni. Wyraźne różnice wizualne widoczne są w prezentacjach wykorzystujących przedziały równoliczne. Klasyfikacje dla różnych metod podziału przestrzeni różnią się diametralnie. Dla siatki kilometrowej wyodrębniony został oddzielny przedział dla oczek o liczbie ludności 0. Duże różnice w klasyfikacji występują pomiędzy podziałem ewidencyjnym (obręby ewidencyjne) a podziałem statystycznym (rejony statystyczne i obwody spisowe). Wynika to głównie z tego, iż podziały te tworzone były do innych celów i wg innych reguł. Jednostki podziału statystycznego podlegały regułom związanym z liczbą ludności obwody spisowe, w których liczba ludności była większa niż limit były dzielone na dwa lub więcej obwodów. Poniżej przedstawiono prezentację okolic Warszawy w przedziałach równolicznych dla obrębów ewidencyjnych i obwodów spisowych. Główny Urząd Statystyczny 22
Zestawienie wszystkich wyżej opisanych prezentacji stanowi załącznik 1. 6. Prezentacja kierunków przepływu ludności związanych z zatrudnieniem a. Cel akcji Celem zadania realizowanego przez Ośrodek Statystyki Miast Urzędu Statystycznego w Poznaniu w ramach projektu Łączenie danych statystycznych z informacją geoprzestrzenną w państwach członkowskich było opracowanie metod prezentowania danych statystycznych dotyczących dojazdów do pracy, w tym prezentacji danych opisujących dojazdy do pracy do miast wojewódzkich oraz kierunki przepływu w ludności w dużych miastach (na przykładzie Poznania). Przy pomocy wypracowanych metod prezentacji przedstawiono wyniki badania dojazdy do pracy realizowane w ramach Narodowego Spisu Powszechnego 2011. b. Dane źródłowe (i.) Dane atrybutowe Dane atrybutowe niezbędne do przeprowadzenia analiz dotyczących zagadnień związanych z dojazdami do pracy pozyskano z Analitycznej Bazy Mikrodanych (ABM) NSP2011, która zawierała odpersonalizowane informacje dla każdej osoby zamieszkującej w Polsce. Analizy związane z dojazdami do pracy zostały przeprowadzone na zbiorowości zatrudnionych na podstawie umowy o pracę (pracowników najemnych) oraz zbiorowości dojeżdżających. Główny Urząd Statystyczny 23
Mając na uwadze realizację celów określonych w projekcie został przygotowany zbiór danych atrybutowych, który zawierał wybrane dane pochodzące z Analitycznej Bazy Mikrodanych (ABM) NSP2011. Utworzony zbiór posiadał następującą strukturę: WIEK PLEC Nazwa kolumny Opis informacji zawartych w kolumnie Wiek płeć (1-mężczyzna, 2-kobieta) WO_GLOWNAP PO_GLOWNAP GM_GLOWNAP MIEJSC_GLOWNAP WYSOK_DOCHODU_PRACY3 DOJ_GLOWANP_REJESTR X_GLOWNAP Y_GLOWNAP GMINA_FAKT MIEJSC_FAKT PKD_GLOWNAP ID_OSOBA X_B Y_B województwo wykonywania pracy dwuznakowy identyfikator TERYT województwa powiat wykonywania pracy czteroznakowy identyfikator TERYT powiatu gmina wykonywania pracy siedmioznakowy identyfikator TERYT gminy miejscowość wykonywania pracy informacja z PIT (9- wynagrodzenia ze stosunku pracy,.-nie dotyczy) fakt dojazdu do pracy (1-dojeżdżający do pracy, 2-nie dojeżdżający do pracy, 9- nieustalony,.-nie dotyczy) współrzędna X miejsca wykonywania pracy współrzędna Y miejsca wykonywania pracy gmina zamieszkania siedmioznakowy identyfikator TERYT gminy miejscowość zamieszkania numer statystyczny miejscowości pkd wykonywanej pracy id osoby współrzędna X budynku zamieszkania współrzędna Y budynku zamieszkania Wygenerowany zbiór danych atrybutowych posiadał 3,1 miliona rekordów. Dane atrybutowe na potrzeby projektu zostały wygenerowane z Analitycznej Bazy Mikrodanych (ABM) NSP2011 w dniu 21 sierpnia 2013 r. a następnie zaktualizowane w dniu 5 stycznia 2014 r. (ii.) Dane przestrzenne W ramach realizowanego projektu dane atrybutowe zostały połączone z danymi przestrzennymi, a następnie zaprezentowano je na mapach numerycznych stanowiących Główny Urząd Statystyczny 24
zasób Państwowego Rejestru Granic. Mapy numeryczne, które wykorzystano w projekcie, zawierały podział administracyjny Polski w układzie: gminy (z wyróżnieniem części miejskiej oraz części wiejskiej w jednostkach o statusie gminy miejsko wiejskiej), dzielnice, delegatury (w przypadku miast posiadających dzielnice lub delegatury), powiaty, województwa. Dane numeryczne pochodzące z Państwowego Rejestru Granic zawierały identyfikatory oraz nazwy jednostek podziału terytorialnego zgodne z systemem TERYT, co umożliwiał połączenie danych przestrzennych z utworzonymi danymi atrybutowymi. Pozyskane mapy aktualne są na dzień 1 stycznia 2011 r. Do prac analitycznych zostaną także wykorzystane mapy numeryczne obwodów spisowych i rejonów statystycznych miasta Poznania. c. Środowisko programistyczne Prace związane z łączeniem danych statystycznych z informacją geoprzestrzenną przeprowadzono przy pomocy programu ArcGIS for Desktop Basic (ArcView) w wersji 10.1. Program ten umożliwiał wizualizację i zarządzanie danymi geograficznymi oraz wykonanie analiz przestrzennych. Dane atrybutowe wygenerowano w systemie SAS Enterprise Guide w wersji 4.3. d. Przygotowanie danych do wizualizacji Jednym z istotnych elementów związanych z wykorzystaniem narzędzi GIS w analizach przestrzennych jest właściwe przygotowanie danych (w tym ich agregacji) w sposób umożliwiający dalsze prowadzanie analiz i wizualizacji. Zbiór danych atrybutowych (Baza Dojazdów) posiadał 3,1 mln rekordów oraz 14 zmiennych (kolumn), w tym kolumnę z siedmiocyfrowym identyfikatorem TERYT, który umożliwiał łączenie z danymi przestrzennymi. Siedmioznakowy kod TERYT pozwalał jednocześnie na agregację danych na trzech poziomach tj.: gmina (NTS5), powiat (NTS4) i województwo (NTS2). Agregacja danych do jednego z ww. poziomów podziału administracyjnego kraju możliwa była zarówno w programie ARCGIS jak i innej dowolnej aplikacji np. Excel, OpenOffice Calc. Zagregowane dane można zaimportować do systemu ARCGIS i tam przedstawić wyniki analizy np. w formie diagramów i kartodiagramów. Główny Urząd Statystyczny 25
Ze zjawiskiem dojazdów do pracy wiąże się pokonywanie odległości z miejsca zamieszkania do miejsca pracy. Dysponując współrzędnymi geograficznymi X (X_B) i Y (Y_B) miejsca zamieszkania oraz współrzędnymi geograficznymi X (X_GLOWNAP) i Y (Y_GLOWNAP) miejsca wykonywania pracy została dodana kolejna zmienna (kolumna) - długość dojazdu tj. odległość pomiędzy miejscem zamieszkania a miejscem wykonywania pracy, która została obliczona przy pomocy wzoru: D=, gdzie: D odległość pomiędzy miejscem zamieszkania a miejscem pracy X_GLOWNAP X miejsca pracy Y_GLOWNAP Y miejsca pracy X_B X miejsca zamieszkania Y_B Y miejsca zamieszkania Pierwszym krokiem jaki wykonano tworząc geograficzną bazę danych przestrzennych było zaimportowanie zbioru danych atrybutowych do programu ArcGIS poprzez eksport do geobazy. Zaimportowana do systemu ArcGIS Baza Dojazdów nie posiadała reprezentacji graficznej. Na tym etapie wszelkie analizy i wizualizacje dokonywane były w oparciu o identyfikator: TERYT (GM_GLOWNAP) poziom gmina (NTS5), PO_GLOWNAP poziom powiat (NTS4), WO_GLOWNAP poziom województwo (NTS2). Przygotowane (zagregowane) dane dotyczące zarówno dojazdów do pracy oraz przyjazdów do pracy jak i wyjazdów do pracy były łączone z danymi przestrzennymi (graficznymi) na poziomie (NTS2), (NTS4), (NTS5). Nie przeprowadzono żadnych agregacji na poziomie regionu oraz podregionu. W celu umożliwienia przeprowadzenia analiz przestrzennych dla dowolnych jednostek (nie tylko w układzie NTS) nadano reprezentację graficzną każdemu rekordowi z Bazy Dojazdów. Na tym etapie wykonano dwie kopie Bazy Dojazdów, które nazwano odpowiednio Baza Przyjazdów i Baza Wyjazdów. Zabieg ten umożliwił nadanie reprezentacji graficznej dla miejsca zatrudnienia osoby dojeżdżającej do pracy (Baza Przyjazdów), co zostało wykonane w oparciu o dane X_GLOWNAP oraz Y_GLOWNAP oraz reprezentacji graficznej dla miejsca zamieszkania osoby dojeżdżającej do pracy (Baza Wjazdów), co zostało wykonane w oparciu o dane X_B oraz Y_B. Reprezentacja graficzna zostało nadana w aplikacji ARCGIS przy użyciu narzędzia Wyświetl dane X i Y. Główny Urząd Statystyczny 26