Autor: Paweł Soczewski Biuro Geodety Województwa Mazowieckiego w Warszawie METADANE Co to są metadane? Metadane najprościej można zdefiniować jako dane o danych. Metadane opisujące zbiory danych przestrzennych powinny gromadzić informację o położeniu i rodzaju obiektów oraz ich atrybutów, pochodzeniu, dokładności, szczegółowości i aktualności zbioru danych, zastosowanych standardach, prawach własności i prawach autorskich, cenach, warunkach i sposobach uzyskania dostępu do danych zbioru oraz ich użycia w określonym celu [Gaździcki]. Po co nam metadane? W ostatnich latach, wraz z rozwojem technologii informatycznych i elektronicznych, nastąpił znaczny wzrost ilości danych przestrzennych oraz ich użytkowników. Jeszcze kilka lat temu przestrzenne dane cyfrowe były gromadzone w specyficznych, zamkniętych systemach i rzadko użytkowane. Obecnie sytuacja zmienia się radykalnie, coraz więcej organizacji (również spoza obszaru nauk geodezyjnych i geograficznych) jest w stanie opracowywać i modyfikować informację przestrzenną, a jeszcze więcej dostrzega potrzebę wykorzystania jej w swojej bieżącej działalności. Tak, więc z roku na rok znacznie wzrasta liczba gromadzonych cyfrowych danych przestrzennych oraz liczba ich użytkowników, a raczej współużytkowników, bo przecież te same zbiory danych mogą być współwykorzystywane przez wiele organizacji. W tej sytuacji coraz większego znaczenia nabiera dobrze opracowana i udostępniona metainformacja. Powinna ona ułatwić przyszłym użytkownikom zrozumienie zakresu informacyjnego poszczególnych zbiorów danych, ich ocenę pod względem indywidualnych zapotrzebowań oraz możliwość wyszukiwania. Aby spełnić te warunki metainformacja powinna zawierać możliwie najpełniejszy opis cech zbioru: założeń, struktury, jakości oraz ograniczeń. Korzyści jakie przynosi stosowanie metadanych:! ułatwienie zarządzania zasobami danych w ramach organizacji odpowiedzialnej za dane,! możliwość uniknięcia budowy zbiorów danych, które zawierają informacje zgromadzone już przez inne organizacje,! łatwe uzyskanie informacji o wszystkich zbiorach danych dostępnych dla interesującego obszaru,! lepsze planowanie działań dotyczących pozyskiwania i aktualizacji danych,! poszerzenie kręgu użytkowników danych geoprzestrzennych. Standardy Metadanych Dla poprawnego i efektywnego zarządzania metadanymi oraz ich powszechnego wykorzystania niezwykle istotnym jest, by były jednoznaczne w swej postaci i zawartości, niezależnie od tego, przez kogo i w jakim systemie zostały utworzone. Nawet metadane najdokładniej oddające charakterystykę opisywanego zbioru nie mogą być podstawą porównania, czy też obiektywnej oceny, dopóki zasady ich budowy nie będą takie same, lub
przynajmniej zbliżone, we wszystkich systemach. Warunek ten może zapewnić zgodność systemu metadanych z ogólnie przyjętym światowym standardem. Tego rodzaju unormowaniem dla metadanych opisujących zbiory danych przestrzennych są dwa dokumenty Międzynarodowej Organizacji Standaryzacyjnej (ISO):! Norma ISO 19115 Geographic information-metadata,! Specyfikacja techniczna ISO/CD TS 19139 Geographic information-metadata-xml schema implementation. Norma ISO 19115 opracowana została przez Komitet Techniczny TC 211 do spraw Informacji geograficznej i opublikowana w maju 2003 roku. Jej treść jest rezultatem szerokiej współpracy międzynarodowej, z udziałem przedstawicieli 33 krajów i 12 organizacji, którą prowadzono z uwzględnieniem bogatych doświadczeń zebranych przy opracowaniu i stosowaniu wcześniejszych norm metadanych: Normy 12657 Europejskiego Komitetu Normalizacyjnego (Comité Européen de Normalisation - CEN) z 1998 roku oraz Normy Federalnego Komitetu Danych Geograficznych (Federal Geographic Data Committee - FGDC) Stanów Zjednoczonych z 1994 roku. Norma definiuje model opisu informacji geograficznej i związanych z nią serwisów. Model ten dostarcza informacji na temat identyfikacji, zakresu, jakości, przestrzennych i czasowych schematów, układów odniesienia oraz dystrybucji cyfrowych danych geograficznych. Zdefiniowany w normie schemat identyfikuje encje (podstawowe pakiety informacyjne) metadanych i ich elementy składowe oraz określa ich organizację poprzez ustanowienie pomiędzy nimi odpowiednich zależności i powiązań. Dla każdej encji i każdego elementu metadanych schemat definiuje nazwę, dziedzinę oraz obowiązek występowania (obligatoryjny, fakultatywny lub warunkowy). W ten sposób abstrakcyjny schemat normy wyznacza zarówno minimalny jak i pełny model aplikacyjny metadanych oraz zapewnia możliwość dostosowania opisu do potrzeb konkretnego zasobu informacji geograficznej. W lipcu 2005 roku norma ISO 19115 została przyjęta w Polsce pod nazwą PN-EN ISO 19115:2005 (U) - Informacja geograficzna. Metadane. Prace nad specyfikacją techniczną ISO/CD TS 19139 zostały rozpoczęte przez Komitet Techniczny TC 211 do spraw Informacji geograficznej w październiku 2002 roku i w chwili obecnej standard jest w trakcie opracowywania. Ponieważ model metadanych zawarty w ISO 19115 ma charakter abstrakcyjny to jego poszczególne implementacje mogą się od siebie różnić w zależności od interpretacji normy przyjętej przez poszczególnych autorów metadanych. Proponowana specyfikacja techniczna ma za zadanie określić jeden właściwy model interpretacyjny UML (Unified Modeling Language) dla abstrakcyjnego modelu metadanych ISO 19115 oraz zdefiniować odpowiadający mu schemat XML Schema (XSD) dla potrzeb gromadzenia i transferu metainformacji. Według najnowszych informacji projekt dokumentu (wersja DIS) ma zostać opublikowany w lutym 2006 roku. Metadane w Mazowieckim Systemie Informacji Przestrzennej Zgodnie z założeniami projektu celowego System baz danych przestrzennych dla województwa mazowieckiego, wykonanego przez Zespół Politechniki Warszawskiej pod kierownictwem prof. Stanisława Białousza, system metainformacji jest jednym z głównych modułów Mazowieckiego Systemu Informacji Przestrzennej (MSIP) tworzonego przez Samorząd Województwa Mazowieckiego. W ramach projektu określono zakres informacyjny, wymagania (w tym wymagania funkcjonalne i niefunkcjonalne), a także określono kierunki i etapy rozwoju systemu metainformacji dla województwa mazowieckiego. Zaproponowany zakres informacyjny metadanych obejmował:
1) identyfikację zbioru danych w tym m.in. nazwę; 2) ogólny opis zbioru danych w tym m.in. cel opracowania, układ odniesienia, dotychczasowe zastosowanie; 3) elementy jakości zbioru w tym m.in. ogólną dokładność położenia, kompletność, zasady aktualizacji; 4) układ odniesień przestrzennych; 5) rozpiętość czasową i geograficzną; 6) definicję danych w tym m.in. rodzaje obiektów i ich atrybutów; 7) metadane administracyjne w tym m.in. organizację i jej rolę w odniesieniu do zbioru danych, osobę kontaktową, sposób dystrybucji; 8) opis metadanych w tym m.in. datę utworzenia, język metadanych. Na początku 2005 roku w Biurze Geodety Województwa Mazowieckiego w Warszawie przystąpiono do opracowania i wdrożenia systemu metainformacji w ramach Mazowieckiego Systemu Informacji Przestrzennej (MSIP). Ponieważ w czasie realizacji przez zespół Politechniki Warszawskiej projektu celowego nie była jeszcze wprowadzona norma ISO 19115, zespół swoją koncepcję zakresu informacyjnego metadanych oparł na projekcie normy dla metainformacji opracowanej przez Europejski Komitet Normalizacyjny. W chwili rozpoczęcia w Biurze Geodety Województwa Mazowieckiego w Warszawie prac nad budową sytemu metainformacji norma ISO 19115 obowiązywała już od niemal półtora roku a prace nad przyjęciem jego polskiej wersji były już na ukończeniu. Zdecydowano, więc że mazowieckie metadane mają być w pełni z nim zgodne. Efektem tej decyzji była weryfikacja opracowanego wcześniej zakresu pod informacyjnego metadanych. Jako podstawę przyjęto obligatoryjne encje ISO 19115, które następnie rozszerzono o wybrane informacje, fakultatywne dla standardu. W efekcie tych prac powstał zakres informacyjny metadanych MSIP, obejmujący następujące pakiety i encje metadanych:! Metadata entity set information - ogólne informacje o metadanych, takie jak data utworzenia, język metadanych;! Identification information - informacje pozwalające na jednoznaczną identyfikację danych, takie jak nazwa zbioru, data utworzenia, dokładność położenia, format danych, słowa kluczowe;! Constraint information - informacje o ograniczeniach związanych z dostępem do danych oraz z ich wykorzystaniem;! Maintenance information - informacje związane z utrzymywaniem i aktualizacją zbioru danych takie jak częstotliwość aktualizacji, zakres aktualizacji;! Reference system information - informacje o systemie odniesień przestrzennych;! Distribution information - pakiet informacji o dystrybucji danych.
Związki pomiędzy głównymi pakietami metadanych Kolejnym etapem w procesie opracowywania mazowieckich metadanych była decyzja o zorganizowaniu ich w formie dokumentów XML zgodnych ze specyfikacją techniczną ISO/CD TS 19139 (wersja z 29 maja 2004 opublikowana w formie plików XSD na stronie Komitetu Technicznego TC 211) i przechowywaniu w relacyjnej bazie danych. Opracowany projekt bazy danych zakłada jej drobnoziarnistą strukturę, a to pozwala na osobne sięganie do wszystkich elementów i atrybutów. W relacyjnej bazie danych wszelkie konstrukcje ze źródłowego dokumentu XML otrzymują jednoznacznie określony identyfikator. Każdy element, atrybut i fragment danych znakowych może zostać osobno odczytany, zmodyfikowany lub usunięty i nie wpływa to na pozostałe konstrukcje dokumentu. Takie rozwiązanie jest najbardziej elastyczne: pozwala stosować zarówno operacje specyficzne dla bazy danych XML, jak i typowe dla baz relacyjnych. Podstawową zasadą struktury drobnoziarnistej jest rozmieszczenie poszczególnych węzłów dokumentu w odrębnych tabelach dla elementów, atrybutów i fragmentów danych znakowych. Dodatkowo istnieje też tabela przechowująca relacje dziecko - rodzic, między elementami i ich składnikami. Na potrzeby zarządzania bazą metadanych utworzona została aplikacja pozwalająca na wczytywanie, usuwanie i generowanie dokumentów XML oraz modyfikację informacji w nich zapisanych. <abstract> <scxml:characterstring xmlns:scxml="http://www.isotc211.org/scxml">baza pokrycia terenu z jednolitą dla całej Europy legendą CORINE (ang. Coordination of Information on the Environment) Land Cover. Legenda ma charakter hierarchiczny i na poziomie krajowym, odpowiadającym mapie w skali 1:100 000, zawiera 44 klasy, z czego na terenie Polski występuje 31. Minimalny obszar wydzielanych klas odpowiada obszarowi co najmniej 25 ha.</scxml:characterstring> </abstract> <purpose> <scxml:characterstring xmlns:scxml="http://www.isotc211.org/scxml">opracowanie aktualnych informacji o pokryciu terenu na potrzeby Unii Europejskiej. Wykorzystanie bazy danych CLC jako narzędzia wspomagającego monitorowanie wielu programów sektorowych Wspólnoty.</scXML:CharacterString> </purpose> <status> <smxml:md_progresscode codelist="progcd" codelistvalue="001"/> </status> <pointofcontact>
<smxml:ci_responsibleparty uuid="55"> <organisationname> <scxml:characterstring xmlns:scxml="http://www.isotc211.org/scxml">główny Inspektorat Ochrony Środowiska</scXML:CharacterString> </organisationname> <contactinfo> <smxml:ci_contact uuid="7"> <phone> <smxml:ci_telephone> <voice> <scxml:characterstring xmlns:scxml="http://www.isotc211.org/scxml">480225792900</scxml:characterstring> </voice> </smxml:ci_telephone> </phone> <address> <smxml:ci_address> <deliverypoint> <scxml:characterstring xmlns:scxml="http://www.isotc211.org/scxml">ul. Wawelska 52/54</scXML:CharacterString> </deliverypoint> <city> <scxml:characterstring xmlns:scxml="http://www.isotc211.org/scxml">warszawa</scxml:characterstring> </city> <administrativearea> <scxml:characterstring xmlns:scxml="http://www.isotc211.org/scxml">województwo mazowieckie</scxml:characterstring> </administrativearea> <postalcode> <scxml:characterstring xmlns:scxml="http://www.isotc211.org/scxml">00-922</scxml:characterstring> </postalcode> <country> <scxml:characterstring xmlns:scxml="http://www.isotc211.org/scxml">polska</scxml:characterstring> </country> </smxml:ci_address> </address> <onlineresource> <smxml:ci_onlineresource> <linkage> <smxml:url>http://www.gios.gov.pl</smxml:url> </linkage> </smxml:ci_onlineresource> </onlineresource> </smxml:ci_contact> </contactinfo> <role> <smxml:ci_rolecode codelist="rolecd" codelistvalue="007"/> </role> </smxml:ci_responsibleparty> </pointofcontact> Fragment dokumentu XML z zapisem metainformacji
Metadane w Internecie Jedną z głównych funkcji systemu metainformacji danych przestrzennych jest funkcja katalogowania i ewidencjonowania zbiorów danych. Jednak bez upowszechniania tej informacji szerokiemu kręgowi odbiorców system taki traci na znaczeniu. W dobie tak dużej popularyzacji internetu jako ogólnoświatowego medium komunikacyjnego wydaje się rzeczą niezbędną, by metadane były w nim udostępnione tak, by użytkownik mógł w prosty i łatwy sposób otrzymać informację na temat zbiorów danych dostępnych dla interesującego go obszaru. W ramach działającego od kilku lat serwisu internetowego GIS Mazowsza (www.gismazowsza.pl), będącego częścią Mazowieckiego Systemu Informacji Przestrzennej, opracowano i uruchomiono moduł Metadane oparty na utworzonej bazie metadanych. Umożliwia on przeglądanie i wyszukiwanie informacji o zbiorach danych przestrzennych wchodzących w skład wojewódzkiego zasobu geodezyjnego i kartograficznego oraz tematycznych baz danych stanowiących MSIP. Moduł Metadane serwisu internetowego został podzielony na pięć działów: 1. Wprowadzenie - zawiera podstawowe informacje dotyczące utworzonego modułu metadanych. 2. Katolog - zawiera listę 18 kategorii tematycznych do których przyporządkowano poszczególne zbiory danych. Podział na kategorie jest zamknięty i zdefiniowany przez normę ISO 19115, a jeden zbiór może być przyporządkowany do kilku kategorii. Ponieważ nie ma oficjalnego, polskiego tłumaczenia normy ISO 19115 polskie nazwy i opisy kategorii zostały nadane przez BGWM w Warszawie. W celu uniknięcia niejednoznaczności, przy każdej kategorii została podana oryginalna nazwa. Po kliknięciu na nazwę kategorii następuje przejście do listy zbiorów danych do niej zakwalifikowanych, a użytkownik otrzymuje skrócone charakterystyki zbiorów. 3. Szukaj - umożliwia przeszukiwanie zasobów metadanych przy pomocy specjalnie wydzielonych kryteriów wyszukiwania (kategoria, skala bazowa, reprezentacja geometryczna, słowa kluczowe, aktualność) ułatwiających odnalezienie właściwego zbioru. Przeszukiwanie bazy danych możliwe jest przy użyciu dowolnej kombinacji pól wyszukiwania. Wypełnienie większej ilości pól zawęża wynik poszukiwań, zwiększając prawdopodobieństwo odnalezienia konkretnego, interesującego użytkownika zbioru danych. W wyniku przeprowadzonego wyszukiwania otrzymujemy podobną jak w dziale Katalog listę zbiorów danych. 4. Standardy - dział zawiera informacje dotyczące dwu standardów metadanych Międzynarodowej Organizacji Standaryzacyjnej (ISO) do których ściśle stosowali się autorzy podczas tworzenia sytemu metadanych. 5. Co nowego? - dział zawiera informacje na temat ostatnich zmian w bazie metadanych, jak również usprawnień i modyfikacji w serwisie internetowym. W serwisie internetowym zaproponowano trzy poziomy szczegółowości informacji o zbiorze danych. Pierwszy bardzo ogólny zawierający podstawowe informacje (ogólny opis, cel opracowania, rodzaj reprezentacji geometrycznej, aktualność, skalę oraz układ odniesienia) dostępny jest z poziomu listy zbiorów generowanej dla każdej kategorii tematycznej lub jako wynik zapytania. Aby uzyskać dokładniejsze informacje należy wybrać odnośnik Szczegóły dostępny dla każdego zbioru na liście. Efektem tej operacji będzie otwarcie nowego okna zatytułowanego Informacje o zbiorze danych zawierającego: informacje ogólne, informacje o aktualności, zasięgu przestrzennym, regułach dostępu i użycia oraz o słowach kluczowych
wybranego zbioru danych. Z tego poziomu możliwe jest obejrzenie przykładowej wizualizacji fragmentu bazy danych w postaci pliku rastrowego (.jpg). Ostatni - najbardziej dokładny poziom informacyjny - zawiera pełne metadane dla wybranego zbioru danych. Wizualizowane są one w postaci odpowiadającej strukturze źródłowego pliku XML, z tym że angielskie nazwy znaczników zostały zastąpione polskim tłumaczeniem. W celu uniknięcia niejednoznaczności, podobnie jak to miało miejsce w przypadku kategorii tematycznych, umieszczono również oryginalne nazwy według normy ISO 19115. Metainformacja zbioru danych może być nie tylko wizualizowana na ekranie komputera, ale również pobrana i zapisana przez użytkownika w źródłowym formacie XML. Dzięki temu istnieje możliwość odczytania metadanych w systemach interpretujących kod XML oraz stosujących standard ISO 19115. Co dalej? Obecnie trwają prace nad rozszerzeniem funkcjonalności serwisu, która ma polegać na przestrzennym lokalizowaniu zasięgów zbiorów danych. Na mapie województwa mazowieckiego użytkownik będzie mógł obejrzeć zasięg przestrzenny wyszukanych wcześniej przez siebie danych. Będzie możliwa również operacja odwrotna - poszukiwanie danych poprzez wskazanie na mapie zasięgu, bądź ręczne wprowadzenie skrajnych współrzędnych obszaru poszukiwań. W chwili obecnej mazowieckie metadane obejmują charakterystykę wszystkich zbiorów danych przestrzennych wchodzących w skład wojewódzkiego zasobu geodezyjnego i kartograficznego oraz tematycznych baz danych stanowiących MSIP. W kolejnych etapach, wraz z rozbudową MSIP, metadane będą gromadzić informację o wszystkich zbiorach danych, dotyczących województwa mazowieckiego, zarówno tych zbiorów, których twórcami bądź właścicielami są instytucje publiczne, jak i firmy lub osoby prywatne. W końcowej fazie prac nad wdrożeniem systemu, opublikowana została nowa wersja specyfikacji technicznej ISO/CD TS 19139, która miejscami znacznie różni się od poprzedniczki. Ponieważ nie jest to jeszcze ostateczna wersja standardu, autorzy mazowieckich metadanych dostosują do niej swoje opracowanie, po niezwłocznym zatwierdzeniu normy ISO 19139. Projekt Mazowiecki System Informacji Przestrzennej znalazł się wśród 13 projektów z Państw Członkowskich (Polska 5, Włochy - 4, Szwajcaria -2, Niemcy - 1, Słowacja -1, Belgia 1), które uznane zostały za wnoszące wkład do opracowania i testowania przepisów implementacyjnych Dyrektywy Parlamentu Europejskiego i Rady Unii Europejskiej ustanawiającej infrastrukturę informacji przestrzennej we Wspólnocie Europejskiej (INSPIRE Infrastructure for Spatial Information in Europe). Podstawowe informacje o projekcie zostały opublikowane w oficjalnej witrynie INSPIRE i są dostępne pod adresem: http://inspire.jrc.it/ir/project_view.cfm?id=1245. Bibliografia 1. Norma ISO 19915 Geographic information Metadata 2. Alina Kmiecik Analiza dokumentów ISO serii 19100 w zakresie metadanych i jakości danych geograficznych Biuletyn informacyjny Głównego Geodety Kraju maj 2004 3. Jerzy Gaździcki Kompendium infrastruktur danych przestrzennych Geodeta nr 3/2003 4. The SDI Cookbook GSDI, wersja 2.0, 2004, pod redakcją Douglasa D. Neberta 5. Projekt celowy System Baz Danych Przestrzennych dla Województwa Mazowieckiego