MILITARY UNIVERSITY OF TECHNOLOGY Ocena jakości danych. Aspekty teoretyczne i praktyczne Elżbieta Bielecka, Joanna Nowak Da Costa Wojskowa Akademia Techniczna, Wydział Inżynierii Lądowej i Geodezji
Jakość danych- definicje Jakość danych producenta: Zgodność ze specyfikacjami, Metoda oceny obiektywna, znormalizowana (ISO 19157). Jakość danych użytkownika - fitness for use: Subiektywna, Dostosowana do potrzeb. Informacja o jakości metadane (najczęściej dotyczą zbioru danych). E.Bielecka, J. Nowak Da Costa 2
Metody oceny jakości danych Zewnętrza /wewnętrzna: Wewnętrzna - analiza zbioru danych (np./ topologia, kompletność atrybutów itp). Zewnętrzna - potrzebny zbiór referencyjny, o znanej, wyższej jakości, analizowane aspekty: ilościowe i semantyczne. Całego zbioru / wycinka Problem doboru danych do oceny (ang. sampling). Inne metody dla danych wektorowych i rastrowych E.Bielecka, J. Nowak Da Costa 3
Dane przestrzenne Urzędowe: Znana i gwarantowana jakość, znane specyfikacje (w j. narodowym). Społecznościowe: Jakość zróżnicowana, brak specyfikacji technicznych (jedynie wskazówki). Pozostałe: Udostępniane przez uczelnie, instytuty, organizacje, firmy ; Specyfikacje rzadko udostępniane, Jakość -? E.Bielecka, J. Nowak Da Costa 4
Metoda zewnętrzna Warunek badania: kompletności, dokładności tematycznej WARUNEK integracji danych z różnych zbiorów Odpowiedniość danych na poziomie koncepcyjnym E.Bielecka, J. Nowak Da Costa 5
adaptacja idei współczynnika podobieństwa Czekanowskiego (1913), cenionego polskiego statystyka, pozwoliła na wprowadzenie dwóch współczynników: matching feature area-based completeness index współczynnik kompletności odpowiadających sobie semantycznie zbiorów poligonowych obiektów przestrzennych - powierzchnia obiektów ze zbioru badanego, mających odpowiedniki w zbiorze referencyjnym,, - pow. obiektów zbioru badanego, referen. feature area-based excess indicator współczynnik nadmiaru zbioru względem odpowiadającemu mu semantycznie zbiorowi poligonowych obiektów przestrzennych E.Bielecka, J. Nowak Da Costa 6
Nowak Da Costa, J., 2016. Novel tool to examine data completeness based on comparative stud of VGI data and official building datasets. Geodetskij vestnik vol.3/2016 (in print). Nowak Da Costa, J., 2016. Towards building data semantic similarity analysis: OpenStreetMap and the Polish Database of Topographic Objects. 2016 Baltic Geodetic Congress (BGC Geomatics), Gdansk, 2016, pp. 269-275. DOI: 10.1109/BGC.Geomatics.2016.55 E.Bielecka, J. Nowak Da Costa 7
Ocena jakości globalnych danych ludnościowych GPWv4 LandScan GRUMPv1 Gridded Population of the World Programme SEDAC (Socioeconomic Data & Applications Center) 30 (w przybliżeniu 1 km) Departament d/s Energii w Narodowym Laboratorium Oak Ridge 30 (w przybliżeniu 1 km) Global Rural Urban Mapping SEDAC (Socioeconomic Data & Applications Center) 30 (w przybliżeniu 1 km) WGS84 WGS84 WGS84 2010 2012 2000 Dane ludnościowe pochodzące ze urzędów statystycznych Granice administracyjne Dane ludnościowe pochodzące ze urzędów statystycznych Granice administracyjne Land use/land cover Elevation and slope Dane satelitarne Dane ludnościowe pochodzące ze urzędów statystycznych Granice administracyjne Dane satelitarne (obrazy nocne) Metoda powierzchnio-wagowa ambient population (average over 24 hours), multi-variable dasymetric modeling approach interpolacja powierzchniowa, masowo zachowawczy algorytm - GRUMPe E.Bielecka, J. Nowak Da Costa 8
E.Bielecka, J. Nowak Da Costa 9
Dane referencyjne Rastrowe dane GUS - rozmieszczenie ludności w siatce kilometrowej o boku 1 km 2 (wg specyfikacji INSPIRE). Aktualność 2011 (Narodowego Spisu Powszechnego Ludności i Mieszkań z 2011 roku). Formacie Shapefile. Układ współrzędnych PL-LAEA. E.Bielecka, J. Nowak Da Costa 10
E.Bielecka, J. Nowak Da Costa 11
Metoda oceny Statystyka opisowa, korelacja Detekcja zmian (map algebra) Wyniki analiz zostały wykonane przez Paulinę Pałczyńską w ramach pracy mgr pt. ANALIZA WIARYGODNOŚCI GLOBALNYCH DANYCH O GĘSTOŚCI ZALUDNIENIA NA TERENIE POLSKI, obronionej na Wydziale Inżynierii Lądowej i Geodezji WAT, czerwiec 2016 r. E.Bielecka, J. Nowak Da Costa 12
Ogólna charakterystyka GUS LandScan GPWv4 GRUMPv1 Wartość maksymalna 21531 12802 7391 4091 Wartość minimalna 0 0 0 0 Średnia 123 65 123 65 Mediana 12 5 53 28 Moda (wartość typowa) 0 0 47 20 Odchylenie standardowe 658 345 332 181 Wariancja 432 661 119 066 110 144 32 761 Suma (liczba ludności) 36 136 902 38 414 488 36 406 237 38 569 597 Współczynnik korelacji R - 0,72 0,49 0,53 E.Bielecka, J. Nowak Da Costa 13
GPW E.Bielecka, J. Nowak Da Costa 14
LandScan E.Bielecka, J. Nowak Da Costa 15
GRUMP E.Bielecka, J. Nowak Da Costa 16
Dokładność danych GUS - LandScan GUS - GPWv4 GUS - GRUMPv1 Niedoszacowanie 17056 19100 20086 Przeszacowanie -10710-7391 -4087 Bez zmian 61103 2967 4990 Średnia 57-1 57 Mediana 0-30 -11 Moda 0-20 -13 Odchylenie standardowe 476 572 583 Wariancja 226871 327585 340262 E.Bielecka, J. Nowak Da Costa 17
Dokładność danych Najwyższa suma pikseli w przedziale <-99,100> E.Bielecka, J. Nowak Da Costa 18
Podsumowanie Wynik analiz jakości danych wektorowych dotyczy najczęściej całego zbioru i jest określany przy pomocy wielu mierników. Analiza jakości danych rastrowych umożliwia pokazanie zróżnicowania jakości w obrębie zbioru. Globalne dane ludnościowe o rozdzielczości 1 km charakteryzują się dużą niezgodnością z danymi statystycznymi Najdokładniejsze dane LandScan. Najmniej dokładne dane GPWv4. Wyraźne niedoszacowanie liczby ludności w miastach i większych miejscowościach oraz przeszacowanie na terenach podmiejskich. E.Bielecka, J. Nowak Da Costa 19
Dziękuję za uwagę elzbieta.bielecka@wat.edu.pl Joanna.nowakdc@wat.edu.pl E.Bielecka, J. Nowak Da Costa 20