XI Konferencja Naukowa Bezpieczeństwo w Internecie. Analityka danych Statystyka publiczna Pozyskiwanie danych do analizy
Misja statystyki publicznej Dostarczanie wiarygodnych, rzetelnych, niezależnych i wysokiej jakości informacji statystycznych największy zasób informacyjny klasyfikacje standardy metainformacyjne ustandaryzowany proces produkcji statystycznej nowoczesne techniki zbierania danych nomenklatury nowoczesne rozwiązania IT referencyjnośd publikowanych danych doświadczenie 2
Statystyka publiczna Statystyka publiczna to jeden z fundamentalnych, publicznych systemów składających się na system informacyjny państwa. Statystyka publiczna jest dostawcą informacji statystycznych zapewniających bezpieczeństwo informacyjne państwa, gospodarki i społeczeństwa. Informacje statystyczne wykorzystywane są zarówno przez władze rządowe i samorządowe do analizy, planowania i podejmowania strategicznych dla rozwoju lokalnego i ogólnokrajowego decyzji, przez przedsiębiorców i zrzeszające ich organizacje, jak i pozostałe grupy odbiorców, nie wyłączając indywidualnych obywateli. 3
Statystyka publiczna Realizując obowiązek dostarczania informacji statystyka publiczna korzysta z wielu źródeł danych, w tym z danych pochodzących z rejestrów i systemów informacyjnych. Podstawę prawną do pozyskiwania danych stanowi ustawa z dnia 29 czerwca 1995 r. o statystyce publicznej (Dz. U. z 2018 r. poz. 997, z późn. zm.) oraz rozporządzenie Rady Ministrów w sprawie Programu Badań Statystycznych Statystyki Publicznej na dany rok. 4
Źródła pozyskiwania danych Systemy administracyjne Spisy powszechne Respondenci Big Data Systemy poza administracyjne STATYSTYKA PUBLICZNA wysokiej jakości Informacje statystyczne 5
Metody pozyskiwania danych PORTAL SPRAWOZDAWCZY Formularze WEB TransGUS zbiory: xml/xsd, xls, txt, etc. CORStat CAII CAPI CATI Formularz WEB Aplikacja mobilna Call Center Infolinia statystyczna 6
Metody pozyskiwania danych systemy informacyjne Bezpośredni dostęp do bazy Bezpieczny kanał teleinformatyczny Nośnik elektroniczny Pobranie ze strony internetowej ISODS Wykorzystanie danych z zewnętrznych systemów informacyjnych w statystyce publicznej wynika z: potrzeb użytkowników zgłaszania zapotrzebowania na dane statystyczne wysokiej jakości, względów ekonomicznych zapotrzebowania na efektywność: minimalizacji kosztów tworzenia statystyki, minimalizacji obciążeń administracyjnych respondentów, ryzyka wzrostu braku odpowiedzi w badaniach statystycznych w tym w spisach powszechnych, informatyzacji administracji publicznej/budowy systemów teleinformatycznych. 7
Dane z zewnętrznych systemów informacyjnych Pozyskiwane zbiory danych z rejestrów i systemów informacyjnych wymagają przeprowadzenia szeregu działań pozwalających na przekształcenie ich w zbiory statystyczne, zgodnie z opracowaną przez statystykę publiczną metodyką. W ten sposób otrzymywane są zbiory danych dostatecznie pełne pod względem podmiotowym oraz przedmiotowym i jednocześnie odpowiadające wprowadzonym na podstawie ustaw standardom klasyfikacyjnym, nomenklaturom i definicjom podstawowych kategorii. 8
Dane z zewnętrznych systemów informacyjnych Formy wykorzystania danych pochodzących ze źródeł administracyjnych i pozaadministracyjnych: bezpośrednie źródło danych dla badań, aktualizacja rejestrów statystycznych, tworzenie wykazów, operatów do badań, imputacja, szacowanie danych, kontrola jakości danych z badań, źródło do tworzenia baz danych przestrzennych, źródło danych dla Banku Danych Regionalnych/Lokalnych, do publikacji. 9
JEDNOCZEŚNIE Tylko aplikacje elektroniczne całkowita eliminacja papieru Źródła pozyskiwania danych spisy Źródła administracyjne łącznie z referencyjnymi rejestrami danych przestrzennych Samospis internetowy CAII Computer Assisted Internet Interview Wywiad telefoniczny wspomagany programem komputerowym Wywiad realizowany przez rachmistrza spisowego u respondenta CATI - Computer Assisted Telephone Interview rejestrowany na urządzeniu mobilnym z wykorzystaniem usługi GIS CAPI - Computer Assisted Personal Interview 10
Big Data nowe źródła danych w statystyce publicznej 3 projekty GUS na 3 pierwszych miejscach w konkursie NCBiR, GOSPOSTRATEG: Inteligentny system produkcji statystyk transportu drogowego i morskiego z wykorzystaniem wielkich wolumenów danych na rzecz kształtowania polityki transportowej kraju TRANSTAT Satelitarna identyfikacja i monitorowanie upraw na potrzeby statystyki rolnictwa SATMIROL Budowa zintegrowanego systemu statystyki cen detalicznych INSTATCENY 11
Big Data nowe źródła danych w statystyce publicznej Inteligentny system produkcji statystyk transportu drogowego i morskiego z wykorzystaniem wielkich wolumenów danych na rzecz kształtowania polityki transportowej kraju TRANSTAT CEL: unowocześnienie systemu produkcji statystyk transportu drogowego i morskiego poprzez wykorzystanie wielkich zbiorów danych wprowadzenie nowych produktów, m.in. opracowanie metodyki szacowania natężenia ruchu, wielkości pracy przewozowej oraz wolumenu zanieczyszczeń emitowanych przez środki transportu ŹRÓDŁA: wykorzystanie mechanizmów służących do pobierania oraz przetwarzania danych w czasie rzeczywistym (Big Data) i zaimplementowanie wielkich zbiorów danych pochodzących z sensorów tj. z Systemu Automatycznej Identyfikacji Statków (AIS) Elektronicznego Systemu Poboru Opłat (viatoll) 12
Big Data nowe źródła danych w statystyce publicznej Satelitarna identyfikacja i monitorowanie upraw na potrzeby statystyki rolnictwa SATMIROL CEL: udoskonalenie algorytmów rozpoznawania upraw, monitorowania stanu wegetacji roślinności opracowanie metod oceny wpływu zjawisk ekstremalnych takich jak: powódź, susza, przymrozki, podtopienia, itp. na kondycję użytków rolnych ŹRÓDŁA: bezpłatne dane satelitarne z europejskiego programu COPERNICUS źródła administracyjne 13
Big Data nowe źródła danych w statystyce publicznej Budowa zintegrowanego systemu statystyki cen detalicznych INSTATCENY CEL: opracowanie koncepcji modernizacji procesu mierzenia zmian cen detalicznych towarów i usług (pomiar inflacji) ŹRÓDŁA: wykorzystanie automatycznej ekstrakcji danych z sieci web-scraping 14
Bezpieczeństwo danych - ustawa o statystyce publicznej (art. 10) Zbierane i gromadzone w badaniach statystycznych statystyki publicznej dane jednostkowe identyfikowalne są poufne i podlegają bezwzględnej ochronie Dane te mogą być wykorzystywane wyłącznie do opracowań, zestawień i analiz statystycznych oraz do tworzenia przez Prezesa GUS operatu do badań statystycznych Udostępnianie lub wykorzystywanie danych jednostkowych identyfikowalnych dla innych niż podane celów jest zabronione (tajemnica statystyczna) 15
Bezpieczeństwo danych - ustawa o statystyce publicznej (art.12, art. 39) Pracownicy służb statystyki publicznej, rachmistrze spisowi, ankieterzy statystyczni oraz inne osoby wykonujące czynności w imieniu i na rzecz statystyki publicznej, mający bezpośredni dostęp do danych jednostkowych, są obowiązani do bezwzględnego przestrzegania tajemnicy statystycznej Prezes Głównego Urzędu Statystycznego zapewnia przechowywanie zgromadzonych danych gwarantujące przestrzeganie tajemnicy statystycznej 16
Bezpieczeństwo danych Portal Sprawozdawczy umożliwia przekazywanie danych do GUS, za pomocą dedykowanych do poszczególnych badań aplikacji, do których dostęp następuje po poprawnym uwierzytelnieniu respondenta System TransGUS - umożliwia bezpieczny transfer zbiorów danych do serwera zasobowego Głównego Urzędu Statystycznego CAII przekazanie danych do GUS możliwe jest po poprawnym uwierzytelnieniu respondenta CAPI zebrane w trakcie wywiadu dane są na bieżąco transmitowane do systemu CORStat i nie są przetrzymywane na urządzeniach mobilnych CAPI, CATI respondent w każdej chwili może zweryfikować tożsamość ankietera/ teleankietera dzwoniąc na Infolinię statystyczną Spisy powszechne (CAII) integracja z Węzłem Krajowym 17
Podsumowanie Statystyka publiczna: posiada największy zasób danych w Polsce pozyskuje dane od respondentów, z systemów informacyjnych administracji publicznej i niepublicznych systemów informacyjnych inwestuje w nowoczesne metody zbierania danych bada i wykorzystuje nowe źródła danych jak Big Data posiada kompetencje i doświadczenie w integracji danych, co zapewnia wysoką jakość publikowanych informacji statystycznych zapewnia bezwzględną ochronę pozyskiwanych danych 18
Dziękuję za uwagę Dr. Dominik Rozkrut Prezes Głównego Urzędu Statystycznego Anna Długosz Zastępca Dyrektora Departamentu Systemów Teleinformatycznych, Geostatystyki i Spisów 19