Architektura i narzędzia informatycznego wsparcia badań statystycznych Janusz Dygaszewicz Agnieszka Nowakowska Główny Urząd Statystyczny 27.09.2018 Warszawa 1
Model procesu produkcji statystycznej jako odniesienie dla planowanej modernizacji architektury platformy wsparcia informatycznego badań statystycznych 2
Charakterystyka obszaru badań Kanały elektroniczne Kanały elektroniczne Zbieranie danych Faza 4 Badania statystyczne Przetwarzanie Faza 5 Stat? Analiza Faza 6 Udostępnianie Faza 7 REJESTRY administracyjne SDS SDO SDA SDP Wejście SJS SDG Wyjście Składnica Metadanych Statystycznych SMS 3
Charakterystyka obszaru badań Kanały elektroniczne Kanały elektroniczne statystyka publiczna badanie zjawisk społ ecznych, gospodarczych i środowiskowych, Zbieranie Przetwarzanie Analiza Udostępnianie danych intensywne wsparcie informatyczne badań Faza 5 Faza 6 Faza 7 Faza 4 statystycznych, Stat REJESTRY administracyjne Wejście! SDS SDO SDA SDP ponad 200 badań statystycznych rocznie ok. SJS 0,4 mld zł, koszt y spisów powszechnych ok. 0,6 mld zł, 6 000 osób. Składnica Metadanych Statystycznych SMS SDG Wyjście 4
Podstawowe wnioski z analizy dotychczasowego stanu Brak spójnego podejścia do modelowania i projektowania rozwiązań informatycznych wspierających badania statystyczne. Ab y to zmienić należy: 1. stworzyć ramy architektoniczne stanowiące podstawę budowy oraz unormowanego rozwoju rozwiązań informatycznych wykorzystywanych do realizacji zadań statystyki publicznej; 2. zastosować w procesie konstruowania ram architektonicznych modele i metody stosowane w badaniach naukowych, w tym zwłaszcza wynikające z dorobku architektury korporacyjnej oraz modelowania obiektowego; 3. opracować nowy, procesowy model produkcji statystycznej, który będzie warunkował tworzenie ram architektonicznych. 5
Wykorzystanie dorobku Architektury korporacyjnej Poziom strategiczny Kierunki rozwoju statystyki publicznej do roku 2017" Koncepcja organizacji badań do 2020 roku Strategia informatyzacji systemu informacyjnego statystyki publicznej do roku 2020" Zasady architektury korporacyjnej Poziom operacyjny Poziom informatyki Model operacyjny: Model Procesu Produkcji Statystycznej - MPPS Ramy architektoniczne wsparcia informatycznego modelu MPPS Architektura procesów biznesowych Architektura danych Architektura aplikacji Architektura techniczno- systemowa Źródło - J. Dygaszewicz B. Szafrański Fundament działalności wsparcie informatyczne modelu MPPS 6
Analiza i konstruowanie modelu produkcji statystycznej Punkt wyjścia - mo d e l GSBPM Zarządzanie jakością / Zarządzanie metadanymi 1 Specyfikacja potrzeb 2 3 Budowa 4 Zbieranie danych 5 Przetwarzanie 6 Analiza 7 Udostępnianie 8 Ocena 1.1 Identyfikacja potrzeb 2.1 produktów wyjściowych 3.1 Budowa narzędzi zbierania danych 4.1 Utworzenie wykazu i wybór próbyji 5.1 Integracja danych 6.1 Opracowanie wyników wstępnych 7.1 Uaktualnienie systemów udostępniania 8.1 Zbieranie ocen 1.2 Konsultacje i potwierdzanie potrzeb 2.2 opisów zmiennych 3.2 Budowa lub poprawa komponentów procesu 4.2 Konfiguracja kolekcji 5.2 Klasyfikacja i kodowanie 6.2 Walidacja wyników 7.2 Utworzenie produktów udostępniania 8.2 Przeprowadzenie oceny 1.3 Określenie zestawu danych wynikowych 2.3 zbierania danych 3.3 Budowa lub poprawa komponentów udostępniania 4.3 Zbieranie danych 5.3 Przegląd i walidacja 6.3 Przegląd i objaśnienia danych wynikowych 7.3 Zarządzanie uwalnianiem udostępnianych produktów 8.3 Przygotowanie planu naprawy 1.4 Sprawdzenie dostępności danych 2.4 wykazu i próby losowej 3.4 Konfiguracja procesów pracy 4.4 Zakończenie zbierania danych 5.4 Edycja i imputacja 6.4 Przykrycie tajemnicą statystyczną 7.4 Promocja udostępnianych produktów 1.5 Identyfikacja pojęć 2.5 przetwarzania i analiz 3.5 Testowanie systemu produkcyjnego 5.5 Wyprowadzanie nowych zmiennych i jednostek 6.5 Zakończenie opracowania produktów wynikowych 7.5 Zarządzanie wsparciem uzytkowników 1.6 Przygotowanie uzasadnienia biznesowego 2.6 systemu produkcyjnego i procesów pracy 3.6 Testowanie procesu produkcji statystycznej 5.6 Wyliczanie wag 3.7 5.7 Zakończenie budowy systemu produkcyjnego Wyliczanie agregatów 5.8 Utworzenie końcowych zbiorów danych 7
Uwzględnienie komponentów przestrzennych w modelu procesu produkcji statystycznej 8
Model Procesu Produkcji Statystycznej MPPS 1 Specyfikacja potrzeb 2 3 Budowa 4 Zbieranie danych 5 Przetwarzanie 6 Analiza 7 Udostępnianie 8 Ocena 1.1 Identyfikacja potrzeb 2.1 produktów wyjściowych 3.1 Budowa narzędzi zbierania danych 4.1 Utworzenie wykazu i wybór próbyji 5.1 Integracja danych 6.1 Opracowanie wyników wstępnych 7.1 Uaktualnienie systemów udostępniania 8.1 Zbieranie ocen 1.1a Sformułowanie programu badań statystycznych 2.2 opisów zmiennych 3.2 Budowa lub poprawa komponentów procesu 4.1a Geokodowanie wykazu i próby losowej 5.2 Klasyfikacja i kodowanie 6.2 Walidacja wyników 7.2 Utworzenie produktów udostępniania 8.2 Przeprowadzenie oceny 1.2 Konsultacje i potwierdzanie potrzeb 2.3 zbierania danych 3.3 Budowa lub poprawa komponentów udostępniania 4.2 Konfiguracja kolekcji 5.3 Przegląd i walidacja 6.2a Opracowanie analiz przestrzennych i map 7.2a Zarządzanie analizami przestrzennymi i mapami przy pomocy GIS 8.3 Przygotowanie planu naprawy 1.3 Określenie zestawu danych wynikowych 2.4 wykazu i próby losowej 3.4 Konfiguracja procesów pracy 4.3 Zbieranie danych 5.4 Edycja i imputacja 6.3 Przegląd i objaśnienia danych wynikowych 7.3 Zarządzanie uwalnianiem udostępnianych produktów 1.4 Identyfikacja pojęć 2.5 przetwarzania i analiz 3.5 Testowanie systemu produkcyjnego 4.3a Geokodowanie zebranych danych 5.5 Wyprowadzanie nowych zmiennych i jednostek 6.4 Przykrycie tajemnicą statystyczną 7.4 Promocja udostępnianych produktów 1.5 Sprawdzenie dostępności danych 2.5a geokodowania wykazu, próby oraz zbieranych danych 3.6 Testowanie procesu produkcji statystycznej 4.4 Zakończenie zbierania danych 5.6 Wyliczanie wag 6.5 Zakończenie opracowania produktów wynikowych 7.5 Zarządzanie wsparciem uzytkowników 1.6 Przygotowanie uzasadnienia biznesowego 2.6 systemu produkcyjnego i procesów pracy 3.7 Zakończenie budowy systemu produkcyjnego 4.5 Weryfikacja planów 5.7 Wyliczanie agregatów 7.6 Badanie satysfakcji 1.7 Opracowanie planu ogólnego realizacji procesu produkcji 2.7 Zaprojektowanie wskaźników jakościowych 3.8 Weryfikacja projektu i planów budowy 5.8 Utworzenie końcowych zbiorów danych 7.7 Przygotowanie planu poprawy dla kolejnego cyklu badań 1.8 Opracowanie szczegółowych planów dla kolejnych faz 1.9 Weryfikacja koncepcji w celu poprawy satysfakcji 2.8 Weryfikacja planu ogólnego i planów szczegółowych Legenda: - podprocesy zgodne z GSBPM wersja polska - fazy procesu produkcyjnego wersja polska - nowe podprocesy z komponentem przestrzennym - podprocesy oceny jakości i satysfakcji Źródło - J. Dygaszewicz - nowe podprocesy planowania 9
Przykł ad narzędzi informat ycznych wspierających badania statystyczne w zakresie wykorzystania systemów informacji geograficznej 10
Narzędzia informatyczne wykorzystujące systemy informacji geograficznej Usł uga dost ępu do danych i analiz geostatystycznych [US-01] Urządzenia komputerowe [US-02] Urządzenia mobilne Dane statystyczne Dane użytkownika Dane georeferencyjne 11
Projekt Przestrzenne dane statystyczne w systemie informacyjnym państ wa (PDS) [US-04] Usł uga modelowania geostatystycznego [US-05] Usł uga wspomagająca wzbogacanie t reści [US-03] Usł uga geostatystycznych analiz eksploracyjnych Usł uga dost ępu do danych i analiz geostatystycznych [US-01] Urządzenia komputerowe [US-02] Urządzenia mobilne PDS [US-06] Usł uga wspierająca aktualizację wybranych obiekt ów rejest ru TERYT Dane statystyczne Dane użytkownika Dane georeferencyjne 12
Cele Projekt u PDS Poszerzenie zakresu oraz dost ępności informacji st at yst ycznych i met od analiz geost at yst ycznych wykorzyst ujących zasoby st at yst yki publicznej. Cel te n zostanie zre alizowany prze z dostarczenie nowych lub rozbudowę obecnych usług Portalu Geostatystycznego z uwzględnieniem wynikowych informacji opracowywanych na bieżąco w ramach Programu Badań Statystycznych Statystyki Publicznej, a także innych przedsięwzięć statystyki publicznej, w tym Projektów realizowanych w ramach umów o dotacje. 13
US-01 Usługa dostępu z urządzeń komputerowych do wynikowych informacji statystycznych zgromadzonych w Portalu z możliwością wykonywania zaawansowanych analiz przestrzennych oraz do danych i metadanych infrastruktury informacji przestrzennej Łączenie danych użytkownika z danymi statystycznymi Analizy statystyczne (np. dla danych użytkownika) Dane użytkownika Odwzorowanie przestrzenne danych US-01 14
Wyliczenie dynamicznej siatki podział u przestrzennego Komórki siatki podziału przestrzennego dostosowane do gęstości rozmieszczenia populacji; Większa precyzja prezentowanych danych w gęsto zaludnionych obszarach przy jednoczesnym zachowaniu tajemnicy statystycznej. US-01 15
US-02 Usługa d ost ę pu z urzą d ze ń mobilnych d o wynikowych informa cji st a t yst ycznych zgroma d zonych w Port a lu ora z d o ich wizua liza cji na ma pa ch Dostę p d o a plika cji mobilne j na urzą dze niu mobilnym d a je użytkownikowi możliwość korzysta nia z e fe któw pra cy swoje j i innych użytkowników na innym me dium. Doda tkowo możliwość osa d za nia a na liz ge osta tystycznych ora z a na liz e ksplora cyjnych ja ko na rzę d zi a plikacji ma powe j pozwoli na urucha mia nie ich równie ż na urzą dze nia ch mobilnych. US-02 16
US-03 Usługa umożliwiająca zastosowanie eksploracyjnych analiz danych przestrzennych wykorzystujących informacje statystyczne udostępniane przez Portal W ramach usł ugi użyt kownik będzie miał m.in. możliwość wykonywania analiz z wykorzystaniem danych wł asnych, w tym możliwość: Zaimportowania i wzbogacenia danych własnych o dane statystyczne dostępne w Systemie PDS; Uzupełniania danych o doda tkowe zmie nne (tzw. zmie nne pochodne) wylicza ne na podstawie już za importowa nych i wzboga conych da nych użytkownika przy wykorzysta niu dostępnego ze stawu funkcji ma tema tycznych i ge osta tystycznych; Geostatystyczną eksplorację prze tworzonych d anych (wzboga conych i uzupełnionych o zmie nne pochodne), ocenę ich jakości, a także uzupełnienie danych i modyfikację tych danych; Wizualizację ora z publikowa nie uzyska nych wyników a na liz. W ramach usługi udostępniony zostanie mechanizmy statystycznych metod analizy przestrzennej, w tym m.in.: st at yst yki t endencji cent ralnej, st at yst yki dyspersji, analiza skupień, aut okorelacja przest rzenna. US-03 17
Geostatystyczne analizy eksploracyjne Statystyki tendencji centralnej Statystyki dyspersji Czy zmienić lokalizację punktu usługowego? Który z punktów usługowych jest bardziej dostępny dla klientów? Podatność przejścia klientów do konkurencyjnego punku usługowego? US-03 18
US-04 Usługa umożliwiająca wykonanie analiz z zakresu modelowania geostatystycznego Efektem budowy usługi będzie m. in. możliwość: Zaimportowania i wzbogacenia danych własnych użytkownika o dane statystyczne dostępne w Systemie PDS; Uzupełniania d anych o doda tkowe zmie nne (tzw. zmie nne pochodne) wyliczane na pod stawie już zaimportowanych i wzbogaconych danych użytkownika przy wykorzystaniu dostępnego zestawu funkcji ma tema tycznych i ge osta tystycznych; Eksp lora cji zebranych danych (wzbogaconych i uzupełnionych o zmienne pochodne), ocenę ich jakości a także uzupełnienia danych i modyfikacji tych danych; Zbudowania i zastosowania modelu probabilistycznego pozwalającego na wnioskowanie (estymowanie) o wa rtości zmie nne j objaśnia ne j na pod stawie wyników ba da nia próby losowe j (tj. na pod sta wie zebranych danych); Wizua liza cji ora z publikowa nia uzyska nych wyników a na liz. US-04 19
Wsparcie dla podejmowania zł ożonych decyzji inwestycyjnych Analiza dotychczasowej dział alności biznesowej Budowa modelu analit ycznego Estymowani e wyników biznesowych Podjęcie decyzji o lokalizacji inwestycji US-04 20
Analiza dotychczasowej dział alności biznesowej 1200 1000 800 600 400 200 0 PU1 PU2 Dochód 3 000-4 000 PLN Wykszt ał cenie Średnie Wiek 40-50 lat US-04 21
Budowa modelu analitycznego 1500 1000 500 Dochód 0 PU1 PU2 3 000-4 000 PLN Wykszt ał cenie Śre dnie Wiek 40-50 lat ff xx 1, xx 2, xx 3, US-04 22
Estymowanie wyników biznesowych Prognozowany obrót 350000 300000 250000 200000 150000 100000 50000 0 PU3 PU4 PU5 ff xx 1, xx 2, xx 3, US-04 23
US-05 Usługa wspomagająca wzbogacanie treści własnych użytkownika o informacje i analizy geostatystyczne udostępniane przez Portal Re guły Użytkownik Wybrane analizy geostatystyczne Metadane Da ne US-05 24
US-06 Usługa wspierająca aktualizację wybranych obiektów rejestru TERYT wraz z powiązanymi z nimi obiektami georeferencyjnymi Efekt em budowy usługi będzie m.in. możliwość: aktualizacji TERYT i Przestrzennych Ba z Ad r e s o wych (PBA); inte gra cji z syste mami zewnę trznymi (d anych z Ewid e ncji Mie jscowości, Ulic i Ad re sów (EMUiA) udostępnianych przez rejestr PRG); Usługa US-06 wspiera rozwój następujących usług A2B/ A2C: US-01, US-02, US-03, US-04 w szczególności poprzez zwiększenie dostępności i aktualności danych statystycznych oraz ich odniesienia przestrzennego (w szczególności w zakresie danych TERYT). US-06 25
Syst em realizowany w ramach Projekt u PDS będzie wsparciem w procesach produkcji st at yst ycznej Zbieranie danych Analiza Udostępnianie 26
Dziękuję za uwagę Agnieszka Nowakowska Zastępca Dyrektora Departamentu Systemów Teleinformatycznych, Geostatystyki i Spisów Główny Urząd Statystyczny a.nowakowska@ 27