ZASTOSOWANIE NARZĘDZI STATYSTYCZNYCH DO ANALIZY DUŻYCH WOLUMENÓW DANYCH W ADMINISTRACJI RZĄDOWEJ

Podobne dokumenty
IMPLEMENTATION OF WDROŻENIE COMARCHW MINISTERSTWIE FINANSÓW SINDBAD RAPORTY ANALIZY BADANIA PROGNOZY CASE STUDY 1

Osoba posiadająca kwalifikacje II stopnia WIEDZA

Osoba posiadająca kwalifikacje II stopnia WIEDZA

Poz. 15 UCHWAŁA NR 15 RADY WYDZIAŁU NAUK EKONOMICZNYCH UW. z dnia 1 marca 2017 roku. w sprawie

MODUŁY WEBOWE I APLIKACJE MOBILNE COMARCH ERP EGERIA. Platforma szerokiej komunikacji

Kierunek studiów: EKONOMIA Moduł analiz rynkowych

Kierunek studiów: EKONOMIA Specjalność: Analityka gospodarcza

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Etapy modelowania ekonometrycznego

Wydział Nauk Ekonomicznych i Technicznych KIERUNEK EKONOMIA studia stacjonarne i niestacjonarne uzupełniające magisterskie (II stopnia)

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną. ćwiczenia 30 zaliczenie z oceną

Informatyzacja dla obywateli

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Business Intelligence jako narzędzie do walki z praniem brudnych pieniędzy

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Informacja o firmie i oferowanych rozwiązaniach

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

STATYSTYKA PUBLICZNA Warsztaty, cz. IV. dr Kazimierz Kruszka

STATYSTYKA PUBLICZNA Warsztaty, cz. III

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

OPIS ZAKŁADANYCH EFEKTÓW KSZTAŁCENIA

Wykorzystanie Banku Danych o Lasach w naukach leśnych i praktyce leśnictwa

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Transformacja wiedzy w budowie i eksploatacji maszyn

Wydział Nauk Ekonomicznych i Technicznych KIERUNEK EKONOMIA studia stacjonarne i niestacjonarne licencjackie (I stopnia)

Dopasowanie IT/biznes

Projektant biznes planu

Prezentacja kierunku Analityka biznesowa. Instytut Ekonomii i Informatyki

Spectrum Spatial. Dla systemów BI (Business Intelligence)

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Szybkość instynktu i rozsądek rozumu$

w ekonomii, finansach i towaroznawstwie

Wykład I. Wprowadzenie do baz danych

Co to jest Business Intelligence?

Projekt Badawczy Analiza wskaźnikowa przedsiębiorstwa współfinansowany ze środków Unii Europejskiej

PLAN STUDIÓW STACJONARNYCH I NIESTACJONARNYCH WIECZOROWYCH II STOPNIA OD ROKU AKADEMICKIEGO 2017/2018

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Matryca efektów kształcenia. Logistyka zaopatrzenia i dystrybucji. Logistyka i systemy logistyczne. Infrastruktura logistyczna.

Ekonomia Międzynarodowa

KIERUNKOWE EFEKTY KSZTAŁCENIA KIERUNEK STUDIÓW INFORMATYCZNE TECHNIKI ZARZĄDZANIA

ZAMAWIAJĄCY. CONCEPTO Sp. z o.o.

PROSKAR KREATYWNA INŻYNIERIA

ANALITYKA GOSPODARCZA, STUDIA MAGISTERSKIE WIEDZA

Dopasowanie IT/biznes

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

System informatyczny jest to wyodrębniona część systemu informacyjnego, która jest, z punktu widzenia przyjętych celów skomputeryzowana.

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Wzmocnienie potencjału analitycznego administracji publicznej przedsięwzięcie podjęte przez Szefa Służby Cywilnej


2019/2020. poziom: pierwszy stopień profil: ogólnoakademicki. rekrutacja w roku akademickim PROGRAM STUDIÓW STACJONARNYCH

NALITYKA IZNESOWA WYDZIAŁ ORGANIZACJI I ZARZĄDZANIA POLITECHNIKA ŚLĄSKA NOWY KIERUNEK STUDIÓW.

Efekty kształcenia dla kierunku ekonomia studia pierwszego stopnia

Specjalności. Informatyka studia I stopnia

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Opis merytoryczny. Cel Naukowy

Zarządzanie firmą Celem specjalności jest

Wydział Nauk Ekonomicznych i Technicznych KIERUNEK FINANSE I RACHUNKOWOŚĆ studia stacjonarne i niestacjonarne licencjackie (I stopnia)

Projektowanie interakcji

GŁÓWNY URZĄD STATYSTYCZNY Departament Pracy i Warunków Życia Urząd Statystyczny w Poznaniu

Narzędzia Informatyki w biznesie

Usługa: Audyt kodu źródłowego

Matryca pokrycia efektów kształcenia. Efekty kształcenia w zakresie wiedzy (cz. I)

ZAKRES TEMATYCZNY EGZAMINU LICENCJACKIEGO

LABORATORIUM 1 - zarządzanie operacyjne

Projekt współfinansowany przez Unię Europejską z Europejskiego Funduszu Rozwoju Regionalnego Fundusze Europejskie dla rozwoju regionu łódzkiego

System INTEGRYB jako zintegrowane repozytorium danych umożliwiające zaawansowaną analitykę badawczą

Mamy przyjemność poinformować Państwa, że rozpoczęliśmy prace nad przygotowaniem

dla biznesu usługi enova365 na Platformie Microsoft Azure Oprogramowanie ERP do zarządzania

Oferta szkoleniowa Yosi.pl 2012/2013

Jakub Kisielewski.

Dane Klienta: ul. Towarowa Olsztyn.

EFEKTY KSZTAŁCENIA KIERUNEK EKONOMIA

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Budowa Platformy e-finansów Publicznych. e-finanse Publiczne

ADMINISTRACJA ELEKTRONICZNA. Autor: Jacek Janowski

OGŁOSZENIE O ZAMÓWIENIU nr 1/2013 (POWYŻEJ 14 tys. EURO)

Wybór specjalności na kierunku ekonomia

Platforma Cognos. Agata Tyma CMMS Department Marketing & Sales Specialist atyma@aiut.com.pl AIUT Sp. z o. o.

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych

Platforma informacyjna dla samorządów System Raportowania Zarządczego. Małgorzata Szlachetka

e-podatki elektroniczne usługi nowoczesnego państwa Grzegorz Fiuk Departament ds. Informatyzacji Resortu Ministerstwo Finansów

Nowa specjalność Zarządzanie badaniami i projektami Research and Projects Management

Rozwiązania i usługi SAP

Warianty sesji szkoleniowo-doradczych dla firm w promocji Wykorzystaj budżet na 2015 zorganizuj szkolenie w 2016

Praktyczne aspekty stosowania metody punktów funkcyjnych COSMIC. Jarosław Świerczek

System Profesal. Zarządzanie przez fakty

2016 Proget MDM jest częścią PROGET Sp. z o.o.

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

Przedmowa System zarządzania jakością w przygotowaniu projektów informatycznych...11

Splunk w akcji. Radosław Żak-Brodalko Solutions Architect Linux Polska Sp. z o.o.

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

O czym będziemy. się uczyć

Popularyzacja podpisu elektronicznego w Polsce

Badanie potrzeb dotyczących inicjatyw promujących postawy przedsiębiorcze i wspierających rozwój przedsiębiorczości

Opis organizacji. Organizacja ma strukturę hierarchiczną, na którą składa się:

Osoba posiadająca kwalifikacje I stopnia WIEDZA

PROPOZYCJA ZAGADNIEŃ NA EGZAMIN LICENCJACKI NA KIERUNKU ANALITYKA GOSPODARCZA. 1.Modele wielorównaniowe. Ich rodzaje i zalecane metody estymacji

Transkrypt:

ZASTOSOWANIE NARZĘDZI STATYSTYCZNYCH DO ANALIZY DUŻYCH WOLUMENÓW DANYCH W ADMINISTRACJI RZĄDOWEJ Mirosław Błażej Ministerstwo Finansów, Departament Polityki Finansowej, Analiz i Statystyki Wstęp W obecnym świecie biznesu i administracji mamy do czynienia z ogromnym przyrostem gromadzonej informacji dotyczącej wielu aspektów zachowania się procesów technologicznych, konsumentów, klientów, gospodarstw domowych czy podatników. Rozwój technologii informatycznych stwarza równolegle możliwości wykorzystania powyższych informacji. Dostępne stają się tak nośniki pamięci o odpowiedniej pojemności, procesory o odpowiedniej wydajności oraz systemy przesyłu informacji o odpowiedniej przepustowości. Ostatnie lata to także okres intensywnego rozwoju narzędzi informatycznych oferujących rozwiązania zapewniające dostęp do danych, coraz powszechniej stosowane są narzędzia i programy oferujące coraz bardziej efektywne algorytmy przetwarzające dane algorytmy statystyczne, ekonometryczne i data miningowe. O ile powyżej wymienione zostały elementy podaży rozwiązań w zakresie zaawansowanego przetwarzania danych, to głównym elementem skutkującym pojawieniem się popytu jest proces narastającej konkurencji pomiędzy podlegającymi koncentracji podmiotami gospodarczymi. Proces koncentracji jest tu istotny, gdy w jego wyniku konsolidowane są bazy danych 1, wzrastają możliwości firm w zakresie stosowania techniki IT i zatrudniania specjalistów - silnie oddziałuje tzw. efekt skali. 1 Chodzi tu nie tylko o integrację i wzrost baz w sensie ilości obiektów zarejestrowanych w bazie (np. w wyniku połączenia baz danych o klientach dwóch banków), ale także łączenie i wzrost ilości użytecznych danych o obiektach, np. opisujących różne obszary zachowania się obiektów. Proces taki pozwala na znaczące zwiększenie użyteczności danych w bazie dla analiz, czyli użytkowej pojemności informacyjnej danych. Poprzez to pojęcie (niedefiniowane w sposób ścisły) użytkowej pojemności informacyjnej danych należy rozumieć zdolność grupy danych do identyfikowania nowych zależności i relacji (po zastosowaniu odpowiednich technik statystycznych, ekonometrycznych i data miningowych) istotnych z punktu widzenia identyfikowania nowej, użytecznej wiedzy. Pojecie to byłoby analogonem funkcjonującego w ekonometrii pojęcia (definiowanego w sposób ścisły) indywidualnej pojemności informacyjnej zmiennej lub integralnej pojemności informacyjnej danego zbioru zmiennych objaśniających (porównaj np. Ekonometria, S. Dorosiewicz i in., SGH 1995, str. 19-20). 49

Przedstawienie zagadnienia Powyższe procesy dotyczą oczywiście także administracji publicznej, szczególnie duże potencjalne zastosowania narzędzi analizy dużych wolumenów danych otwierają się w odniesieniu do ministerstw finansów, z uwagi na dużą ilość informacji gromadzonej w ramach systemów IT wspierających działalność służb podatkowych, celnych czy budżetowych, informacji dostępnej w formie sprzyjającej stosowaniu tego typu analiz. Instytucje te dysponują ponadto możliwością zgromadzenia odpowiednich zasobów, a potencjalnie duże korzyści z inwestycji w tego typu systemy i procedury analityczne skłaniają do podjęcia wysiłku ich rozwoju. Poniżej chciałbym odnieść się do jednego z obszarów analitycznych obecnych w pracach Ministerstwa Finansów, a dotyczącego analiz w odniesieniu do systemu podatkowego, a zwłaszcza przewidywania skutków zmian w systemie podatkowym. Analizy wykonywane w ramach rozwijanego aktualnie systemu Sindbad dotyczą głównie właśnie tego wymiaru, ale także analizy sytuacji gospodarczej i społecznej na poziomie makro i mikroekonomicznym. Analizy w zakresie systemu podatkowego, a zwłaszcza związane z szacunkami skutków budżetowych, konsekwencji zmian dla różnych grup podatników, oszacowanie wielkości zmiany efektywnej stawki podatkowej do wykorzystania jako szoku dla ekonometrycznego modelu gospodarki w celu określenia wpływu zmiany na dynamikę podstawowych kategorii ekonomicznych są częstymi zadaniami Departamentu Polityki Finansowej, Analiz i Statystyki czy departamentów podatkowych Ministerstwa. Wykonywane są one w dość specyficznych warunkach, które muszą być uwzględnione przy konstrukcji systemu analitycznego. Wśród tych warunków należy wymienić: czas: większość zadań jest poddana bardzo wymagającemu i bardzo silnemu ograniczeniu czasowemu, które jest pochodną wymogów kalendarza politycznego lub prac parlamentarnych bądź rządowych, zmienność: analizy dotyczą szerokiego wachlarza zagadnień, począwszy od polityki podatkowej, jak i zagadnień mikro-, makroekonomicznych, polityki społecznej czy budżetowej. Wiąże się także ze stosowaniem najrozmaitszych technik badawczych i analitycznych, sposób ich formułowania: zagadnienia analityczne formułowane są w języku politycznym i prawnym. Oznacza to konieczność przekształcenia ich na zagadnienia związane z analizą danych oraz ekonomiczne, koszt decyzji: choćby z uwagi na skalę (finansową, ilości podmiotów dla jakich analizowane zmiany niosą konsekwencję) koszt popełnienia błędu przy podejmowaniu decyzji jest bardzo wysoki. Zastosowanie narzędzi IT do wyżej zarysowanych analiz można umiejscawiać w ramach knowledge discovering in databases (KDD), które jest nazwą ogólną procesu obejmującego uzyskanie użytecznej i nietrywialnej informacji ze zgromadzonego zbioru danych (najczęściej w postaci elektronicznej bazy danych); nietrywialnej, a więc niepodlegającej 50

rozpoznaniu za pomocą prostych technik, jak wizualizacja czy podstawowe statystyki (np. średnia). Schemat procesu KDD zamieszczono na rys. 1, a jego kontekst oraz relacje ze źródłami danych na rys. 2, (za U. Fayyad and all 1996). Rys. 1 i 2. Źródło: U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth From data mining to knowledge discovery in databases Artificial Intelligence Magazine, Fall 1996, 37-56 pp. Jak można się w sposób oczywisty spodziewać (i jest to także zilustrowane na powyższych rysunkach) skuteczne i poprawne analizy bazujące na danych podatkowych wymagają łącznej wiedzy i znajomości szeregu obszarów: danych (źródła danych, sposób ich gromadzenia i przekształcania etc.), systemu podatkowego, zagadnień mikro- i makroekonomicznych, metod ilościowych (statystyka, ekonometria), 51

finansów publicznych, narzędzi IT: bazodanowych (bazy danych, SQL), przekształcania i przetwarzania danych (zapisu algorytmów) (oprogramowanie statystyczno-ekonometryczne, języki programowania strukturalnego), statystyczno-ekonometrycznego. Opanowanie tak szerokiej wiedzy i umiejętności oraz przekształcenie zespołu osób i narzędzi informatycznych w skuteczne przedsięwzięcie stanowi spore wyzwanie, jednocześnie ma swoje konsekwencje dla budowy systemu IT wspierającego te analizy. Przykładem może być specjalna rola aplikacji do zarządzania metadanymi oraz dostępu do danych w systemie Sindbad. System Sindbad Podstawową przesłanką inicjatywy budowy systemu Sindbad było stworzenie dla analityków Ministerstwa Finansów (odpowiedzialnych za analizy w obszarze podatkowym, makroekonomicznym i dochodowych) zintegrowanego środowiska zapewniającego: dane w obszarze koniecznym dla analiz: zasadniczo dane z deklaracji podatkowych, ale także szeregów makroekonomicznych i budżetowych. Poprzez dane należy rozumieć nie dane surowe, ale raczej w postaci przekształconej do kategorii mających sens z punktu widzenia podatkowo-ekonomicznego oraz zachowujących porównywalność pomiędzy różnymi okresami czasu, informacje o danych: podstawa prawna, zmiany zakresu kategorii w poszczególnych latach, relacje z innymi wielkościami etc., najlepiej informacji kontekstowej, wygodne narzędzia dostępu do danych i ich przekształcania: dla analityka nie będącego specjalistą w obszarze baz danych i programowania, szeroki zestaw narzędzi analitycznych, statystycznych i ekonometrycznych: pozwalających na budowę tak systematycznie tworzonych modeli, analiz i raportów, jak i umożliwiających wykonywanie niewielkich analiz i modeli ad-hoc. Oprogramowanie to powinno zapewniać dostęp do narzędzi analitycznych i modelowych, począwszy do stosunkowo prostych metod statystycznych, aż do wysoce wyspecjalizowanych algorytmów ekonometrycznych, jak analiza kointegracyjna, zestaw predefiniowanych modeli podatkowych: pozwalających na szybkie przeanalizowanie różnych alternatywnych rozwiązań podatkowych oraz ich skutków dla budżetu i podatników, we wszystkich wymiarach, jakie mogą mieć sens ekonomiczny lub społeczny, a możliwych do uzyskania na bazie dostępnych informacji (rozkłady, grupowania, przekroje etc.), wygodne, funkcjonalne i w miarę proste narzędzia administrowania: danymi i szeregami czasowymi, metadanymi, użytkownikami itd. 52

Dodatkowym wymogiem jest także, by środowisko to było zintegrowane i jednolite na tyle ile jest to możliwe z uwagi na różnorodność zadań, oraz elastyczne, by można uwzględnić częste zmiany w procesach generujących dane czy potrzebach analitycznych. Projekt ten jest obecnie realizowany w Departamencie Polityki Finansowej, Analiz i Statystyki w postaci projektu Transition Facility 2005/017-488.01.04 Rozwój wiedzy w dziedzinie analiz dochodów budżetowych we współpracy z firmami ComArch S.A. oraz ITTI Sp. z o.o. Punktem wyjścia dla tego projektu (roboczo określanego jako projekt SIND- BAD 2) był uprzednio zrealizowany projekt finansowany w ramach programu PHARE, ale obecne prace stanowią jego znaczące rozwinięcie, zwłaszcza co do możliwości analitycznych i symulacyjnych oraz w zakresie zarządzania szeregami czasowymi danych budżetowych i makroekonomicznych (aktualnie utrzymywanych i wykorzystywanych w pracach analitycznych Departamentu jest ok. 10 tysięcy różnych szeregów lub ich wariantów). Najbardziej ogólny model funkcjonowania i wykorzystania systemu SINDBAD może zostać zilustrowany poniższym diagramem. Rys. 3. Ogólny model funkcjonalny systemu SINDBAD i SINDBAD 2 (źródło: dokumentacja techniczna projektu, Projekt Generalny Systemu SINDBAD 2). 53

Natomiast przechodząc do bardziej szczegółowego opisu systemu, model jego podstawowych procesów i przepływu danych pomiędzy nimi można zilustrować poniższym diagramem. Rys. 4. Model podstawowych procesów i przepływu danych pomiędzy nimi systemu SINDBAD 2 (źródło: dokumentacja techniczna projektu, Projekt Generalny Systemu SIINDBAD 2). 54

Poniżej została zaprezentowana architektura logiczna systemu SINDBAD 2. Rys. 5. Architektura logiczna systemu SINDBAD 2 (źródło: dokumentacja techniczna projektu, Projekt Generalny Systemu SINDBAD 2). 55

Z uwagi na fakt, że budowa systemu jest w trakcie realizacji, należy podkreślić, że niektóre elementy przedstawione na ww. diagramie podlegają zmianom. Ponadto na diagramie nie zaznaczono modułów analiz elastyczności podatkowych oraz analiz panelowych realizowanych na danych sytemu SINDBAD, ale w postaci niezależnych podprojektów analitycznych (badawczych). Między innymi w tym obszarze wykorzystana będzie STATISTICA. Wyjaśnienia wymaga także pojęcie obszarów/produktów specjalistycznych. Budowa systemu jest prowadzona właśnie w kontekście produktów/obszarów specjalistycznych wydzielonych ze względu na jednolitość zagadnienia biznesowego, jakiego dotyczą. Podstawowymi przykładami są tu obszary poszczególnych podatków (PIT, CIT, akcyza, VAT itd.), gospodarstwa domowe, elastyczności podatkowe lub analizy panelowe wydzielone z uwagi na jednolitość danych, jednorodność analizowanych tam zagadnień, a czasem także stosowanych metod analitycznych. Pozostałymi obszarami są np. moduły administracyjne, serwis WWW, moduł zarządzania raportami. Osobny obszar stanowi także moduł szeregów czasowych. 56