XI Konferencja Naukowa Bezpieczeostwo w Internecie. Analityka danych Kształcenie analityków danych sektora publicznego dr inż. Janusz Dygaszewicz Dyrektor Departamentu Systemów Teleinformatycznych, Geostatystyki i Spisów Główny Urząd Statystyczny Member of Executive Committee of the UN-GGIM: Europe President of European Forum for Geography and Statistics EFGS
Źródło: UNECE
Dane pochodzą nie tylko z wpisów z Internetu, mediów społecznościowych, telefonów komórkowych i transakcji handlowych, ale coraz częściej również z czujników zamontowanych w miejscach publicznych a także coraz częściej w naszych domach (smart meters).
Obszary zainteresowań Statystyki Publicznej w ramach prac Big Data Potencjalne korzyści: Ruch graniczny Migracje czasowe Populacja dzienna i nocna Wzrost świadomości społecznej Zmniejszenie obciążeo obywateli ICT Ruch drogowy Obszary tematyczne prac dot. Big Data Transport Dojazdy do pracy Oferty pracy Optymalizacja kosztów publicznych Usprawnienie funkcjonowania instytucji publicznych Zorientowanie na obywatela Badanie możliwości szerokiego zastosowania danych Big Data
Big Data dane z telefonów komórkowych
Dane o lokalizacji telefonów komórkowych
Przykłady Big Data w statystyce- Estonia
Ceny biletów lotniczych webscraping (1)
Wyzwania Prawo Bezpieczeostwo danych Prywatność Etyka Kompetencje Metody Technologie Jakość Dostęp do danych
Dlaczego powinniśmy kształcić analityków danych? Szum wokół Big data stworzył mitycznego boga nazywanego Data Scientist: samotnego wilka, super-mądrego człowieka z ogromną wiedzą w zakresie informatyki, modelowania, statystyki, analityki, matematyki, z umiejętnościami biznesowymi oraz zdolnością komunikowania się z innymi zarówno na poziomie biznesowym jak też technicznym. W rzeczywistości bardzo niewielka liczba osób posiada takie kompetencje i umiejętności - w rezultacie tworzy się zespoły złożone ze specjalistów, których wiedza, kompetencje i umiejętności uzupełniają się i dają możliwośd prowadzenia zaawansowanych prac i projektów. Są oni dociekliwi: eksplorują dane, zadają pytania, prowadzą analizy "co jeśli?", kwestionują dotychczasowe założenia i procesy,
Źródło: http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
Obszary wiedzy dziedzinowej analityków danych Umiejętności hackerskie (hacker skills): Stosowanie wiedzy z różnych dziedzin do (często) niekonwencjonalnego rozwiązywania problemów. Wiedza z zakresu matematyki i statystyki (Math and statistics knowledge): Po zgromadzeniu i oczyszczeniu danych następnym krokiem jest ich analiza. W tym celu należy zastosowad odpowiednie metody matematyczne i statystyczne. Wymagana jest wiedza o tym, co to jest metoda najmniejszych kwadratów, regresja i jak się interpretuje wyniki. Wiedza merytoryczna (Substantive): Matematyka i statystyka pozwalają na zastosowanie systemów uczących się (machine learning). Jednak nauka to odkrywanie i gromadzenie wiedzy, która wymaga pewnych pytao na temat otaczającego nas świata i stawiania hipotez w odniesieniu do danych oraz testowaniu ich przy użyciu metod statystycznych. Świadomość Strefy Zagrożenia (Danger Zone!) - nawet posiadając umiejętności ekstrahowania danych, ich strukturyzowania, wykorzystywania narzędzi i metod regresji liniowej, ale bez zrozumienia w jaki sposób uzyskuje się wyniki analizy i co one sobą prezentują, można poczynid wielkie szkody.
Kształcenie umiejętności Umiejętności pozyskiwania i oczyszczania danych, Wiedza dotycząca architektury danych (Data architecture), Znajomośd cyklu życia danych, Wiedza o złożoności obliczeniowej - w jaki sposób opracowywad rzetelne, efektywne i skalowalne oprogramowanie (kod), Dobra znajomośd algorytmów, Prawdziwe doświadczenie związane z Big data (np. umiejętnośd łatwego przetworzenia zbioru z 50 milionami rekordów w klika godzin), Umiejętności biznesowe, Umiejętnośd wyczucia przydatności określonych danych w poszczególnych etapach analiz, Nieufnośd względem modeli matematycznych, Umiejętnośd wykorzystywania nabytego doświadczenia, Umiejętnośd zdobywania nowej wiedzy (quick online research).
Kierunek studiów Analiza Danych (na podstawie silnych podstaw teoretycznych) powinien kształcid specjalistów w zakresie pozyskiwania danych zarówno strukturalnych, jak i niestrukturalnych z różnych źródeł (np. bazy danych, hurtownie danych, Internet, pliki tekstowe, dane sensoryczne i geolokacyjne) oraz ich analizy, obejmującej szukanie ukrytych zależności, wydobywanie wiedzy, budowanie modeli prognostycznych i symulacyjnych oraz interpretację i implementację biznesową wyników analizy.
Absolwent studiów podyplomowych powinien potrafić pozyskad dane z różnych źródeł (bazy danych, pliki tekstowe, pliki multimedialne, sieci społecznościowe, dane sensoryczne i geolokacyjne), budowad zapytania do SQL-owych, jak i nie SQL-owych baz danych, budowad modele analizy danych w oparciu o różnorodne narzędzia statystyczne, matematyczne i informatyczne oraz wyciągad wnioski i formułowad sądy na ich podstawie, projektowad badania reprezentacyjne i prowadzid analizy statystyczne przy analizowaniu zjawisk i procesów gospodarczych, analizowad dane wielowymiarowe, stosowad metody analizy wielowymiarowej w badaniach ekonomiczno-biznesowych (rynkowych i marketingowych) oraz w badaniach społecznych, analizowad dane przestrzenne, dostosowad metody prezentacji wyników analiz do wymagao odbiorców, implementowad systemy informatyczne oparte na przetwarzaniu wiedzy, implementowad wyniki analizy danych w rozwiązaniach biznesowych,
BUDOWA MODELU ANALITYCZNEGO Dochód 3 000-4 000 PLN Wykształcenie Średnie Wiek 40-50 lat
ESTYMOWANIE WYNIKÓW BIZNESOWYCH
Zapraszamy do współpracy