Informatyczne aspekty analityki danych Marek Niezgódka Centrum Cyfrowej Nauki i Technologii UKSW (Centrum CNT) marekn@uksw.edu.pl IX Konferencja Bezpieczeństwo w Internecie, Analityka Danych, UKSW, 6.06.2019
Dylematy Ile razy można? Każdorazowo trzeba byłoby wskazać znaczenie działań regulacyjnych oraz konsekwencji prawnych użycia 2
Dylematów ciąg dalszy Rola analityki danych i, szerzej, Data Science (nauk o danych) w rozwoju: gospodarki cyfrowej i cyfrowego zarządzania w szczególności w Internecie Rzeczy Big Data Miejsce sztucznej inteligencji, czy raczej uczenia maszynowego Sieci, również 5G, a także chmur, jako cudownych rozwiązań uniwersalnych Ale 3
Kategorie wielkich danych Big Data to zbiory niemożliwe do efektywnego przetwarzania przez tradycyjne architektury informatyczne (komputerowe, software owe i komunikacyjne) (Volume) Nie sama wielka objętość danych, ale również: Liczność i różnorodność źródeł (Variety) Dark Data Intensywność (szybkość) dopływu (Velocity): Fast Data Wysoka zmienność (Variability) Główne wyzwanie technologiczne i logistyczne: skalowalność 4
Kategoryzacja dużych danych, cd. Szybkie dane: Podstawowe znaczenie dla racjonalizacji sieciowych systemów energetycznych Ciemne dane: nieustrukturyzowane dane, m.in. strumieniowe multimedialne: Ponad 80% wszystkich danych w sieci Spośród ponad 250M kamer monitoringu na świecie ok. 20% jest w sieci, 2% jest archiwizowane Utracone dane: Sensory w instalacjach technologicznych: Rejestracja jedynie wewnątrzsystemowa (często zaledwie 1% danych używanych w procesach decyzyjnych) Nowe dane: Dane z nowych, nieharwestowanych źródeł Ref.: Forbes, Gartner, McKinsey 5
Obszary analityki danych Diagnostic analytics Descriptive analytics Predictive analytics Outcome analytics - podporządkowana efektom wynikowym Prescriptive analytics integrująca analizę i syntezę w formie nasycania danymi modeli matematycznych wspomagających procesy decyzyjne 6
Wyzwanie: nowe modele przetwarzania danych Systemy rozproszone i systemy masywnie zrównoleglone: Komputerowe architektury hybrydowe i konsekwencje ich zastosowania: Problem kwalifikacji precyzji i powtarzalności wyników Niedeterministyczne modele zarządzania danymi Rozproszone systemy hierarchiczne: Paradygmaty przetwarzania krawędziowego (edge computing) i mgłowego (fog computing) 7
Meandry rozwoju modeli przetwarzania Do 1970: Model scentralizowany - stacjonarny: - Komputery klasy Mainframe Do 2005: Model rozproszony: Klient Serwer (do 2000) Modele Gridowe (do 2005) Do 2020: Chmura Od 2020: Edge computing Fog computing Model scentralizowany - mobilny: Modele rozproszone - inteligentne: 8
Granice technologii obliczeniowych, 2019 Chiny: 3 exaskalowe systemy prototypowe, od 2018 USA: w pełni exaskalowy system: Cray Shasta at ANL, 2020 ($500M) Pierwszy zintegrowany komputer kwantowy - IBM Q System One, 2019 Europa: akcje (głównie) polityczne Krytyczne problemy: efektywność energetyczna, dostępność zlokalizowanego zasilania skalowalność komputerowych systemów komunikacji wewnętrznej 9
Implikacje dla infrastruktur cyfrowych Fascynacja chmurami zbliża się do szybszego końca niż przewidywano Iluzja możliwości delegowania kompetencji do chmury gaśnie Technologie typu Blockchain przystępują do ofensywy we mgle jako bezpieczne protokoły transferu danych 10
Infrastruktury cyfrowe: Edge Computing Koncepcja modelowa: rozproszona architektura zasobów serwerowych realizująca przetwarzanie danych jak najbliżej ich źródeł (na obrzeżach sieci at edges) Motywacja: Inteligentna sensoryka Sieci mobilne, bezzałogowa akwizycja danych (np. drony) Internet Rzeczy i jego mutacje Rozszerzony zakres analityki dużych danych (szczególnie, szybkich danych - Fast data) Aplikacje czasu rzeczywistego 11
Przejście od cloud computing do fog computing: schemat ideowy 12
Fog computing Standard implementacyjny dla Edge Computing Zdecentralizowany model, realizujący inteligentne rozpraszanie procesów przetwarzania danych, ich przechowywania i realizacji aplikacji do zoptymalizowanych lokalizacji sieciowych na krawędziach sieci (edges) Transfer danych: protokoły blockchain u Pierwsze referencje: CISCO, 2012 Wstępna specyfikacja: NIST, listopad 2017 NIST Special Publication 500-325: Fog Computing Conceptual Model, Recommendations of the National Institute of Standards and Technology, March 2018 13
Atrybuty edge i fog computing Zwiększone bezpieczeństwo Wyższy poziom prywatności Zwiększona odporność na ataki Ograniczenie ruchu w sieci Niższa latencja (możliwość synchronizacji przetwarzania) A ponadto: Sumarycznie niższy poziom kosztów od klasycznej chmury Elastyczność i ograniczenie uzależnienia od podmiotów zewnętrznych 14
Referencje aplikacyjne 15
Elektryczne smart grid y: ilustracja (ref.:https://sites.suffolk.edu/cdohertycrestin/2015/09/18/americas-energy-grid/ ) 16
Smart grid y: różnorodność problemów (ref.: General Electric Inc.) 17
Inteligentne sieci energetyczne: wyzwania analityczne Fast data o wielkiej objętości (zbierane w trybie czasu rzeczywistego przez rozproszone zdalne systemy sensoryczne) Sterowanie procesami w czasie rzeczywistym Predykcyjna użyteczność modeli i ich stosowalność w warunkach operacyjnych krytycznych czasowo: precyzja rozdzielczość skalowalność odporność 18
Komputery i medycyna Od medycyny precyzyjnej (spersonalizowanej) patient specific data analysis method / translation mathematical description reasoning method Modelowanie matematyczne, analiza danych, obliczenia personalized diagnosis/treatment do analizy populacyjnej patient specific data analysis method / translation mathematical description patient specific data analysis method / translation mathematical description patient specific data analysis method / translation mathematical description reasoning method reasoning method reasoning method personalized diagnosis/treatment personalized diagnosis/treatment personalized diagnosis/treatment reasoning method i wstecz population characteristics 19
Inteligentne systemy geofizyczne Odniesienia: Naturalne zasoby geofizyczne: eksploatacja Systemy geo-energetyczne: zasoby odnawialne Remediacja struktur geofizycznych Atrybuty złożoności: Natura wieloskalowa Agregacja efektów nieliniowych Niepewność danych spowodowana przez: nieprecyzyjność, niekompletność i możliwa niespójność Złożona struktura geometryczna 20
Standardy: znaczenie harmonizacji Przyszłość: standardy otwarte Standard jest Otwarty, jeżeli w szczególności jest: biznesowo neutralny, tzn. jest zarządzany przez szeroko akceptowaną organizację non-profit, dostępny równoprawnie dla wszelkich zainteresowanych stron, z nieograniczonym prawem wtórnego użycia, jego dokumentacja i związane z nim zasoby są dostępne bezkosztowo lub co najwyżej po kosztach nominalnych. W odniesieniu do oprogramowania, specyfikacja Standardu Otwartego może być dostępna na zasadzie jednej z licencji otwartych (Open Source albo Libre). 21
Standardy: znaczenie otwartości Zalety stosowania Standardów Otwartych: interoperacyjność, niezależną od stosowanego oprogramowania i sprzętu, zarówno na poziomie wymiany danych, integracji modułów przetwarzania, jak łączenia układów wykonawczych, integralność i trwałą odtwarzalność zasobów danych, co jest szczególnie ważne dla ich długookresowej archiwizacji, możliwość swobodnej wymiany składowych oprogramowania, co ułatwia optymalizację procesów przetwarzania, brak ograniczeń współpracy różnych podmiotów, także reprezentujących inne sektory i mających rozłączne cele działania. Podstawa Otwartej Innowacyjności, priorytetu IX Programu Ramowego Unii Europejskiej: Horyzont Europa 22
Centralna rola modelowania bazującego na danych Źródła danych różnorodne narzędzia akwizycji danych i podejścia wielomodalne: wysokorozdzielcze sensory eksperymenty przesiewowe Wyjścia wielkoskalowych symulacji komputerowych Wyzwania asymilacji danych dla potrzeb modelowania matematycznego: parametryzacja i kalibracja 23
Marek Niezgódka marekn@uksw.edu.pl 24
25