XI Konferencja Naukowa Bezpieczeostwo w Internecie. Analityka danych Analityka danych publicznych dla diagnoz i prognoz dotyczących osób niepełnosprawnych Ewa Marzec UKSW
Uwagi historyczne Rosnące rozmiary danych Massive Data mining, Very Large Databases inne spojrzenia + wcześniejsze Big Data jako termin na amerykańskich konferencjach pojawia się pod koniec lat dziewięćdziesiątych Doświadczenia wielkich projektów badawczych NASA
Charakterystyka Big Data połączenie niejednorodnych i złożonych źródeł 3 V High volume, velocity and variety *Doug Laney 2001+. Kolejne V s stopniowo dodawane (Veracity, Value, ) Big Data to dane, których skala, zróżnicowanie i złożonośd wymaga nowych technologii i algorytmów w celu odkrycia wartościowej wiedzy [J.Gama 2015] HACE Theorem: Big Data starts with large-volume, heterogeneous, autonomous data sources with distributed and decentralized control, and seeks to explore complex and evolving relationships among data [Xindong Wu et al. 2013]
Źródło: N.Japkowicz and J.Stefanowski (Eds), Big Data Analysis: New Algorithms for a New Society, (2016).
Zagadnienie Tradycyjne Data Mining Analiza Big Data Dostęp do pamięci Architektura oblicz. Dane Jakośd danych Bezpieczeostwo i prywatnośd Przetwarzanie danych Analiza rezultatów Centralna pamięd operacyjna, łatwiejsze wielokrotne operacje odczyt / zapis Centralna pojedyncza jednostka (skalowalna) Dobra strukturalizacja (rel. DB), jednorodne, statyczne / integracja DW Dobrze przygotowane, wiele technik korekcji Udokumentowane pochodzenie Wiarygodne próbkowanie Wyselekcjonowane dobre dane Nie są wymagane Proste metody anonimizacji Klasyczne (batch); może byd off-line Brak konieczności próbkowania Prędkośd nie tak krytyczna Rozwinięte metody oceny wyników oraz wizualizacji Dane często rozproszone Minimalizowanie zapamiętanych elementów i dostępu do nich Rozproszone przetwarzanie Grona (clusters) słabszych komputerów Zróżnicowane źródła; brak struktury; Zmienne / dynamika i czas Słaba jakośd danych, niepewnośd i niedokładnośd; Słabo dokument. pochodzenie i preprocessing; Użyteczne dane mogą byd połączone z wieloma bezużytecznymi Krytyczny problem Współdzielenie danych; łączenie danych Możliwośd wymagania on-line; szybkośd; Wydajnośd alg. ma znaczenie Dane nie mieszczą się w pamięci Kompresja i próbkowanie danych Niebezpieczeostwa odkrycia nieznaczących rezultatów Trudności wizualizacji Źródło N.Japkowicz, J.Stefanowski: A Machine Learning Perspective on Big Data Analysis (2016)
Big Data znane metody w innym kontekście Standard metod Data Mining Klasyfikacja nadzorowana Regresja / ANN Analiza skupieo Asocjacje (zbiory częste, reguły asocjacyjne) Wzorce sekwencji Szeregi czasowe Wykrywanie anomalii i obserwacji nietypowych Statystyka opisowa Statystyka wielowymiarowa Dekompozycja macierzy (PCA, MDS, ).. Klasyfikacja i predykcja Drzewa decyzyjne Reguły Naive Bayes K-NN Regresja logistyczna Sztuczne sieci neuronowe Analiza dyskryminacyjna Metoda wektorów wspierających SVM Zespoły klasyfikatorów
Drzewo decyzyjne
Nowe problemy badawcze z punktu widzenia analizy danych Analiza grafów Social networks Integracja lub przetwarzanie online różnorodnych reprezentacji danych Eksploracja danych strumieniowych Analiza danych czasoworozproszonych Obliczenia mobilne (IoT) Wizualizacja danych Privacy data mining Data trust + provenance.. Inne problemy Interakcja z ekspertem Ocena wiedzy Etyka analizy Big Data Wpływ na społeczeostwo
Narzędzia do analizy Big Data R - pakiety do wizualizacji danych, pakiety do łączenia R z innymi językami, np. z Javą i hurtowniami danych Python język programowania SAS oprogramowanie do analizy danych SPSS, Statistica, Stata programy przeznaczone do analizy statystycznej Matlab język do analizy danych, statystyki i wizualizacji danych; Apache Mahout - biblioteka Java do uczenia maszynowego
Zjawisko niepełnosprawności Według danych z ostatniego NSP 2011 liczba osób niepełnosprawnych w Polsce wynosiła około 4,7 mln. Narodowy Spis Powszechny Ludności i Mieszkań. Raport z wyników, GUS, Warszawa 2012
Niepełnosprawni według formy niepełnosprawności i miejsca zamieszkania Narodowy Spis Powszechny Ludności i Mieszkań. Raport z wyników, GUS, Warszawa 2012
Liczba niepełnosprawnych w podziale na płeć (w tys. osób) Narodowy Spis Powszechny Ludności i Mieszkań. Raport z wyników, GUS, Warszawa 2012
Liczba niepełnosprawnych według miejsc zamieszkania (w tys. osób) Narodowy Spis Powszechny Ludności i Mieszkań. Raport z wyników, GUS, Warszawa 2012
Zjawisko niepełnosprawności z perspektywy metod analizy danych Zjawisko niepełnosprawności stanowi poważny problem wymagający odpowiednich rozwiązao: Zastosowania wybranych metod wielowymiarowej analizy danych do analizy zjawiska niepełnosprawności Stworzenia tzw. profilu osoby niepełnosprawnej na podstawie danych Projektowania usług publicznych zorientowanych na potrzeby użytkownika niepełnosprawnego [zwiększania dostępności+
Znaczenie danych o dostępności dla władz publicznych - Uchwalona została ustawa z dnia 4 kwietnia 2019 r. o dostępności cyfrowej stron internetowych i aplikacji mobilnych podmiotów publicznych, wdrażająca dyrektywę Parlamentu Europejskiego i Rady (UE) 2016/2102 z dnia 26 października 2016 r. w sprawie dostępności stron internetowych i mobilnych aplikacji organów sektora publicznego - Trwają prace nad projektem szerszej zakresowo ustawy o dostępności, stanowiącej, że: dostępnośd właściwośd środowiska fizycznego, środków transportu, technologii i systemów informacyjno-komunikacyjnych oraz towarów i usług, pozwalająca osobom z niepełnosprawnościami na korzystanie z nich w sposób możliwie samodzielny i na zasadzie równości z innymi osobami bariera przeszkoda lub ograniczenie architektoniczne, urbanistyczne, transportowe, cyfrowe, techniczne, w komunikowaniu się, w dostępie do informacji oraz inne, które uniemożliwia lub utrudnia osobom z niepełnosprawnościami udział w życiu społecznym na zasadzie równości z innymi osobami
Dziękuję za uwagę