Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych Tomasz Demski StatSoft Polska www.statsoft.pl
Analiza danych Zaawansowana analityka, data science, data mining Znajdowanie użytecznych wzorców i reguł Coś więcej niż raporty Eksperymentowanie i odkrywanie wzorców na podstawie zróżnicowanych danych Wczesne reagowanie na trendy, wyprzedzanie zmian Zadawanie pytań i poszukiwanie odpowiedzi na podstawie danych Statystyka, wizualizacja, uczenie maszyn
Dlaczego Jeden z motorów zmian i innowacji Źródło przewagi konkurencyjnej Wymogi prawne, normy, regulacje Jest mnóstwo danych, które nic nie robią Coraz powszechniejsze i tańsze rejestrowanie, gromadzenie, udostępnianie i analizowanie danych Media społecznościowe Obsługa klienta przez witryny WWW, aplikacje mobilne Internet rzeczy (IoT)
Trudności Różnorodna wiedza i narzędzia Statystyka, uczenie maszyn Programowanie i bazy danych SQL Hadoop Sieci neuronowe SVM
(Expert) Data Scientist (Mistrz/badacz danych) Wiedza techniczna Statystyka Uczenie maszyn Programowanie i bazy danych, infrastruktura Nie tylko wiedza techniczna Zdolności komunikacyjne Znajomość biznesu Innowacyjność, ciekawość, dociekliwość, kreatywność Zrozumienie problemu, potrzeby biznesowej i powiązanie ich ze światem danych, statystyki i uczenia maszyn
Narzędzia Statistica dla mistrza danych Dostęp do danych SQL, No-SQL, Big Data Przygotowanie danych Skrypty Python, R Modelowanie statystyczne i uczenie maszyn Modelowanie w bazie danych Analityka sieciowa Generowanie kodu modeli Języki programowania Bazy danych SQL Big Data Udostępnianie wyników i pośrednich etapów analizy
Doskonały Data Scientist Stephan Kolassa http://datascience.stackexchange.com/users/2853/stephan-kolassa
W poszukiwaniu jednorożca Ogromne zapotrzebowanie na mistrzów / badaczy danych Mistrz danych to rzadkość Jeśli już go znajdziemy, to trzeba go dobrze wykorzystać Zespół specjalistów w różnych dziedzinach Odpowiednie środowisko ułatwiające współpracę Łatwe korzystanie z pośrednich etapów analizy Demokratyzacja analizy danych
Demokratyzacja analizy danych Wiedza musi być rozpowszechniona, aby była pożyteczna Jak najszersze korzystanie z analityki Jak najszybszy dostęp do wyników Unikalne umiejętności i predyspozycje Koncepcja Citizen Data Scientist Środowisko umożliwiające korzystanie z analizy danych użytkownikom biznesowym Pobranie i przygotowanie danych Analiza Interpretacja Do 2017 roku liczba CDS będzie rosła 5 razy szybciej niż EDS* *Prognoza cytowana przez Lisę Karl podczas Gartner Business Intelligence Summit
Realizacja koncepcji CDS Platforma analityczna Dell Statistica 13.1 Centralne repozytorium Szablony dostępu do danych, analiz, raportów Uprawnienia użytkowników Zrób raz wykorzystaj wielokrotnie Specjalne środowisko pracy Graficzne scenariusze analiz Nowoczesna wizualizacja dla CDS Łatwa interpretacja wyników złożonych analiz Żywe wykresy
Środowisko pracy
Wdrożenie i integracja Repozytorium + scenariusze = szybkie wdrożenie Często wdrożenie wyników zajmuje więcej czasu niż wykonanie analizy Przeniesienie do innego środowiska przygotowania danych, reguł, modeli Zmiana: po prostu uruchom scenariusz decyzyjny z repozytorium!
Czas wdrożenia Statistica Enterprise Tradycyjne podejście 1 2 3 4 5 6 7 8 9 10 11 12 Przygotowanie danych do modelowania i modelowanie Przygotowanie danych do modelowania i modelowanie Wymogi dla wdrożenia Wymogi dla wdrożenia Wdrożenie Wdrożenie Zaoszczędzony czas
Wizualizacja Przedstawienie wyników złożonych analiz w prosty, intuicyjny sposób Wizualne odkrywanie wzorców i trendów Dynamiczna, interakcyjna prezentacja Aktualizacja danych Drążenie Zadawanie filtrów Wybór cech, miar, zmiennych Prezentacja wielu wskaźników, miar (KPI) Przygotowanie i dystrybucja żywego pulpitu
Podsumowanie Zaawansowana analityka staje się coraz potrzebniejsza i coraz powszechniejsza Coraz więcej osób powinno korzystać z analizy danych Demokratyzacja analityki koncepcja Citizen Data Scientist Odpowiednie środowisko umożliwia upowszechnienie analityki oraz ułatwia jej stosowanie