O mnie
Cele sesji
Cele sesji
Dlaczego? http://www.zdnet.com/article/microsofts-r-strategy/ Źródło: https://azure.microsoft.com/enus/blog/forrester-names-microsoft-azurea-leader-in-big-data-hadoop-cloudsolutions/
http://www.photos-public-domain.com/2011/09/11/simple/
Przypadek #1: big data lub nie
Przypadek #1: Rezultaty
Przypadek #2: PaaS kontra IaaS
Przypadek #2: Rezultaty
Przypadek #3: Spróbuj zamiast narzekać Dane źródłowe (xlsx) Machine Translation API Sentiment Analysis API Key phrase detection API
Cortana Intelligence Suite Data Sources Information Management Big Data Stores Machine Learning and Analytics Intelligence People Data Factory Data Lake Store Machine Learning Cognitive Services Data Catalog SQL Data Warehouse Data Lake Analytics Bot Framework Web Apps Event Hubs HDInsight (Hadoop and Spark) Cortana Apps Mobile Stream Analytics Bots Dashboards & Visualizations Sensors and devices Power BI Automated Systems Data Intelligence Action
https://commons.wikimedia.org/wiki/file:bedtime_story_-_madeline.jpg
http://business901.com/blog1/the-misnomer-of-thinking-out-of-the-box/
Przypadek #4: Swoboda działań
Analiza ruchu godzinowego
Przypadek #4: Rezultaty
https://commons.wikimedia.org/wiki/file:a_screwdriver_tip.jpg
Przypadek #5: Think big
Architektura pilotażowa HDInsight cluster Revolution R VM Azure VM Custom UDFs (Streaming and/or Java) SQL DB JDBC/Sqoop Hive RStudio Log Ops Table HCatalog rxodbc MRS HDFS Scalable ETL Large-scale data analysis
Wykrywanie anomalii za pomocą segmentacji Skrajni użytkownicy SYSTEM_IDENTITY1 SYSTEM_IDENTITY2 ANON1 ANON2 ANON3 Rozmiar klastra Cluster #1 126 204 Cluster #2 15 040 Położenie klastra Cluster # avgopsperday avgsessionperday Acgopspersession Ipcnt 1 7.97499 2.380711 3.560209 1.227963 2 36.81413 6.414342 7.823085 1.640691
3 segmenty użytkowników [po usunięciu anomalii, bez normalizacji]
3 segmenty użytkowników [po usunięciu anomalii, z normalizacją] Rozmiar klastra Cluster #1 72820 Cluster #2 19956 Cluster #3 33487 Położenie klastra Avgopsperday Avgsessionperday Avgopspersession Ipcnt Cluster #1 0.1302338 0.01241954 0.1521433 0.04084386 Cluster #2 0.6132861 0.04294849 0.3558698 0.17688916 Cluster #3 0.3472406 0.01084593 0.5794566 0.02338967 Segmenty Light users Active+mobile users Active+static users
Prediction Klasyfikacja użytkowników Rezultaty (w oparciu o drzewa decyzyjne): 4 1 1.00.00.00 52% 2 1.98.00.02 53% avgopspersession < 6.9 yes 1 1.52.13.35 100% avgopsperday < 7.1 no 3 3.00.28.72 47% avgopsperday >= 16 7 3.00.01.99 34% Confusion Matrix Reference 1 2 3 1 19 684 0 128 2 3 4 933 25 3 1 24 13 080 avgopspersession < 4.6 9 1.97.00.03 3% ipcnt < 1.5 14 3.00.30.70 0% avgsessionperday >= 4.2 avgopsperday >= 15 Accuracy: 0.9952 8 1 1.00.00.00 49% 18 19 5 1 1.00.00.00 3% 3.49.00.51 0% 3.11.00.89 1% 6 2.00 1.00.00 13% 28 29 15 2.00.98.02 0% 3.00.00 1.00 0% 3.00.00 1.00 33%
z wykorzystaniem Azure ML
Przypadek #5: Rezultaty
http://www.freeimageslive.co.uk/files/images006/undo_key.jpg
Przypadek #6: Plaża?
Najczęstsza przyczyna porażek
http://pauldunay.com/your-testing-program-smart-ways-to-get-your-team-on-board/
Przypadek #7: Arbuz
IBS Użytkownik Usługi Customer Support Manager Sprzedaż CIO
Dbanie o satysfakcję klienta już wkrótce Centralizacja danych Modele analityczne Synchronizacja z biznesem Wspólny zbiór danych pozwoli zunifikować sposób patrzenia na klientów Krótszy czas potrzebny na zmianę Nawiązanie dialogu pomiędzy różnymi interesariuszami
Satysfakcja klienta w przyszłości Bogatszy arsenał narzędzi do zbierania danych Opinie zbierane i analizowane na bieżąco Jednolity wizerunek firmy
Machine Learning University
Ciągłe doszkalanie
OneML Cykliczne, praktyczne wyzwania dla chętnych Scenariusze mocno osadzone w rzeczywistości Interdyscyplinarne zespoły
7 zasad zwiększających prawdopodobieństwo sukcesu
Co dalej? Advanced Analytics Labs (2 dni) R Labs (1-2 dni) (Bezpłatne) zaangażowanie w indywidualne projekty
Pytania?