Big Data / in search of business value
Big Data / in search of business value 2 Sieć średniej wielkości sklepów obsługuje w Polsce około 50 milionów transakcji rocznie, przy czym generowane jest ponad 400 milionów pozycji paragonowych. Ogólnopolski bank obsługuje 3 mln klientów. Zachowanie i historia każdego klienta opisywane są przez kilka tysięcy atrybutów. W skali banku wymaga to analizy ponad 3 mld danych. Internetowy kanał sprzedaży w modelu B2C obsługuje 250 tys. odwiedzających dziennie. Przy średniej ilości 6 do 7 odsłon na odwiedzającego oraz prezentowaniu około 100 produktów na stronie, generowane są miliony zdarzeń ( clickstreamów ) zawierające informacje o jakości kanału sprzedaży i preferencjach kupujących. Analiza tych danych w czasie rzeczywistym pozwala budować efektywne modele rekomendacji. Współczesny świat generuje coraz więcej danych. Są to dane mocno zróżnicowane, nieustrukturyzowane i zmienne, np. dane z systemów operacyjnych i transakcyjnych, z systemów skanowania i zarządzania obiektami, maile, wiadomości na stronach WWW, wpisy w portalach społecznościowych. Jeszcze parę lat temu przetwarzanie tych danych technologicznie nie było możliwe. Obecnie dzięki platformom Big Data takim jak Hadoop możliwe i efektywne kosztowo jest przetwarzanie nawet petabajtów danych. Dlaczego więc, zgodnie z badaniem Forrester Research, tylko 12% danych gromadzonych przez organizacje jest przez nie analizowanych w poszukiwaniu wartości biznesowej? 2,5 tryliona bajtów dziennie WYZWANIA Zaplecze sprzętowe Ciągły przyrost danych Efektywne przetwarzanie? 12% Wartość biznesowa Technologia już dzisiaj pozwala organizacjom nie tylko gromadzić każdy bajt danych, ale co ważniejsze, zrozumieć wielkie zbiory danych i wykorzystać ich wartość do podejmowania lepszych decyzji biznesowych. Most businesses have made slow progress in extracting value from big data. And some companies attempt to use traditional data management practices on big data, only to learn that the old rules no longer apply. Dan Briody, Big Data: Harnessing a Game-Changing Asset, Economist Intelligence Unit, 2011
Co to jest Big Data? 3 Termin big data został sformułowany w 2001 roku w raporcie ośrodka analitycznego Gartner. Według przyjętej wtedy definicji, big data to duża ilość (volume), zmienność (velocity) oraz różnorodność (variety) danych. Big Data jest pojęciem względnym, opisującym sytuację, w której ilość, zmienność i różnorodność danych przekracza możliwości analityczne dla danej organizacji, uniemożliwiając terminowe podejmowanie dobrych decyzji. Big Data Meets Big Data Analytics, SAS White Paper 2012 BIG DATA wykorzystanie danych Narzędzia analityczne Oprogramowanie dedykowane Oprogramowanie pudełkowe Przechowywanie i przetwarzanie danych HADOOP Relacyjne bazy danych Hurtownie danych NoSQL Integracja Dostęp do danych Zarządzanie danymi Bezpieczeństwo Zarządzanie Monitorowanie Źródła danych Systemy OLTP, ERP, CRM Dokumenty, Emaile Logi systemowe Aktywności użytkownika Sieci społecznościowe Dane procesowe Urządzenia pomiarowe Systemy geolokacyjne Platforma Hadoop może być uzupełnieniem heterogenicznej infrastruktury informatycznej przedsiębiorstwa, pozwalając w efektywny sposób gromadzić i przetwarzać duże ilości różnorodnych i zmiennych danych.
Zastosowanie w biznesie 4 Zaawansowanie rozwiązania Jak najlepiej postępować? Optimize Rozwiązania innowacyjne Big Data Co się stanie w przyszłości? Czego możemy się spodziewać? Dlaczego coś się dzieje? Statistical Analysis Forecast Predict Query drill down Alerts Jakie akcje należy wykonać? Gdzie dokładnie jest problem? Rozwiązania typowe Clean data Standard reports Ad hoc reports Jak dużo, jak często i gdzie? Co się stało? Raw data Wraz z lawinowym wzrostem generowanych, gromadzonych i przetwarzanych przez przedsiębiorstwa danych, nastąpił dynamiczny rozwój analityki biznesowej. Przykładowe zastosowania w biznesie Customer Intelligence Wczesna identyfikacja i zarządzanie cyklem życia szansy sprzedażowej Podniesienie konwersji sprzedaży Segmentacja klientów Profilowany marketing Strategie i operacje Spójne doświadczenia klienta bez względu na kanał kontaktu Obraz 360 stopni klienta Budowa programu lojalnościowego Aktywna dosprzedaż produktów Rozliczanie prowizji w sieci sprzedaży Zarządzanie efektywnością Identyfikacja i reakcja na zagrożenia oraz szanse Monitorowanie skuteczności marketingu ATL Poprawa konkurencyjności Wykrywanie nadużyć, np. kontrola kosztów Zarządzanie ryzykiem Testowanie hipotez Identyfikacja zależności
Technologia Hadoop 5 Hadoop został zaprojektowany jako środowisko rozproszone w formie klastra, który pełni dwie podstawowe funkcje: gromadzenie (przechowywanie) danych, efektywne przetwarzanie danych. Ze względu na ciągły przyrost danych w klastrze niezwykle ważna jest jego skalowalność, polegająca na dokładaniu kolejnych maszyn, które w założeniu wcale nie muszą być high-endowymi serwerami. Istotne jest również bezpieczeństwo danych, które w przypadku klastra hadoopowego dotyczy zarówno dostępu do danych, jak i odpowiedniego ich zabezpieczenia przed utratą w przypadku awarii infrastruktury sprzętowej. Hadoop jako kluczowy komponent BI i analityki następnej generacji dla innowacyjnych zastosowań biznesowych. Ewaluacja/ monitoring wyników Przygotowanie danych Eksploracja danych Walidacja modelu Transformacja, wybór Budowa modelu The new technologies and new best practices are fascinating, even mesmerizing, and there s a certain macho coolnes to working with dozens of terabytes. But don t do it for the technology. Put big data and discovery analytics together for the new insights they give the business. Philip Russom, Director of Data Management Research, TDWI Big Data Analytics, TDWI Best Practices Report, Fourth Quarter 2011 3Soft i netology są partnerami
Szczegółowy wykaz kompetencji 3Soft i netology 6 Projektowanie architektury i sizing klastra pod kątem wymagań klienta Zdefiniowanie i opisanie wymagań pod kątem Zaprojektowanie architektury klastra Sizing klastra Zapewnienia wydajności (przetwarzanie batch owe, strumieniowe, agregaty danych, itp.) Polityki bezpieczeństwa (grupy użytkowników, poziom dostępu do danych, narzędzia analityczne i kwestie bezpieczeństwa, itp.) Standardów technologicznych i architektonicznych Na poziomie fizycznym (konfiguracja sprzętowa serwerów, architektura sieci) Na poziomie logicznym (podział ról komponentów - Name Node ów, Data Node ów, Edge Node ów oraz rozmieszczenie komponentów plastra Hadoop) Rozbudowa pojemności klastra Projektowanie i implementacja mechanizmów przetwarzania danych w ramach klastra MapReduce Hive technologie Pig Spark Storm Narzędzia analityczne (np. SAS, w tym 4GL) Dedykowane rozwiązania Projektowanie i implementacja mechanizmów integracji i zasilania klastra danymi Określenie sposobu pobierania danych z systemów dziedzinowych ETL Zaprojektowanie i implementacja interfejsów komunikacyjnych z systemami zewnętrznymi Migracja danych archiwalnych Kolumnowe (HBase) Modele danych Full-text search (Solr, Elasticsearch) Key-value, in-memory (Redis) Niestrukturalne (HDFS) Kanoniczne modele danych Flume Data Ingesting Sqoop Logstash Dedykowane rozwiązania
Szczegółowy wykaz kompetencji 3Soft i netology 7 Administracja klastrem Hadoop Administracja komponentami klastra HDFS, YARN, Zookeeper, Ambari, Hive, Pig, Storm, Solr, Knox, Ranger, Oozie Mechanizmy zarządzania zasobami (Fair Scheduler, Capacity Scheduler) Patchowanie i upgrade wersji komponentów (także kompleksowo na poziomie dystrybucji Hortonworks, Cloudera) Uprawnienia i grupy użytkowników (dostęp do danych na HDFS, integracja z AD, LDAP, itp.) Zasady przetwarzania danych (work flow) Aktualizacje systemu operacyjnego Administracja na poziomie systemu operacyjnego węzłów klastra Zarządzanie woluminami dyskowymi w oparciu o LVM Zarządzanie logami systemowymi, w tym transfer logów do odległych lokalizacji Instalacja dodatkowych komponentów i modułów nie będących częścią klastra Projektowanie architektury bezpieczeństwa danych Aspekty security Knox (tzw. perimeter security) Ranger (dawniej XA Secure) integracja z AD, LDAP Hardware (procesory, pamięć operacyjna, dyski twarde, zasoby sieciowe) Monitoring klastra Wykorzystanie systemów monitorujących System operacyjny (zgodność z OSG, patchowanie, utrzymywanie spójności, itp.) Komponenty Hadoop (HDFS, MapReduce, Oozie, Hue, HBase, Flume, itp.) Dedykowane aplikacje uruchamiane na platformie Hadoop (taski, joby) Ambari Ganglia Nagios Integracja z zewnętrznymi systemami monitorującymi Warsztaty z użytkownikami technicznymi i biznesowymi Burze mózgów (nowe use case y) Optymalizacja lub przeniesienie istniejących rozwiązań na platformę Hadoop Wypracowanie architektury klastra i rozwiązań na nim realizowanych Dokumentacja architektury klastra Big data technologies describe a new generation of technologies and architectures, designed to economicall extract value from very large volumes of a wide variety of data by enabling high-velocity capture, discovery and/or analysis. Philip Carter, Associate Vice President of IDC Asia Pacific Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO, September 2011
Interdyscyplinarny zespół kluczem w realizacji projektów Big Data 8 Wiedza dziedzinowa Klient Znajomość rynku Znajomość potrzeb i możliwości Dostęp do danych Budowa środowisk opartych o ekosystem Hadoop (Big Data) Budowa rozwiązań BI (SAS) 3Soft/Netology Integracja systemów informatycznych Dedykowane rozwiązania informatyczne dla firm Optymalizacja procesów biznesowych (BPM/ECM) Projektowanie i budowa kompleksowej infrastruktury IT Umiejętność dostarczania najlepszych praktyk z różnych branż SAS Institute Doświadczenie w budowaniu platform analitycznych Dopasowanie oferty do aktualnych potrzeb klienta
Projektujemy, wykonujemy i uruchomiamy oraz utrzymujemy architektury Big Data. Czy Big Data ma sens w moim biznesie? POMOGĄ ODPOWIEDZIEĆ NA TO PYTANIE Michał Ząbkowski Account Manager E: michal.zabkowski@netology.com.pl M: +48 601 785 805 Robert Górecki Account Manager E: robert.gorecki@netology.com.pl M: +48 601 149 013 Za stronę merytoryczną opracowania odpowiada dr inż. Kamil Folkert Członek Zarządu ds. R&D w 3Soft S.A. E: kamil.folkert@3soft.pl M: +48 666 305 320 www.3soft.pl www.netology.com.pl Porcelanowa 23, 40-246 Katowice T: +48 32 204 27 86, E: biuro@3soft.pl T: +48 32 355 82 70, E: info@netology.com.pl