Przyszłość w rękach Big Data -wizje i technologie dziś Artur Wroński Information Management Technical Team Leader
2
Co 3hinstalacja nowej turbiny 1 turbina to kilka milionów $ Dotychczas Vestas zainstalował 43 tysiące turbin Vestas- optymalizacja inwestycji poprzez analizę 2.5 Petabajtów danych Potrzeba biznesowa: Lepsze umiejscowienie turbin Modelowanie zjawisk pogodowych do optymalizacji rozmieszczenia turbin wiatrowych maksymalizacja generowanej mocy i czasu życia. Wyzwania: Aktualny wolumen danych o luźnej strukturze - 2.5 PB. Zmniejszenie czasu potrzebnego do wykonania analizy z tygodni do minut. Oczekiwany wzrost wolumenu danych do 24 PB Zwiększenie efektywności centrum obliczeniowego (zredukowanie zużycia energii) 3
Ile czasu zajmie odczytanie 1 PB? 1 PB = 1000 TB 3.5 miesiąca 10 dni 2.5 godziny 15 min Standardowy komputer (założenie 100 MBPS) Przez 10 Gbit link z macierzy dyskowej klasy high end 1000 standardowych komputerów 1000 komputerów przez 10 Gbit link 4
Rozproszone przetwarzanie - hadoop MapReduce model programowania pozwalający na automatyczne przetwarzanie w klastrze bardzo dużej liczby komputerów. Rozdzielenie CO ZROBIĆ? od W JAKI SPOSÓB? HDFS rozproszony system plików 5
Plik1.txt HDFS 1 2 Plik1.txt: Blok 1 -> DN1 Klient: $ hadoopfs copy NameNode B1 B1 B1 ext3, ext4 DataNode1 DataNode2 DataNode3 DataNode4 6
Plik1 HDFS 1 2 Plik1.txt: Blok 1 -> DN1 Blok 2 -> DN2 Klient: $ hadoopfs copy NameNode B1 B2 B1 B1 ext3, ext4 B2 B2 DataNode1 DataNode2 DataNode3 DataNode4 7
Plik wejściowy Ln1 Dzień dobry! Ln2 Dlaczego dobry? Funkcja mapująca (K wej, W wej )->lista(k poś, W poś ) Rezultat pośredni dzień 1 dobry 1 dlaczego 1 dobry 1 Faza sortowania / scalania Rezultat pośredni dlaczego 1 dobry 1 1 dzień 1 Funkcja redukująca (K poś, lista (W poś ))->lista(k wyj, W wyj ) Rezultat końcowy dlaczego 1 dobry 2 dzień 1 Map Reduce 8
MapReduce w klastrze def reducer(key, values): output(key, sum(values) def mapper(line): foreach word in line.split(): output(word, 1) 9 Ten sam prosty (pseuso) kod może być zastosowany do dowolnie dużego zbioru
Hadoop Duże zbiory danych Luźny format danych Przetwarzanie logów Dane ze znaczną przewagą pisania Dane łatwo denormalizowane Niez Hadoop Gdzie istniejące technologie radzą sobie b. dobrze Zagadnienie jest trudne do zrównoleglenia Algorytmy nie są iteracyjne Złożone zdarzenia muszą być przetwarzane w czasie rzeczywistym 10
IBM InfoSphere BigInsights Enteprise Open Source IBM Analityka Silnik i biblioteki do przetwarzania tekstu BigSheets Infrastruktura Zintegrowany instalator Kontrola uprawnień Akceleratory do analiz portali społecznościowych Akceleratory do danych generowanych maszynowo ZooKeeper Oozie Aplikacje Web Crawler Boardreader Rozproszone kopie plików Jaql HBase Eksport / import Zapytania ad hoc Maszynowe uczenie się Przetwarzanie danych Pig Hive Narzędzia do administracji i rozwoju aplikacji Konsola WEB Monitorowanie klastra, zadań, itd. Dodawanie / usuwanie węzłów Start / stop usług Sprawdzanie statusu zadań Wdrażanie aplikacji Uruchamianie aplikacji / zadań Praca z systemem plików Interfejs arkusza kalkulacyjnego BigSheets Kompresja tekstu Indeksowanie Lucene Adaptive MapReduce MapReduce Harmonogramo wanie GPFS (EAP) HCatalog HDFS Narzędzia Eclipse Konektory i integracja JDBC Sqoop DB2 Netezza Streams R Analiza tekstu Programowanie MapReduce Programowanie Jaql, Hive, Pig Tworzenie aplikacji BigSheets Generacja przepływów Oozie Flume Data Explorer Guardium DataStage Cognos BI 11
Wideo: IBM BigSheets w działaniu. Analiza portalu parlamentu Wielkiej Brytanii
T-Mobile USA skalowanie hurtowni Potrzeba biznesowa: Dłuższy okres przechowywania oraz szerszy zakres analiz ruchu internetowego dla smartfonów. Zabezpieczenie przed nieuzasadnionymi reklamacjami Analiza zrywanych połączeń pod kątem utrzymania klientów, wykrywanie obszarów o słabym zasięgu Optymalizacja kosztów przesyłu danych przez sieci innych dostawców Wyzwania: Rosnący wolumen danych z 100 TB do 2 PB Zminimalizowanie nakładu pracy 13 Home
Appliance - gotowe urządzenia 1 W oparciu o wewnętrzne testy IBM. 2 Dla konfiguracji Large 3 W oparciu o wewnętrzne testy IBM. 4 W oparciu o dane klientów IBM. 5 W oparciu o wewnętrzne testy IBM. 6 W oparciu o testy klientów IBM dla wersji DB2 10.1 System for Transactions System for Analytics powered by Netezza technology System for Operational Analytics Konfigurowanie nowej bazy danych w oparciu o szablon w minuty, nie godziny 1 Obsługuje ponad 100 baz danych na 1 systemie 2 10-100x szybszy niż tradycyjnie budowane systemy 4 20x większa współbieżność dla taktycznych zapytań w porównaniu do poprzedniej technologii Netezza 5 Ładowanie danych operacyjnych w trybie ciągłym Zaprojektowany dla 1000+ współbieżnych zapytań na sekundę 3 Aż do 10x oszczędności miejsca dzięki zaawansowanej kompresji 6 14
TerraEchos przetwarzanie strumieniowe w systemie inteligentnego nadzoru. Potrzeba biznesowa: Inteligentne zabezpieczenie laboratorium ds. badań nad energią jądrową przed potencjalnymi intruzami / zagrożeniami Wykrywanie, klasyfikacja, lokalizacja możliwych zagrożeń / intruzów poprzez analizę dźwięku Wyzwania: Analiza w czasie rzeczywistym strumieni dźwięku zbieranych z 1024 mikrofonów. Stała przepływność 275 Mbit/sek, co daje ok. 3 TB informacji dziennie. 15
IBM InfoSphere Streams Filtrowanie Transformacja Adnotacja Korelacja Klasyfikacja 16
Streams Processing Language (SPL) stworzony dla przetwarzania strumieni. Narzędzie StreamStudio (Eclipse) Możliwość kompilacji do jednego procesu, bądź wielu procesów (uruchomienie na wielu komputerach) Dowolny typ informacji: dane przestrzenne, obraz, wideo, modele matematyczne, data mining, analiza tekstu Łatwość tworzenia rozszerzeń. Szeroka lista wbudowanych adaptery tworzenie własnych w C++ lub Java Elastyczna i wydajna warstwa transportowa (WebSphere MQ) Dynamiczne analizy. 17
IBM InfoSphere Streams w działaniu Meters Komponent harmonogramujący przydziela zadania do serwerów i Company Filter Usage Model monitoruje zużycie zasobów Temp Action Usage Contract Text Extract Season Adjust Daily Adjust Meters Company Filter Usage Model Temp Action Usage Contract Text Extract Season Adjust Daily Adjust x86 host x86 host x86 host x86 host Sprzęt commodity 18
IBM InfoSphere Streams w działaniu Komponent harmonogramujący przydziela zadania do serwerów i monitoruje zużycie zasobów Dynamiczne dodanie nowych zadań Dynamiczne dodanie nowych serwerów Meters Meters Company Filter Usage Model Temp Action Usage Contract Text Extract Season Adjust Daily Adjust Text Extract Degree History Compare History Store History x86 host x86 host x86 host x86 host x86 host Sprzęt commodity 19
IBM InfoSphere Streams 3.0 Narzędzia Skalowalność Analityka Eclipse IDE Konsola Web Edytor Drag & Drop Wizualizacja strumieni Debugger Środowisko klastrowe dla tysięcy maszyn RHEL v5.3 i wyżej CentOSv6.0 i wyżej X86 & Power Wsparcie dla InfiniBandi Ethernet Front Office 3.0 Toolkity: Big Data, CEP, Database, DataExplorer, DataStage, Finance, Geospatial, Internet, Messaging, Mining, SPSS, Standard, Text & Timeseries Akceleratory Telco& Social Media 20
Najnowsze badanie IBM dotyczące trendów BigData IBM Institute for Business Value IBM Global Business Services, poprzez IBM Institute for Business Value, bazując na zebranych faktach rozwija strategie dla kadry wyższego szczebla. Saïd Business School University of Oxford SaïdBusiness Schooljest jedną z wiodących szkół biznesu w Wielkiej Brytanii. SaïdBusiness School jest częścią mającego światową renomę Uniwersytetu w Oxford. www.ibm.com/2012bigdatastudy 21
Infrastruktura / technologie BigData Zapraszamy do beta testów DB2 10.5 Źródło: www.ibm.com/2012bigdatastudy 22
Źródła danych dla BigData Głównie analizy z systemów będących zarządzanych przez daną firmę / organizację. Źródło: www.ibm.com/2012bigdatastudy 23
Definicja BigData Poszukiwanie pełniejszych analiz w obszarach: Lepsze dotarcie do klienta (49 %) Optymalizacja działalności operacyjnej (18 %) Zarządzanie ryzykiem finansowym (15 %) Poszukiwanie nowego modelu biznesowego Współpraca pracowników (4 %) Dla niektórych tak naprawdę nic nowego. Czemuś ta BigData ma służyć ;-) Zawsze trzeba pamiętać, by nie robić rzeczy bez sensu Źródło: www.ibm.com/2012bigdatastudy 24
Definicja BigData tzw. 4 V Charekterystyka BigData Wolumen Terabajty do petabajtów Różne formaty Tekst, multimedia, dane relacyjne i luźnego formatu Dane w ruchu Przetwarzanie strumieni danych w ułamku sekundy Niejednoznaczność Wiarygodność analiz, wyciąganie prawdziwych wniosków. źródło: metodologia IBM 25
Teleturniej Jeopardy Wideo: BigData w działaniu. IBM Watson w teleturnieju Jeopardy(w Polsce Va Banque) 26
IBM big data IBM big data IBM big data IBM big data IBM big data THINK E-mail: artur.wronski@pl.ibm.com Telefon: 603 88 66 49 IBM big data IBM big data