Przyszłość w rękach Big Data -wizje i technologie dziś. Artur Wroński Information Management Technical Team Leader



Podobne dokumenty
Szybkość instynktu i rozsądek rozumu$

Big Data MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE ORAZ NA SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE. Agenda

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

Wprowadzenie do Apache Spark. Jakub Toczek

PureSystems zautomatyzowane środowisko aplikacyjne. Emilia Smółko Software IT Architect

Analityka i BigData w służbie cyberbezpieczeństa

Hurtownia danych szansa na nowe życie (starej idei) Jakub Skuratowicz Technical Sales

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Wprowadzenie do Hurtowni Danych

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Szkolenie: Jak mieć więcej czasu na wyciąganie wniosków

IBM Business Analytics

HP Service Anywhere Uproszczenie zarządzania usługami IT

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

BigData rewolucja czy ewolucja w świecie rozwiązań analityki biznesowej. Grzegorz Oleś Big Data Sales Executive

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

Hbase, Hive i BigSQL

Szkolenia SAS Cennik i kalendarz 2017

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

DSL w środowisku Eclipse. Grzegorz Białek Architekt techniczny, Sygnity S.A.

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Co to jest Business Intelligence?

1 Wprowadzenie do koncepcji Microsoft Office BI 1 Zakres ksiąŝki 2 Cel ksiąŝki 3 Wprowadzenie do tematu 3 Zawartość rozdziałów 4

IBM SPSS Modeler Social Network Analysis 16 podręcznik instalowania i konfigurowania

Narzędzia i trendy Big Data

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Stabilis Smart Factory

BigData & Cloud Wprowadzenie

Hadoop i Spark. Mariusz Rafało

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Imagination Is More Important Than Knowledge

Narzędzia IT we współczesnych strategiach utrzymaniowych

O mnie

Architecture Best Practices for Big Data Deployments

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Włącz autopilota w zabezpieczeniach IT

EMC ViPR Pamięć masowa definiowana programowo

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

VI Kongres BOUG Praktyczne aspekty wykorzystania Business Intelligence w przemyśle wydobywczym węgla kamiennego

Rola analityki danych w transformacji cyfrowej firmy

TECHNOLOGIE BIG DATA A BEZPIECZEŃSTWO INFORMATYCZNE WE KNOW YOU KNOW. silmine.com

OfficeObjects e-forms

Microsoft SharePoint 2016 : krok po kroku / Olga Londer, Penelope Coventry. Warszawa, Spis treści

Sage ACT! Twój CRM! Zdobywaj, zarządzaj, zarabiaj! Zdobywaj nowych Klientów! Zarządzaj relacjami z Klientem! Zarabiaj więcej!

Zmiana treści Specyfikacji Istotnych Warunków Zamówienia.

Zastosowania narzędzi analitycznych w komunikacji społecznej

Przetwarzanie danych w chmurze

Asseco HOME: obniżenie kosztów operacyjnych telekomów dzięki rozwiązaniu Big Data.

Specjalistyczna obsługa klienta

AE/ZP-27-16/14. Oprogramowanie do wykonywania kopii zapasowych oraz zarządzania maszynami wirtualnymi

Krótka Historia. Co to jest NetBeans? Historia. NetBeans Platform NetBeans IDE NetBeans Mobility Pack Zintegrowane moduły. Paczki do NetBeans.

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Rozwiązania biznesowe na żądanie. IBM Workplace Services Express

Wdrożenie technologii procesowej IBM BPM w EFL

Big Data & Analytics

Odpowiedź II wyjaśnienie na zapytania do Specyfikacji Istotnych Warunków Zamówienia.

Platforma Cognos. Agata Tyma CMMS Department Marketing & Sales Specialist atyma@aiut.com.pl AIUT Sp. z o. o.

JBoss: MetaMatrix, Mobicents, Seam, Rools, ESB

Zastosowania aplikacji B2B dostępnych na rynku zalety aplikacji online

Dodatkowo, w przypadku modułu dotyczącego integracji z systemami partnerów, Wykonawca będzie przeprowadzał testy integracyjne.

Łatwe w obsłudze narzędzie ochrony danych w środowiskach wirtualnych STORWARE.EU

SiR_13 Systemy SCADA: sterowanie nadrzędne; wizualizacja procesów. MES - Manufacturing Execution System System Realizacji Produkcji

Gemini Cloud Project Case Study

IBM MobileFirst! Wprowadzenie do strategii IBM w zakresie rozwiązań mobilnych! Włodek Dymaczewski"

Monitoring procesów z wykorzystaniem systemu ADONIS

Maksymalne zaangażowanie uwagi klienta

Wybór rozwiązania. Konkurencyjne ceny

Zmiana treści Specyfikacji Istotnych Warunków Zamówienia.

System Centralny dla banku w 6 miesięcy

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Laboratorium demonstrator bazowych technologii Przemysłu 4.0 przykład projektu utworzenia laboratorium przez KSSE i Politechnikę Śląską

Jarosław Kuchta Administrowanie Systemami Komputerowymi. Internetowe Usługi Informacyjne

Informatyka wspomaga przedmioty ścisłe w szkole

Informacja na żądanie, czyli rozwiązania sprzętowej akceleracji analityki biznesowej

Opis Rozwiązania SAP SAP HANA. Zmieniaj swoją przyszłość lepiej rozumiejąc biznes dzięki analityce predykcyjnej

ERDAS ADE Suite edytor baz danych Oracle Spatial

Wprowadzenie do technologii Business Intelligence i hurtowni danych

5 Moduył do wyboru II *[zobacz opis poniżej] 4 Projektowanie i konfiguracja sieci komputerowych Z

Jarosław Żeliński analityk biznesowy, projektant systemów

Analityka predykcyjna w marketingu i sprzedaży

copyspace WEB2PRINT PROJEKTOWANIE I EDYCJA PRZEZ INTERNET

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

Modelowanie procesów biznesowych, przepływu pracy i wdrażanie aplikacji w oparciu o Jboss jbpm lub Activiti

Oracle Log Analytics Cloud Service

System Obsługi Wniosków

WIZUALNA EKSPLORACJA DANYCH I RAPORTOWANIE W SAS VISUAL ANALYTICS ORAZ WSTĘP DO SAS VISUAL STATISTICS

Ciągłe dostarczanie oprogramowania : kompletny przewodnik / Eberhard Wolff. Gliwice, cop Spis treści

Hurtownie danych wykład 5

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Galileo - encyklopedia internetowa Plan testów

Laboratorium Chmur obliczeniowych. Paweł Świątek, Łukasz Falas, Patryk Schauer, Radosław Adamkiewicz

Współczesna problematyka klasyfikacji Informatyki

Zenoss. Monitorowanie nowoczesnej serwerowni

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

Transkrypt:

Przyszłość w rękach Big Data -wizje i technologie dziś Artur Wroński Information Management Technical Team Leader

2

Co 3hinstalacja nowej turbiny 1 turbina to kilka milionów $ Dotychczas Vestas zainstalował 43 tysiące turbin Vestas- optymalizacja inwestycji poprzez analizę 2.5 Petabajtów danych Potrzeba biznesowa: Lepsze umiejscowienie turbin Modelowanie zjawisk pogodowych do optymalizacji rozmieszczenia turbin wiatrowych maksymalizacja generowanej mocy i czasu życia. Wyzwania: Aktualny wolumen danych o luźnej strukturze - 2.5 PB. Zmniejszenie czasu potrzebnego do wykonania analizy z tygodni do minut. Oczekiwany wzrost wolumenu danych do 24 PB Zwiększenie efektywności centrum obliczeniowego (zredukowanie zużycia energii) 3

Ile czasu zajmie odczytanie 1 PB? 1 PB = 1000 TB 3.5 miesiąca 10 dni 2.5 godziny 15 min Standardowy komputer (założenie 100 MBPS) Przez 10 Gbit link z macierzy dyskowej klasy high end 1000 standardowych komputerów 1000 komputerów przez 10 Gbit link 4

Rozproszone przetwarzanie - hadoop MapReduce model programowania pozwalający na automatyczne przetwarzanie w klastrze bardzo dużej liczby komputerów. Rozdzielenie CO ZROBIĆ? od W JAKI SPOSÓB? HDFS rozproszony system plików 5

Plik1.txt HDFS 1 2 Plik1.txt: Blok 1 -> DN1 Klient: $ hadoopfs copy NameNode B1 B1 B1 ext3, ext4 DataNode1 DataNode2 DataNode3 DataNode4 6

Plik1 HDFS 1 2 Plik1.txt: Blok 1 -> DN1 Blok 2 -> DN2 Klient: $ hadoopfs copy NameNode B1 B2 B1 B1 ext3, ext4 B2 B2 DataNode1 DataNode2 DataNode3 DataNode4 7

Plik wejściowy Ln1 Dzień dobry! Ln2 Dlaczego dobry? Funkcja mapująca (K wej, W wej )->lista(k poś, W poś ) Rezultat pośredni dzień 1 dobry 1 dlaczego 1 dobry 1 Faza sortowania / scalania Rezultat pośredni dlaczego 1 dobry 1 1 dzień 1 Funkcja redukująca (K poś, lista (W poś ))->lista(k wyj, W wyj ) Rezultat końcowy dlaczego 1 dobry 2 dzień 1 Map Reduce 8

MapReduce w klastrze def reducer(key, values): output(key, sum(values) def mapper(line): foreach word in line.split(): output(word, 1) 9 Ten sam prosty (pseuso) kod może być zastosowany do dowolnie dużego zbioru

Hadoop Duże zbiory danych Luźny format danych Przetwarzanie logów Dane ze znaczną przewagą pisania Dane łatwo denormalizowane Niez Hadoop Gdzie istniejące technologie radzą sobie b. dobrze Zagadnienie jest trudne do zrównoleglenia Algorytmy nie są iteracyjne Złożone zdarzenia muszą być przetwarzane w czasie rzeczywistym 10

IBM InfoSphere BigInsights Enteprise Open Source IBM Analityka Silnik i biblioteki do przetwarzania tekstu BigSheets Infrastruktura Zintegrowany instalator Kontrola uprawnień Akceleratory do analiz portali społecznościowych Akceleratory do danych generowanych maszynowo ZooKeeper Oozie Aplikacje Web Crawler Boardreader Rozproszone kopie plików Jaql HBase Eksport / import Zapytania ad hoc Maszynowe uczenie się Przetwarzanie danych Pig Hive Narzędzia do administracji i rozwoju aplikacji Konsola WEB Monitorowanie klastra, zadań, itd. Dodawanie / usuwanie węzłów Start / stop usług Sprawdzanie statusu zadań Wdrażanie aplikacji Uruchamianie aplikacji / zadań Praca z systemem plików Interfejs arkusza kalkulacyjnego BigSheets Kompresja tekstu Indeksowanie Lucene Adaptive MapReduce MapReduce Harmonogramo wanie GPFS (EAP) HCatalog HDFS Narzędzia Eclipse Konektory i integracja JDBC Sqoop DB2 Netezza Streams R Analiza tekstu Programowanie MapReduce Programowanie Jaql, Hive, Pig Tworzenie aplikacji BigSheets Generacja przepływów Oozie Flume Data Explorer Guardium DataStage Cognos BI 11

Wideo: IBM BigSheets w działaniu. Analiza portalu parlamentu Wielkiej Brytanii

T-Mobile USA skalowanie hurtowni Potrzeba biznesowa: Dłuższy okres przechowywania oraz szerszy zakres analiz ruchu internetowego dla smartfonów. Zabezpieczenie przed nieuzasadnionymi reklamacjami Analiza zrywanych połączeń pod kątem utrzymania klientów, wykrywanie obszarów o słabym zasięgu Optymalizacja kosztów przesyłu danych przez sieci innych dostawców Wyzwania: Rosnący wolumen danych z 100 TB do 2 PB Zminimalizowanie nakładu pracy 13 Home

Appliance - gotowe urządzenia 1 W oparciu o wewnętrzne testy IBM. 2 Dla konfiguracji Large 3 W oparciu o wewnętrzne testy IBM. 4 W oparciu o dane klientów IBM. 5 W oparciu o wewnętrzne testy IBM. 6 W oparciu o testy klientów IBM dla wersji DB2 10.1 System for Transactions System for Analytics powered by Netezza technology System for Operational Analytics Konfigurowanie nowej bazy danych w oparciu o szablon w minuty, nie godziny 1 Obsługuje ponad 100 baz danych na 1 systemie 2 10-100x szybszy niż tradycyjnie budowane systemy 4 20x większa współbieżność dla taktycznych zapytań w porównaniu do poprzedniej technologii Netezza 5 Ładowanie danych operacyjnych w trybie ciągłym Zaprojektowany dla 1000+ współbieżnych zapytań na sekundę 3 Aż do 10x oszczędności miejsca dzięki zaawansowanej kompresji 6 14

TerraEchos przetwarzanie strumieniowe w systemie inteligentnego nadzoru. Potrzeba biznesowa: Inteligentne zabezpieczenie laboratorium ds. badań nad energią jądrową przed potencjalnymi intruzami / zagrożeniami Wykrywanie, klasyfikacja, lokalizacja możliwych zagrożeń / intruzów poprzez analizę dźwięku Wyzwania: Analiza w czasie rzeczywistym strumieni dźwięku zbieranych z 1024 mikrofonów. Stała przepływność 275 Mbit/sek, co daje ok. 3 TB informacji dziennie. 15

IBM InfoSphere Streams Filtrowanie Transformacja Adnotacja Korelacja Klasyfikacja 16

Streams Processing Language (SPL) stworzony dla przetwarzania strumieni. Narzędzie StreamStudio (Eclipse) Możliwość kompilacji do jednego procesu, bądź wielu procesów (uruchomienie na wielu komputerach) Dowolny typ informacji: dane przestrzenne, obraz, wideo, modele matematyczne, data mining, analiza tekstu Łatwość tworzenia rozszerzeń. Szeroka lista wbudowanych adaptery tworzenie własnych w C++ lub Java Elastyczna i wydajna warstwa transportowa (WebSphere MQ) Dynamiczne analizy. 17

IBM InfoSphere Streams w działaniu Meters Komponent harmonogramujący przydziela zadania do serwerów i Company Filter Usage Model monitoruje zużycie zasobów Temp Action Usage Contract Text Extract Season Adjust Daily Adjust Meters Company Filter Usage Model Temp Action Usage Contract Text Extract Season Adjust Daily Adjust x86 host x86 host x86 host x86 host Sprzęt commodity 18

IBM InfoSphere Streams w działaniu Komponent harmonogramujący przydziela zadania do serwerów i monitoruje zużycie zasobów Dynamiczne dodanie nowych zadań Dynamiczne dodanie nowych serwerów Meters Meters Company Filter Usage Model Temp Action Usage Contract Text Extract Season Adjust Daily Adjust Text Extract Degree History Compare History Store History x86 host x86 host x86 host x86 host x86 host Sprzęt commodity 19

IBM InfoSphere Streams 3.0 Narzędzia Skalowalność Analityka Eclipse IDE Konsola Web Edytor Drag & Drop Wizualizacja strumieni Debugger Środowisko klastrowe dla tysięcy maszyn RHEL v5.3 i wyżej CentOSv6.0 i wyżej X86 & Power Wsparcie dla InfiniBandi Ethernet Front Office 3.0 Toolkity: Big Data, CEP, Database, DataExplorer, DataStage, Finance, Geospatial, Internet, Messaging, Mining, SPSS, Standard, Text & Timeseries Akceleratory Telco& Social Media 20

Najnowsze badanie IBM dotyczące trendów BigData IBM Institute for Business Value IBM Global Business Services, poprzez IBM Institute for Business Value, bazując na zebranych faktach rozwija strategie dla kadry wyższego szczebla. Saïd Business School University of Oxford SaïdBusiness Schooljest jedną z wiodących szkół biznesu w Wielkiej Brytanii. SaïdBusiness School jest częścią mającego światową renomę Uniwersytetu w Oxford. www.ibm.com/2012bigdatastudy 21

Infrastruktura / technologie BigData Zapraszamy do beta testów DB2 10.5 Źródło: www.ibm.com/2012bigdatastudy 22

Źródła danych dla BigData Głównie analizy z systemów będących zarządzanych przez daną firmę / organizację. Źródło: www.ibm.com/2012bigdatastudy 23

Definicja BigData Poszukiwanie pełniejszych analiz w obszarach: Lepsze dotarcie do klienta (49 %) Optymalizacja działalności operacyjnej (18 %) Zarządzanie ryzykiem finansowym (15 %) Poszukiwanie nowego modelu biznesowego Współpraca pracowników (4 %) Dla niektórych tak naprawdę nic nowego. Czemuś ta BigData ma służyć ;-) Zawsze trzeba pamiętać, by nie robić rzeczy bez sensu Źródło: www.ibm.com/2012bigdatastudy 24

Definicja BigData tzw. 4 V Charekterystyka BigData Wolumen Terabajty do petabajtów Różne formaty Tekst, multimedia, dane relacyjne i luźnego formatu Dane w ruchu Przetwarzanie strumieni danych w ułamku sekundy Niejednoznaczność Wiarygodność analiz, wyciąganie prawdziwych wniosków. źródło: metodologia IBM 25

Teleturniej Jeopardy Wideo: BigData w działaniu. IBM Watson w teleturnieju Jeopardy(w Polsce Va Banque) 26

IBM big data IBM big data IBM big data IBM big data IBM big data THINK E-mail: artur.wronski@pl.ibm.com Telefon: 603 88 66 49 IBM big data IBM big data