Opracowanie techniczne Poprawa wydajności operacyjnej dzięki ofercie rozwiązań Big Data i analitycznych firm Dell i Intel Autor: Nik Rouda, starszy analityk Październik 2015 r. Niniejsze opracowanie techniczne ESG zostało zlecone przez firmy Dell i Intel i jest rozpowszechniane na podstawie licencji firmy ESG.
Spis treści Opracowanie techniczne: Poprawa wydajności operacyjnej dzięki ofercie rozwiązań Big Data i analitycznych firm Dell i Intel 2 Jakie jest najlepsze podejście do systemów Big Data i analityki?... 3 Big Data to projekt zespołowy... 4 Jak wdrożyć w pełni sprawną platformę technologiczną Big Data... 5 Lepszy sposób: rozwiązania Big Data i analityczne firmy Dell... 6 Ekosystem firmy Dell... 7 Większa efektywność operacyjna... 8 Większa prawda... 8 Intel Inside. Intel zapewnia wydajne rozwiązania. Wszystkie znaki towarowe są własnością odpowiednich firm. Informacje zamieszczone w niniejszej publikacji pochodzą ze źródeł, które firma Enterprise Strategy Group (ESG) uznaje za wiarygodne, ale nie są objęte gwarancjami firmy ESG. Publikacja może zawierać opinie firmy ESG, które mogą w przyszłości ulec zmianie. Publikacja jest objęta prawem autorskim firmy The Enterprise Strategy Group, Inc. Powielanie niniejszej publikacji bądź udostępnianie jej w całości lub w części, w postaci drukowanej, elektronicznej lub innej, nieupoważnionym osobom bez uprzedniej zgody firmy The Enterprise Strategy Group, Inc. stanowi naruszenie prawa autorskiego Stanów Zjednoczonych i może być przedmiotem postępowania cywilnego, roszczeń o odszkodowanie, a w uzasadnionych przypadkach również postępowania karnego. Odpowiedzi na pytania można uzyskać, kontaktując się z działem relacji z klientami grupy ESG pod numerem 508.482.0188. Dell, logo Dell, Dell ProSupport, PowerConnect, EqualLogic i PowerEdge są znakami towarowymi firmy Dell Inc. Intel, logo Intel, Xeon i Xeon Inside są znakami towarowymi lub zastrzeżonymi znakami towarowymi firmy Intel Corporation w Stanach Zjednoczonych i/lub innych krajach.
Big Data i analitycznych firm Dell i Intel 3 Jakie jest najlepsze podejście do systemów Big Data i analityki? Wiele projektów Big Data jeszcze nie daje bezpośrednich korzyści. Niektóre organizacje starają się zyskać nowe możliwości biznesowe, zaś celem innych jest istotna poprawa efektywności operacyjnej lub osiągnięcie przewagi w obu tych dziedzinach. Choć branża z entuzjazmem podchodzi do możliwości zastosowania platform analitycznych, w wielu przypadkach założenia są błędnie zdefiniowane, a poszczególne inicjatywy nie mają jednoznacznego celu lub nie uwzględniają środowiska, w którym będą prowadzone. Aby skutecznie spełnić oczekiwania jednostek biznesowych, instytucji państwowych i ośrodków naukowych (czyli nie marnotrawić czasu i pieniędzy na bezowocne projekty), podmioty realizujące inicjatywy w zakresie Big Data i analityki powinny wziąć pod uwagę logiczne i fizyczne współzależności między poszczególnymi elementami rozwiązań. Ten dynamiczny proces można podsumować w następujący sposób: 1. Osoby podejmujące decyzje oczekują odpowiedzi na ważne pytania dotyczące działalności i środowiska. Stwierdzenie to wydaje się oczywiste, ale jest dobrym punktem wyjścia. Trzeba zatem zastanowić się, w jaki sposób każdy projekt Big Data pozwoli uzyskać odpowiedzi na konkretne pytania, jakie będą korzyści z tych informacji, jakie będą najbardziej prawdopodobne dalsze pytania oraz przede wszystkim w jaki sposób organizacja wykorzysta odpowiedzi w celu osiągania lepszych wyników. Pominięcie tego etapu może sprawić, że rozwiązanie będzie nieefektywne lub nieprzydatne. 2. Odpowiedzi są wynikiem analizy, zatem należy starannie zdefiniować odpowiednie modele analityczny i opracować sposoby obsługi doraźnych zapytań. Czasami podejście będzie proste i intuicyjne, ale w niektórych przypadkach określenie najlepszego algorytmu (zarówno dokładnego, jak i skutecznego) wymaga znacznych nakładów pracy. Osiągnięcie całkowitej pewności nie ma znaczenia, jeśli będzie to trwało w nieskończoność. Ponadto pracownicy nietechniczni będą oczekiwać odpowiedzi na żądanie, więc niezbędna jest możliwość znajdowania potrzebnych informacji przy użyciu łatwego w obsłudze interfejsu użytkownika. 3. Analityka wymaga szybkiej integracji i przygotowywania danych z coraz większej liczby źródeł. Ludzie mają świadomość, że im więcej informacji, tym lepiej, dlatego oczekują kompleksowego wglądu we wzajemnie powiązane czynniki. Agregacja i integracja zasobów z dotychczas niezależnych źródeł może być prawdziwym wyzwaniem, zatem koniecznie trzeba zaplanować strategię sprawnego połączenia zarówno danych o określonej strukturze, jak i tych nieuporządkowanych, a także wybrać metodę ich skutecznej organizacji. Nie musi to być jedno repozytorium, ale wszystkie zasoby powinny współdziałać z sobą. 4. Dane muszą być obsługiwane przez platformy zarządzane, które zapewniają opłacalność, skalowalność, niezawodność, bezpieczeństwo i szybkość. W przeszłości oznaczało to zwykle stosowanie nieelastycznego systemu zarządzania relacyjnymi bazami danych (RDBMS), lecz obecnie dostępnych jest wiele innych platform, takich jak NoSQL, Hadoop i Spark. Cechy platformy obsługi danych wpływają na możliwość korzystania z funkcji analitycznych. Środowisko będzie zapewne obejmować wiele źródeł, w związku z czym niezbędne jest uniwersalne źródło rzetelnych informacji lub przygotowanie się do integracji platform. 5. Platformy danych działają w ramach infrastruktury IT, która również wpływa na dostępne możliwości. Dane są przechowywane w pamięci masowej, przetwarzane przez serwery i przesyłane za pośrednictwem sieci nie da się pominąć fizycznych cech tych elementów. O ile rozproszone, skalowalne podejście do platform analityki i obsługi danych może być oparte na standardowej warstwie sprzętowej, o tyle nie można pominąć faktu, że wydajność całego wdrożenia zależy od możliwości poszczególnych elementów składowych. Trzeba też podkreślić, że infrastruktura chmury również wymaga platformy fizycznej. 6. Wszystkie elementy działają w ramach uzupełniającego się ekosystemu strategicznych partnerów, dostawców sprzętu i oprogramowania oraz usługodawców, z których każdy dostarcza wybrane składniki całego rozwiązania. Specjalistyczna pomoc dotycząca wyboru potrzebnych elementów i ich integracji może być bezcenna, zwłaszcza w przypadku tak rozległego i dynamicznego rynku, jakim jest segment rozwiązań Big Data.
Big Data i analitycznych firm Dell i Intel 4 Big Data to projekt zespołowy Wiele przedsięwzięć w zakresie systemów Big Data i analityki jest inicjowanych przez szefów działów IT, którzy chcą pozbyć się negatywnej etykietki centrum kosztów i w większym stopniu wpłynąć na wydajność firmy, wprowadzając i obsługując nowe technologie. Jednocześnie 46% uczestników badania firmy ESG wskazało, że nowe projekty są podejmowane przez dyrektorów spoza działów IT, co potwierdza, że głównym obiektem zainteresowania są wyniki, a nie sam dostęp do najnowszych narzędzi. 1 Mimo że zdefiniowanie konkretnych zastosowań jest korzystne dla działalności, działy IT często mają trudności ze znalezieniem rozwiązania dopasowanego do tych wymagań. Niezależnie od tego, kto jest inicjatorem wdrożenia, zaprojektowanie środowiska i jego długofalowa obsługa z oczywistych względów stają się obowiązkami działu IT. Ważnym czynnikiem jest fakt, że choć wiele technologii IT jest wyspecjalizowanych (w postaci autonomicznych rozwiązań), systemy Big Data i analityczne są inne, ponieważ obejmują wszystkie obszary środowiska informatycznego (patrz rys. 1). Wyniki badania firmy ESG pozwalają stwierdzić, że większość respondentów wskazuje jako ważne lub kluczowe nie mniej niż siedem różnych aspektów technologii IT. Udane inicjatywy wymagają zatem kompleksowego, przemyślanego podejścia do integracji wszystkich niezbędnych programowych i sprzętowych składników platformy technologicznej. Wybranie źródeł danych, połączenie ich z mechanizmem analitycznym i opracowanie modeli to tylko część całego procesu. Rysunek 1. Rola zaangażowania działów IT w nowe projekty związane z analizą danych biznesowych i rozwiązaniami Big Data Źródło: Enterprise Strategy Group, 2015 r. 1 Źródło: raport badawczy ESG pt. Enterprise Data Analytics Trends z maja 2014 r. Jeśli nie wskazano inaczej, wszystkie odniesienia do badań ESG i wykresy w niniejszym opracowaniu pochodzą z tego raportu.
Big Data i analitycznych firm Dell i Intel 5 Jak wdrożyć w pełni sprawną platformę technologiczną Big Data Już obecnie widać, że wielu dostawców walczy o udział w atrakcyjnym rynku rozwiązań Big Data i analitycznych. Każdy z producentów oferuje różne elementy całego środowiska i stara się przekonać klientów, że ich produkty i rozwiązania są najlepsze. Czasami działy marketingu nieco przesadzają w swoich deklaracjach. Wyzwaniem dla działów IT jest dostosowanie i zintegrowanie różnych produktów o odmiennym wyglądzie i zróżnicowanych cechach, ale ich opisy często obiecują zbyt wiele lub skupiają się na drobnych szczegółach. Osoby podejmujące decyzje techniczne w działach IT mogą mieć problem z wybraniem odpowiednich elementów. Jedną ze strategii jest wybór najlepszych w swojej klasie komponentów platformy. W ten sposób można oczywiście uzyskać oczekiwane wyniki w postaci precyzyjnie dostosowanego rozwiązania. Wadą takiego podejścia jest jednak fakt, że ocena kilkunastu elementów (w tym pamięci masowej, serwerów, sieci, zabezpieczeń, funkcji pobierania i przygotowywania danych, hurtowni danych, koncentratorów, mechanizmu analitycznego oraz narzędzi do wizualizacji i obsługi zapytań) pochodzących od 3 5 dostawców wymaga szeroko zakrojonych, skomplikowanych działań. Każdy z tych składników należy starannie ocenić pod kątem zgodności z listą priorytetowych kryteriów (odpowiednie wyniki badania ESG można znaleźć na rysunku 2). Rysunek 2. Najważniejsze cechy wybieranych rozwiązań Big Data i analitycznych Źródło: Enterprise Strategy Group, 2015 r.
Big Data i analitycznych firm Dell i Intel 6 Po wybraniu najlepszych produktów należy się upewnić, że wszystkie elementy są zgodne. Konieczne jest zawarcie umów z wszystkimi dostawcami, odebranie sprzętu, zainstalowanie oprogramowania, podłączenie źródeł danych, przeprowadzenie testów w laboratorium, wdrożenie platformy w środowisku produkcyjnym i ponowne przetestowanie aplikacji, przeszkolenie pracowników, a następnie zapewnienie obsługi i pomocy technicznej z uwzględnieniem wszystkich przyszłych wersji, uaktualnień i nowych wymagań użytkowników. Z oczywistych względów proces ten mógłby zająć wiele lat nawet w dużych działach IT, co uniemożliwiłoby osiągnięcie wymiernych korzyści biznesowych przez inicjatorów wdrożenia. Podejście tego rodzaju może zapewnić bardzo zaawansowane środowisko Big Data, ale tylko przy założeniu, że dział IT nie będzie miał innych obowiązków. Przecież musi istnieć lepszy sposób rozwiązania tego problemu. Lepszy sposób: rozwiązania Big Data i analityczne firmy Dell Inną strategią jest nawiązanie współpracy z wieloma podmiotami działającymi na rynku rozwiązań Big Data i analitycznych, czyli wybranie kilku zaufanych dostawców, którzy są w stanie zaoferować więcej elementów środowiska. Uzupełnienie systemu gotowego w 80 90% jest zwykle szybsze i łatwiejsze, a jednocześnie prowadzi do takich samych oczekiwanych rezultatów. Innymi słowy, ukierunkowanie na wyniki, a nie na produkty, zawsze jest lepszym podejściem do tego problemu. Firma Dell spełnia te kryteria. Oczywiście można zakupić niektóre wymagane technologie firmy Dell, ale faktyczna korzyść polega na dostępie do kompleksowej oferty, która obejmuje znacznie więcej rozwiązań niż portfolio niszowych graczy. Niezależnie od tego, czy celem jest wdrożenie tylko jednego produktu, znalezienie pakietu rozwiązań pomocniczych, czy też rozpoczęcie pracy dzięki gotowemu rozwiązaniu, firma Dell oferuje produkty, które wzajemnie rozszerzają swoje możliwości: Analiza danych analityka staje się głównym elementem wielu planów rozwoju środowiska informatycznego. Większość firm przystępuje do ponownej oceny poszczególnych narzędzi, ale nadal chce mieć możliwość wykorzystania obecnych umiejętności za pomocą popularnych języków skryptowych i języków programowania. Oferowane przez firmę Dell łatwe w obsłudze, solidne rozwiązania w zakresie analizy Big Data można stosować z wszelkiego rodzaju danymi ustrukturyzowanymi, hybrydowymi oraz pozbawionymi określonej struktury. Statistica to kompleksowa platforma analityczna obsługująca dowolne dane (ustrukturyzowane i bez określonej struktury) ze wszystkich źródeł. Statistica oferuje sprawdzony zestaw narzędzi zapewniających pełny wgląd w dane. Funkcje przygotowywania danych i ETL ułatwiają konfigurowanie zasobów na potrzeby eksploracji danych, uczenia maszynowego oraz wielu różnych funkcji i modeli analizy. Ulepszone funkcje wizualizacji i raportów pozwalają łatwiej zrozumieć i interpretować wyniki. Integracja danych aby owocnie korzystać z potencjału kryjącego się w zasobach informacyjnych, potrzeba dokładnego, jednolitego, realizowanego w czasie rzeczywistym wglądu w dane firmy pochodzące z różnych domen i źródeł. Rozwiązania firmy Dell w zakresie integracji danych pomagają wyeliminować fragmentaryzację analiz oraz problemy z zarządzaniem informacjami, pozwalając personelowi informatycznemu osiągnąć więcej przy mniejszych nakładach pracy. Boomi prosta platforma integracji danych w postaci usługi (IPaaS), która umożliwia wielokierunkową migrację i integrację między środowiskiem lokalnym i chmurą. Rozwiązanie Boomi AtomSphere łączy zewnętrzne dane klientów i wewnętrzne dane z aplikacji użytkowników w kontrolowany sposób, ułatwiając programistom tworzenie aplikacji wykorzystujących wszystkie dostępne zasoby. Dodatkowymi elementami są funkcje zarządzania danymi głównymi (MDM) i interfejsy API, które zapewniają spójną, bardziej zaawansowaną podstawę dalszych analiz niezależnych od pochodzenia danych.
Big Data i analitycznych firm Dell i Intel 7 Zarządzanie danymi skuteczne zarządzanie danymi jest niezbędne do optymalnego przetwarzania transakcji online i przeprowadzania analiz Big Data. Aby sprostać temu wyzwaniu, rozwiązania firmy Dell obsługują tradycyjne relacyjne bazy danych oraz dane ustrukturyzowane, hybrydowe i bez określonej struktury zarówno przechowywane lokalnie, jak i w chmurze. TOAD pakiet narzędzi, które automatyzują programowanie i zarządzanie danymi w celu obniżenia kosztów oraz poprawy produktywności i wydajności przez automatyczne dostosowywanie kodu. Pakiet TOAD jest często stosowany w środowiskach Oracle, SQL Server i IBM podczas tworzenia aplikacji i testowania skalowalności pod obciążeniem. Umożliwia szybkie identyfikowanie i rozwiązywanie problemów na podstawie zalecanych zmian w kodzie SQL, ograniczając ryzyko związane z nowymi wersjami i aktualizacjami. Programy TOAD Data Point i TOAD Intelligence Central ułatwiają również zbieranie niezbędnych danych, łączenie ich, integrację, przygotowywanie, a także opracowywanie zapytań. Foglight to rozwiązanie, które pozwala rozwiązywać problemy z zarządzaniem bazami danych i platformami, zapewniając wgląd w działania IT związane z wirtualizacją i wykorzystaniem zasobów. Dzięki zarządzaniu zarówno chmurą, jak i urządzeniami końcowymi można wyeliminować problemy z wydajnością i dostępnością, poprawić zgodność z warunkami umów SLA i spełnić oczekiwania użytkowników dotyczące baz danych i środowisk analizy o znaczeniu krytycznym. Infrastruktura danych dostępna jest szeroka oferta serwerów, pamięci masowych i gotowych urządzeń do środowisk Big Data i analitycznych. Na podstawowym poziomie systemy Big Data zależą od wydajności obliczeniowej. Dlatego serwery Dell PowerEdge są oparte na wydajnych procesorach Intel Xeon, które zapewniają maksymalną szybkość przetwarzania danych na potrzeby zaawansowanej analizy, przekształcania danych i integracji. Warto również pamiętać, że firma Intel dokonała znacznych inwestycji w spółkę Cloudera w ramach partnerstwa dotyczącego platformy Apache Hadoop. Pozwoliło to opracować precyzyjnie zaprojektowane architektury referencyjne i wstępnie skonfigurowane, dostosowane rozwiązania specjalistyczne. Z myślą o analizie w czasie rzeczywistym urządzenie typu In- Memory obsługuje strumieniowe przesyłanie danych z produktów Cloudera Enterprise i Spark. Choć wiele rozproszonych platform Big Data wykorzystuje wewnętrzną pamięć masową DAS w serwerach, niektórzy klienci używają również systemów NAS i SAN firmy Dell, tworząc współużytkowane, centralne magazyny danych nierzadko w połączeniu z rozwiązaniami sieciowymi Dell. Architektury referencyjne to przetestowane, certyfikowane projekty rozwiązań przeznaczonych do niewielkich, średnich i dużych środowisk analizy danych. Dostępne zasoby techniczne ułatwiają wdrażanie rozwiązań opartych na technologiach firmy Dell, strategicznych partnerów i innych liderów branży. Architektury referencyjne obejmują wszystkie składniki sprzętowe i programowanie niezbędne do ograniczenia kosztów, zapewnienia łatwej obsługi i skalowania rozwiązań w kompletnym środowisku Big Data. Opracowane rozwiązania łączą w sobie składniki kompletnych środowisk analizy danych w postaci gotowych urządzeń, które można łatwo zamawiać i wdrażać w firmie. Wiedza specjalistyczna sprawdzone rozwiązania i doświadczone zespoły ds. usług specjalistycznych ograniczają ryzyko dotyczące opóźnień, dodatkowych kosztów i niespodziewanych rozczarowań. Zarówno pracownicy ds. usług firmy Dell, jak i partnerzy handlowi w tym odsprzedawcy, konsultanci, usługodawcy i integratorzy systemów dysponują wiedzą i doświadczeniem, które pozwalają odnieść sukces dzięki sprawdzonym sposobom postępowania. Ekosystem firmy Dell Firma Dell zdaje sobie sprawę, że jest częścią większego ekosystemu, w związku z czym nawiązała bliskie relacje partnerskie z czołowymi dostawcami, integratorami systemów i usługodawcami. Pozwala to na skuteczną integrację rozwiązań i dostęp do lepszych usług, które umożliwiają klientom pomyślne przeprowadzenie wdrożenia. Jak już wspomniano, usługi specjalistyczne firmy Dell i jej partnerów obejmują również dokładne wskazówki i możliwość pełnego przejęcia odpowiedzialności za gotowe, hostowane lub zarządzane rozwiązania zgodne z wymaganiami dotyczącymi działalności.
Big Data i analitycznych firm Dell i Intel 8 Dodatkowe korzyści zapewniają relacje partnerskie z takimi dostawcami, jak firmy Cloudera i Intel. Przykładowo procesory Intel Xeon są dostosowane do konkretnych wymagań dotyczących platformy Cloudera Hadoop i sprzętu firmy Dell. Warto również wspomnieć o współpracy z firmami Microsoft, SAP i Oracle, która zapewnia dodatkowe korzyści w ramach wspólnego opracowywania produktów, architektur referencyjnych i pakietów specjalistycznych urządzeń, które pozwalają zoptymalizować wydajność systemów In-Memory, przenieść zadania ETL do hurtowni danych i obsługiwać inne typowe zastosowania. Większa efektywność operacyjna Podejście oparte na integracji i współdziałaniu elementów kompletnej platformy Big Data i analiz prowadzi do istotnych korzyści. Niektórzy klienci oczekują nie tylko rzetelnego wglądu w dane biznesowe, ale także poprawy efektywności operacyjnej w środowisku. Aby przyspieszyć działanie obecnych hurtowni danych i infrastruktury, można uzupełnić je o rozwiązania firmy Dell zapewniające dodatkowe funkcje. Doskonałym przykładem jest rozwiązanie firmy Dell do optymalizacji hurtowni danych za pomocą odciążania operacji ETL. Hurtownie danych dają znakomite możliwości optymalizacji przez przeniesienie analizy danych bez określonej struktury i operacji ETL poza bardzo kosztowne systemy tradycyjne. Zapewnia to większą elastyczność i lepsze możliwości dostosowania, a ponadto pozwala przyspieszyć obsługę raportów w celu wykorzystywania zasobów hurtowni danych zgodnie z przeznaczeniem bez konieczności obsługi nowych obciążeń roboczych związanych z analizą Big Data. Wysokie koszty licencji, sprzętu i pomocy technicznej związane z tradycyjnymi systemami hurtowni danych, takimi jak Oracle, uzasadniają poszukiwanie technologii, które mogą poprawić wydajność bez niepotrzebnej rozbudowy środowiska. W przypadku klientów, którzy zamierzają od postaw wdrożyć systemu Big Data i platformę analizy w celu wykorzystania nowych możliwości, firma Dell może wskazać potencjalne korzyści z tych technologii i sposoby połączenia ich z dotychczasowym środowiskiem. Jak już wspomniano, firma Dell dysponuje dużą liczbą architektur referencyjnych i opracowanych rozwiązań do środowisk Cloudera Hadoop, SAP HANA, Microsoft SQL Server i innych popularnych systemów. Architektury te można wdrożyć w niezmienionej postaci lub dostosować do konkretnych wymagań biznesowych i informatycznych, co pozwala szybciej uzyskiwać korzyści niż w przypadku platformy zbudowanej od podstaw. Większa prawda Nie istnieje jeden, optymalny sposób wdrożenia środowiska Big Data lub analizy, zwłaszcza w obliczu dużej liczby nowych technologii, które pojawiły się w ciągu ostatnich 10 lat. Każda organizacja ma inne cele, wątpliwości, infrastruktury i aplikacje, a ilość dostępnych zasobów jest zawsze ograniczona. Znalezienie właściwego podejścia jest kwestią wyboru odpowiedniej strategii, jako że dostępna wiedza jeszcze nie została ustalona w postaci uniwersalnych zasad. Niektórzy klienci mogą zdecydować się na wdrożenie własnej platformy na opartej na podstawowych elementach składowych, poświęcając czas i środki na integrację wszystkich komponentów sprzętowych i programowych. Inne firmy mogą wybrać drogę na skróty, opierając nowe rozwiązanie na dotychczasowych zasobach. Najważniejszą sprawą jest skupienie się na możliwościach oferowanych przez nowy system Big Data i korzyściach dla firmy, instytucji naukowej lub agencji rządowej. Celem tych rozwiązań jest poprawa efektywności operacyjnej i uzyskanie dostępu do rzetelnych danych. Rozwiązania Big Data i analityczne umożliwiają stopniowe lub szybkie przekształcenie działalności oraz znalezienie nowych możliwości mimo braku zasobów, pracowników lub środków finansowych. Każdy etap procesu wymaga starannego planowania, ale współpraca z odpowiednim partnerem pozwala uniknąć ryzyka i szybciej zrealizować projekt. Firma Dell może być takim partnerem, umożliwiając wykorzystanie i ujednolicenie wszystkich danych, szybką i skuteczną analizę, a nawet dalszą optymalizację tych działań.
20 Asylum Street Milford, MA 01757 Tel.: 508.482.0188 Faks: 508.482.0218 www.esg-global.com