Przetwarzanie i analizowanie dużych ilości danych

Transkrypt

1 BUSŁOWSKA Eugenia 1 WIKTORZAK Aneta Anna 2 Przetwarzanie i analizowanie dużych ilości danych WSTĘP Ilość danych codziennie generowanych w zastraszającym tempie wzrasta. W roku 2012 wytworzono 2 zetabajty (tryliony GB) danych. Szacuje się, że do 2020 roku będzie to 35 zetabajtów. Powodem jest coraz łatwiejsze tworzenie i przekazywanie danych poprzez różnego rodzaju aplikacje i urządzenia, telefony komórkowe, inteligentne liczniki energii lub maszyny przemysłowe. Instytucje przetrzymują biliony bajtów informacji o swoich klientach, produktach, dostawcach i wszelkich działaniach biznesowych. Informacja ta jest wartością, którą trzeba umieć obracać by osiągnąć zyski. Podstawą sukcesu każdej instytucji jest, więc możliwość dostępu do właściwych danych we właściwym czasie, ponieważ swoje działania opierają na podstawie analiz zgromadzonych danych. Jeszcze kilka lat temu, poszukując przewagi biznesowej, posługiwano się informacją o działaniu organizacji za pomocą dobrze zorganizowanych procesów biznesowych z wykorzystaniem systemów ERP oraz raportowania operacyjnego. Następnym etapem było wdrażanie systemów Business Intelligence pozwalających na poszukiwanie trendów i analizowanie przyczyn zachodzących wydarzeń na podstawie posiadanych zbiorów danych. Nastąpiła w tym momencie duża ewolucją platform gromadzących dane. Typowe relacyjne modele baz danych zaczęły ustępować hurtowniom danych przeznaczonych specjalnie do celów analitycznych. Powstały również specjalizowane narzędzia analityczne służące do przetwarzaniu informacji w czasie rzeczywistym na potrzeby wspomagania decyzji. W ten sposób zapoczątkowano erę konkurowania analityką (ang. competing on analytics). Dało to możliwość optymalizowania działań np. łańcuchy logistyczne, działania marketingowe lub cenniki usług i produktów. To jednak w dynamicznie zmieniającej się rzeczywistości nie wystarcza. Rozszerza się zakres informacji, wykorzystywanych, na co dzień w procesie podejmowaniu decyzji. Obecnie dane nie pochodzą tylko z własnej instytucji, posiadają określoną strukturę i proces pozyskiwania, ale także są spoza firmy. Przetwarzane są również dane niestrukturalne przechowywane w systemach plików lub innych lokalizacjach poza domeną bazy danych. Mimo tego, że dostęp do tych informacji za pomocą standardowych rozwiązań zarządzania danymi jest utrudniony, stanowią ogromny rezerwuar informacji, zapisanej w bardzo różnych formatach wiadomości , pliki multimedialne - zdjęcia, grafiki, nagrania audio i wideo. Stają się one po zastosowaniu nowych technologii kluczowym dla sukcesu przedsiębiorstwa, zasobem, który w większości organizacji rośnie w błyskawicznym tempie. Wciąż zwiększające się zbiory danych powodują, że tradycyjne narzędzia, takie jak relacyjne silniki bazodanowe oraz tradycyjne systemy do raportowania przestają mieć rację bytu. Tradycyjne oprogramowanie przestaje być zdolne do zarządzania wielkimi danymi i ustępuje miejsce nowym technologiom. Przyszłość baz danych to NoSQL i technologie Big Data takie jak Hadoop czy MapReduce. Nierelacyjne bazy NoSQL pozwalają magazynować dane dla serwerów aplikacji webowych, systemów CMS, ustrukturyzowanych dzienników zdarzeń, dane z aplikacji mobilnych czy po prostu dokumenty. Nierelacyjne rozwiązanie Hadoop pozwala na rozproszone przetwarzanie dużych zbiorów danych (Big Data) w klastrach skalowalnych do tysięcy komputerów. Uzupełnia go Framework MapReduce pozwalający na budowanie aplikacji do szybkiego przetwarzania równoległego dużych ilości danych w klastrach obliczeniowych. 1 Państwowa Wyższa Szkoła Informatyki i Przedsiębiorczości w Łomży, Instytut Informatyki i Autoamtyki; Łomża; ul. Akademicka 1, Tel: , ebuslowska@pwsip.edu.pl 2 Państwowa Wyższa Szkoła Informatyki i Przedsiębiorczości w Łomży, Instytut Informatyki i Autoamtyki; Łomża; ul. Akademicka 1, Tel: , awiktorzak@pwsip.edu.pl 2490

2 1 HURTOWNIE DANYCH Hurtownie danych, to zintegrowane olbrzymie ilości danych, przeznaczone wyłącznie do odczytu, pochodzące z różnych systemów bazodanowych wykorzystywanych w przedsiębiorstwie, jak również z systemów zewnętrznych. Hurtownie danych działają dzięki mechanizmom ETL (ang. Extraction, Transformation, Load - pobieranie, przekształcanie, wczytywanie), które sterują procesem zasilania hurtowni oraz ujednolicania danych (rysunek 1). Zewnętrzne źródło danych Pobieranie, przekształcanie, wczytywanie Repozytorium metadanych Hurtownie danych Wspomaga Data Mining OLAP Rys. 1. Analityczne przetwarzanie danych za pomocą hurtowni danych Hurtownie danych można postrzegać, jako rozbudowaną bazę danych, przechowującą olbrzymią ilość danych dotyczących konkretnego tematu. Dane mogą pochodzić z baz danych działających w oparciu o różne modele (np. relacyjne, relacyjno-obiektowe, obiektowe, multimedialne), a także rozwiązania różnych firm. Dane mogą być z różnych działów w firmie (spraw osobowych, finansowy, sprzedaży, dostaw) i zbierane w czasie. [1] W hurtowniach nie stosuje się typowego dla baz danych modelu transakcyjnego OLTP (ang. On- Line Transactional Processing), w którym miarą wydajności jest liczba transakcji przypadająca na jednostkę czasu. Do hurtowni są kierowane przez analityków zapytania o ważne dla nich wzorce (ang. Patterns), czyli zależności, związki i trendy. Takie działania, nazywane analitycznym działaniem bezpośrednim OLAP (ang. On-Line Analytic Processing) zazwyczaj obejmują bardzo złożone zapytania z jednym lub większą liczbą agregatów. Nie występują zapytania aktualizujące bazę danych, lecz takie, których celem jest analizowanie informacji zgromadzonych w bazie. Zadaniem stosowanej tutaj eksploracji danych (ang. Data Mining) jest wyszukiwanie lub wydobywanie wiedzy z olbrzymiej ilości danych. Analiza wydobytych reguł jest bardzo czasochłonna, aby taka analiza przynosiła rezultaty obarczone jak najmniejszym błędem, hurtownie danych muszą być wyposażone w mechanizmy czyszczenia (ujednolicania) oraz korygowania informacji pochodzących z różnorodnych źródeł zewnętrznych. [2] 2491

3 2 BAZY NoSQL Systemy informacyjne gromadzą i produkują ogromne ilości danych, których przetwarzanie nierzadko przekracza możliwości obliczeniowe konwencjonalnych technologii. Bazy danych NoSQL (Not only SQL) to nowoczesna technologia zastępująca relacyjne bazy danych, a przy tym zachowująca najwyższą wydajność. Wszędzie tam gdzie krytyczna jest dostępność informacji i wydajność związana z przechowywaniem ogromnych ilości danych wpasowują się rozwiązania bazujące na NoSQL. Zastosowane w nich rozproszenie pomiędzy kilka serwerów pozwala na przechowywanie danych powyżej kilkunastu TB. Częściowa redundancja zapewnia odporność na awarie. [3] Opisując nierelacyjną bazę danych można podać kilka jej głównych cech: auto-sharding - bazy danych NoSQL automatycznie rozkładają dane pomiędzy serwerami, bez konieczności instalacji dodatkowej aplikacji. Serwery mogą być dodawane bądź usuwane z warstwy danych bez żadnych przestojów aplikacji, zdolność do replikacji i rozpraszania danych - umożliwia przechowywanie wielu kopii danych w klastrze, a nawet w centrach danych, aby zapewnić wysoką dostępność i wsparcie odzyskiwania systemu po awarii w przypadku, gdy jeden z serwerów stanie się nieaktywny wybierany jest nowy serwer, obsługa rozproszonych zapytań, słabszy model współbieżności niż ACID (Atomicity, Consistency, Isolation, Durability), np. BASE (ang. Basically Available, Soft state, Eventually consistent), prosty interfejs poziomu wywołania, albo protokół, zintegrowana pamięć podręczna - zmniejsza się liczba zapytań wykonywanych na bazie danych, a sama aplikacja działa szybciej i wydajniej. [4] To, co zdecydowanie odróżnia nierelacyjną bazę od relacyjnej jest brak możliwości zagwarantowania właściwości ACID, charakterystycznej i będącej atutem modelu relacyjnego. Jest to spowodowane rozproszeniem architektury serwerów, co zazwyczaj wiąże się z posiadaniem wielu węzłów w celu osiągnięcia skalowalności i możliwości odzyskiwania danych w momencie zaistnienia sytuacji awaryjnej. W zamian za podejście ACID stosuje się tak zwaną spójność ostateczną. Bardzo dużym atutem podejścia nierelacyjnego jest likwidacja problemu z analizą zgromadzonych danych, dzięki zastosowaniu wbudowanych w bazach NoSQL mechanizmów MapReduce. [5] 3 DANE NIESTRUKTURALNE Powszechnie wykorzystywane dane strukturalne gromadzone w bazach danych, mające ściśle określone treści oraz łatwe do zdefiniowania zasady przechowywania. Nie wszystkie zbiory danych nadają się do przechowywania w formie relacyjnej i do przetwarzania w hurtowniach danych. Obecnie występują dane cechujące się następującymi własnościami: o niejednolitej strukturze, niespójne, więc trudne do wprowadzenia do tabel, pochodzące z wielu źródeł, dużych rozmiarów, dynamiczne. Tego typu dane są określane mianem niestrukturalnych. Dane niestrukturalne zawierają bardzo szeroki zakres informacji, wynikający ze sposobu ich pozyskiwania. Szacuje się, że nawet 80% danych w przedsiębiorstwach może być tworzonych i przechowywanych właśnie w formie niestrukturalnej. Ostatnio odkrytym nowym źródłem danych są informacje pochodzące z różnego rodzaju medii społecznościowych (np. Facebook, Nk.pl, Google+ Twitter, Blip). Są one trudne w analizie, gdyż rzadko zawierają konkretne wartości liczbowe, ale można je badać pod kątem obecności słów kluczowych, częstości wpisów, pojawiania się zapisów związanych z różnymi tematami, konotacji negatywnej lub pozytywnej, a także czasu reakcji na działania w Internecie. Mają 2492

4 one bardzo duże znaczeniu dla przedsiębiorstw zajmujących się obsługą klienta. Analizując je uzyskuje się pełniejszy obraz oczekiwań i potrzeb klienta, można przykładowo: identyfikować nowych klientów, dostosować ofertę dla klienta, sprawdzić reakcję rynku na nasz produkt, wyceniać produkt na tle innych, szacować ryzyko podejmowanych decyzji biznesowych. 4 DUŻE ILOŚCI DANYCH (BIG DATA) Ciągle napływające masy danych sprawiają, że tradycyjne systemy Business Intelligence stają się za wolne, za mało skalowalne i elastyczne, aby zapewnić firmom poziom wiedzy pozwalający konkurować w skali globalnej. Nowym trendem technologicznym a zarazem antidotum na bolączki z brakiem dostępu do odpowiedniej informacji są modele analityczne oparte o zasady Big Data. Określenie Big Data zostało użyte po raz pierwszy w 2009 r. i odnosi się do technologii i inicjatyw obsługujących ogromne ilości danych do poszukiwania wartości biznesowej, w coraz większych wolumenach danych, dodatkowo zbyt złożonych, by mogły być efektywnie przetworzone przez konwencjonalne technologie. Rys. 2. Diagram Big Data. (źródło: Pojęcie Big Data często utożsamia się ze źródłami danych pochodzącymi wyłącznie z Internetu (rysunek 2). Z Big Data mamy do czynienia, gdy wielkość, szybkość i różnorodność danych przekracza konwencjonalne możliwości organizacji w zakresie ich przechowywania i przetwarzania. Dużą grupę danych w Big Data stanowią dane niestrukturalne. Następną grupę są dane archiwalne, które nie są przechowywane w hurtowniach danych ze względu na wysokie koszty. Często te dane są usuwane a mogą być niezbędne w ocenie zachowań klientów, czy zmian w czasie. Kolejną grupa danych w Big Data, są dane generowane maszynowo. Powstają podczas wykonywania transakcji przez Internet, korzystania z aplikacji mobilnych, inteligentnych liczników czy też pochodzą z terminali POS i bankomatów. Sztandarowym narzędziem do Big Data jest obecnie oprogramowanie open source o nazwie Apache Hadoop. Projekt, którego efektem jest Hadoop rozpoczęto w 2005 r. Obecnie technologia ta cieszy się olbrzymim zainteresowaniem i powstały kolejne narzędzia do zarządzania bazami danych 2493

5 zawierającymi dane niestrukturalne, a do tego o olbrzymich wolumenach. Są to: narzędzia do analizy danych - MapReduce i jego nowa wersja Yarn (platforma programistyczna), system plików o dużej wydajności i nazwie Hadoop Distributed File System (HDFS) oraz Common, czyli zestaw narzędzi programistycznych. Olbrzymią zaletą Hadoop jest operowanie danymi typu NoSQL tak, aby ich przetwarzanie było jak najbardziej efektywne. W efekcie Hadoop umożliwia efektywne przetwarzanie Big Data za pomocą dostępnego sprzętu komputerowego, choćby poprzez łączenie przestrzeni i wydajności standardowych urządzeń dyskowych. W publikacjach i literaturze odnaleźć możemy także dodatkowe określenie równoważne w wielu aspektach z ideą Big Data - jest to High Performance Analytics. 5 TECHNOLOGIA MAP REDUCE Modele analityczne w oparciu o zasady Big Data potrafią dokonywać analizy setek, a nawet tysięcy informacji pochodzących z różnych źródeł i na ich podstawie zaprezentować odpowiednie wnioski. Wprowadzając zasady oparte na technologii Big Data, konieczne stało się przetwarzanie zintegrowanych różnorodnych danych. Aby poradzić sobie z tak dużą ilością różnorodnych danych, należy wybrać najważniejsze z nich, po dokonaniu wyboru, uporządkować i w postaci już gotowej do analizy dostarczyć do typowych narzędzi analitycznych. Ponieważ zapytania muszą być wykonywane szybko, proces ten należy przeprowadzić równolegle na wielu niezależnych węzłach. Do tego celu jest wykorzystywane narzędzie MapReduce. Technologia Map Reduce została opracowana przez firmę Google do przetwarzania równoległego dużych zbiorów danych w klastrach komputerów. Jest również chroniona prawem patentowym. Ideologia została stworzona na potrzeby indeksowania stron internetowych, zastępując w 2004 r. dotychczas stosowany algorytm heurystyczny. Zasada działania polega na równoległym przetwarzaniu ogromnych ilości nieuporządkowanych danych przez klastry obliczeniowe lub komputery. Założeniem paradygmatu MapReduce jest podział problemu na dwa główne etapy nazywane mapowaniem i redukcją. Map jest funkcją dystrybuującą pracę na poszczególne węzły klastra, Reduce jest funkcją konsolidującą i zestawiającą wyniki, co w efekcie pozwala zwrócić proste rozwiązanie. [6] W praktyce przy bardziej złożonych problemach często zachodzi potrzeba łączenia tych etapów w tak zwane łańcuchy. Najkrótszy łańcuch może składać się z jednego mapera. Przy tworzeniu łańcuchów należy pamiętać, że każdy etap redukcji musi być poprzedzony przynajmniej jednym etapem mapowania (rysunek 3). 2494

6 Rys. 3. Schemat działania systemu (źródło: [7]) Dane w klastrze opartym o paradygmat MapReduce w zdecydowanej większości znajdują się w rozproszonym systemie plików. Rozproszony system plików w połączeniu z MapReduce pozwala na przetwarzanie danych w miejscu ich przechowywania. Dzięki temu rozwiązaniu nie ma potrzeby transferu informacji z maszyn magazynujących dane o małej mocy obliczeniowej do potężnych serwerów. Zamiast przesyłać dane (nieraz kilka terabajtów lub więcej) wysyłany jest program MapReduce o rozmiarach kilku kilobajtów. Zyskiwany jest cenny czas potrzebny na transfer. Ta powoduje, że MapReduce wraz z DFS (Distributed File System) pozwala na osiągnięcie liniowej skalowalności klastra obliczeniowego. [8] WNIOSKI Systemy baz danych na przełomie ostatnich dziesięcioleci znacznie zmieniły swoje struktury. Znalazły zastosowanie w niezliczonej liczbie dziedzin współczesnego życia. Gromadzonych jest coraz więcej danych, które zapisywane są w bazach danych. Dane stały się produktem, którym się obraca i na którym się zarabia. Im więcej danych tym większe zyski można osiągnąć. Na porządku dziennym są już bazy o rozmiarach terabajtów. Zdarza się często, że instytucje pozyskują i przechowują różnego rodzaju dane, których nie potrafią wykorzystać. Sukces biznesowy zależy, więc w dużej mierze od umiejętności przetworzenia posiadanych informacji i dostępie do właściwych danych we właściwym czasie. Jednak duże zbiory nie podlegają łatwej analizie, zwłaszcza zbiory nieusystematyzowane. Firmy, które wzmocnią swoje środowiska analityczne nowymi technologiami będą mogły liczyć na przewagę rynkową. Informacja Pracę wykonano w ramach projektu badawczego Państwowej Wyższej Szkoły Informatyki i Przedsiębiorczości w Łomży: BDS-4/IIiA/10/2013 oraz BDS-5/IIiA/10/2013, finansowanego przez Ministerstwo Nauki i Szkolnictwa Wyższego. Streszczenie Artykuł ma na celu przedstawienie koncepcji przetwarzania i analizowanie dużych ilości danych. Tradycyjne oprogramowanie przestaje być zdolne do zarządzania wielkimi danymi i ustępuje miejsca nowym technologiom. Przyszłość baz danych to nie tylko hurtownie danych ale nierelacyjne bazy danych i technologie Big Data takie jak Hadoop czy MapReduce. Rosnące zapotrzebowanie na złożone operacje analityczne oznacza coraz większą popularność narzędzi BA (Business Analytics). 2495

7 Processing and analyzing large amounts of data Abstract The purpose of this paper is to present concept of processing and analyzing amount of data. Nowadays new technologies manage great number of data, as the traditional software is not able to accomplish it. The future of data base is not only Data Warehouse, but also NoSQL, Big Data techniques, Hadoop Map and Reduce classes. Increasing need of complex analytical operations leads to dissemination tools Business Analytics. BIBLIOGRAFIA 1. V. Poe, P. Klauer, S. Brobst, Tworzenie hurtowni danych, Wydawnictwo Naukowo-Techniczne, Warszawa P. Listosz,Oracle Warehouse Builder - inteligencja w projektowaniu hurtowni danych, 3. Ch. Strauch, NoSQL Databases, 4. M. Stonebraker, R. Cattell, 10 Rules for scalable Performance in simple operation Datastores 5. S. Tiwari, Professional NoSQL, Wrox, S. Ghemawat i J. Dean, MapReduce: Simplied Data Processing on Large Clusters, Available: 8. E. Busłowska, Ł. Juźwiuk, Wprowadzenie do optymalnego wykorzystania MapReduce, Logistyka 4/2014, s