Przetwarzanie i analizowanie dużych ilości danych

Podobne dokumenty
Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Wprowadzenie do Hurtowni Danych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Hadoop i Spark. Mariusz Rafało

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Rola analityki danych w transformacji cyfrowej firmy

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

CZY TWOJE ŚRODOWISKO PLIKOWE RÓWNIEŻ ROŚNIE SZYBCIEJ NIŻ BAZODANOWE?

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Hbase, Hive i BigSQL

Specjalizacja magisterska Bazy danych

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Analityka danych & big data

Hurtownie danych - przegląd technologii

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

Hurtownie danych wykład 5

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

Hurtownie danych. 31 stycznia 2017

Transformacja wiedzy w budowie i eksploatacji maszyn

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

Problemy niezawodnego przetwarzania w systemach zorientowanych na usługi

Wykład I. Wprowadzenie do baz danych

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych

Pojęcie bazy danych. Funkcje i możliwości.

Szybkość instynktu i rozsądek rozumu$

Wprowadzenie do Hurtowni Danych

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Informacje wstępne Autor Zofia Kruczkiewicz Wzorce oprogramowania 4

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

Co to jest Business Intelligence?

Tematy prac dyplomowych inżynierskich

Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Bazy danych i ich aplikacje

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

INŻYNIERIA OPROGRAMOWANIA

MongoDB. wprowadzenie. dr inż. Paweł Boiński, Politechnika Poznańska

Bazy danych 2. Wykład 1

Referat pracy dyplomowej

Przetwarzanie danych w chmurze

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Usługa archiwizacji danych w systemie Eureca. Marek Jelenik CONTROLLING SYSTEMS sp. z o.o.

Wprowadzenie do optymalnego wykorzystania MapReduce

Systemy baz danych i hurtowni danych

Specjalistyczna obsługa klienta

Business Intelligence

Analiza danych i data mining.

Technologia informacyjna (IT - Information Technology) dziedzina wiedzy obejmująca:

Dr inż. Andrzej KAMIŃSKI Instytut Informatyki i Gospodarki Cyfrowej Kolegium Analiz Ekonomicznych Szkoła Główna Handlowa w Warszawie

Mateusz Kurleto NEOTERIC. Analiza projektu B2B Kielce, 18 października 2012

ZSE - Systemy baz danych MODELE BAZ DANYCH. Ewolucja technologii baz danych

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

PRZEDMIOTY REALIZOWANE W RAMACH KIERUNKU INFORMATYKA I STOPNIA STUDIA STACJONARNE

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Alicja Marszałek Różne rodzaje baz danych

SZKOLENIE: Administrator baz danych. Cel szkolenia

Stabilis Smart Factory

Hurtownie danych w praktyce

LITERATURA. C. J. Date; Wprowadzenie do systemów baz danych WNT Warszawa 2000 ( seria Klasyka Informatyki )

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl

Informacja o firmie i oferowanych rozwiązaniach

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Big Data & Analytics

Prezentacja firmy WYDAJNOŚĆ EFEKTYWNOŚĆ SKUTECZNOŚĆ.

Analiza internetowa czyli Internet jako hurtownia danych

Oracle Log Analytics Cloud Service

KIERUNKOWE EFEKTY KSZTAŁCENIA

Sposoby klastrowania aplikacji webowych w oparciu o rozwiązania OpenSource. Piotr Klimek. piko@piko.homelinux.net

Scoring w oparciu o Big Data. 8 kwietnia 2014 roku

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Investing f or Growth

LANDINGI.COM. Case Study. Klient Landingi.com. Branża IT, marketing i PR. Okres realizacji od grudnia 2013 do chwili obecnej.

Pytania z przedmiotów kierunkowych

Efekty kształcenia dla kierunku studiów INFORMATYKA, Absolwent studiów I stopnia kierunku Informatyka WIEDZA

Katalog handlowy e-quality

Jarosław Żeliński analityk biznesowy, projektant systemów

LIDERZY DATA SCIENCE CENTRUM TECHNOLOGII ICM CENTRUM TECHNOLOGII ICM ICM UW TO NAJNOWOCZEŚNIEJSZY OŚRODEK DATA SCIENCE W EUROPIE ŚRODKOWEJ.

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Szkolenie wycofane z oferty. Apache Cassandra - modelowanie, wydajność, analiza danych

Case Study. aplikacji Microsoft Dynamics CRM 4.0. Wdrożenie w firmie Finder S.A.

Rozumie istotę i znacznie procesów ekstrakcji, transformacji i ładowania danych (ETL), zna wybrany język ETL oraz odpowiednie narzędzia.

1. Ewolucja systemów opartych na bazach danych 2. Czym się rożni modelowanie od strukturalizacji danych? Model danych Struktury (danych)

JOPAL MOBILNY HANDLOWIEC

E-logistyka Redakcja naukowa Waldemar Wieczerzycki

Transkrypt:

BUSŁOWSKA Eugenia 1 WIKTORZAK Aneta Anna 2 Przetwarzanie i analizowanie dużych ilości danych WSTĘP Ilość danych codziennie generowanych w zastraszającym tempie wzrasta. W roku 2012 wytworzono 2 zetabajty (tryliony GB) danych. Szacuje się, że do 2020 roku będzie to 35 zetabajtów. Powodem jest coraz łatwiejsze tworzenie i przekazywanie danych poprzez różnego rodzaju aplikacje i urządzenia, telefony komórkowe, inteligentne liczniki energii lub maszyny przemysłowe. Instytucje przetrzymują biliony bajtów informacji o swoich klientach, produktach, dostawcach i wszelkich działaniach biznesowych. Informacja ta jest wartością, którą trzeba umieć obracać by osiągnąć zyski. Podstawą sukcesu każdej instytucji jest, więc możliwość dostępu do właściwych danych we właściwym czasie, ponieważ swoje działania opierają na podstawie analiz zgromadzonych danych. Jeszcze kilka lat temu, poszukując przewagi biznesowej, posługiwano się informacją o działaniu organizacji za pomocą dobrze zorganizowanych procesów biznesowych z wykorzystaniem systemów ERP oraz raportowania operacyjnego. Następnym etapem było wdrażanie systemów Business Intelligence pozwalających na poszukiwanie trendów i analizowanie przyczyn zachodzących wydarzeń na podstawie posiadanych zbiorów danych. Nastąpiła w tym momencie duża ewolucją platform gromadzących dane. Typowe relacyjne modele baz danych zaczęły ustępować hurtowniom danych przeznaczonych specjalnie do celów analitycznych. Powstały również specjalizowane narzędzia analityczne służące do przetwarzaniu informacji w czasie rzeczywistym na potrzeby wspomagania decyzji. W ten sposób zapoczątkowano erę konkurowania analityką (ang. competing on analytics). Dało to możliwość optymalizowania działań np. łańcuchy logistyczne, działania marketingowe lub cenniki usług i produktów. To jednak w dynamicznie zmieniającej się rzeczywistości nie wystarcza. Rozszerza się zakres informacji, wykorzystywanych, na co dzień w procesie podejmowaniu decyzji. Obecnie dane nie pochodzą tylko z własnej instytucji, posiadają określoną strukturę i proces pozyskiwania, ale także są spoza firmy. Przetwarzane są również dane niestrukturalne przechowywane w systemach plików lub innych lokalizacjach poza domeną bazy danych. Mimo tego, że dostęp do tych informacji za pomocą standardowych rozwiązań zarządzania danymi jest utrudniony, stanowią ogromny rezerwuar informacji, zapisanej w bardzo różnych formatach wiadomości e-mail, pliki multimedialne - zdjęcia, grafiki, nagrania audio i wideo. Stają się one po zastosowaniu nowych technologii kluczowym dla sukcesu przedsiębiorstwa, zasobem, który w większości organizacji rośnie w błyskawicznym tempie. Wciąż zwiększające się zbiory danych powodują, że tradycyjne narzędzia, takie jak relacyjne silniki bazodanowe oraz tradycyjne systemy do raportowania przestają mieć rację bytu. Tradycyjne oprogramowanie przestaje być zdolne do zarządzania wielkimi danymi i ustępuje miejsce nowym technologiom. Przyszłość baz danych to NoSQL i technologie Big Data takie jak Hadoop czy MapReduce. Nierelacyjne bazy NoSQL pozwalają magazynować dane dla serwerów aplikacji webowych, systemów CMS, ustrukturyzowanych dzienników zdarzeń, dane z aplikacji mobilnych czy po prostu dokumenty. Nierelacyjne rozwiązanie Hadoop pozwala na rozproszone przetwarzanie dużych zbiorów danych (Big Data) w klastrach skalowalnych do tysięcy komputerów. Uzupełnia go Framework MapReduce pozwalający na budowanie aplikacji do szybkiego przetwarzania równoległego dużych ilości danych w klastrach obliczeniowych. 1 Państwowa Wyższa Szkoła Informatyki i Przedsiębiorczości w Łomży, Instytut Informatyki i Autoamtyki;18-400 Łomża; ul. Akademicka 1, Tel:+48 86 215 59 50, ebuslowska@pwsip.edu.pl 2 Państwowa Wyższa Szkoła Informatyki i Przedsiębiorczości w Łomży, Instytut Informatyki i Autoamtyki;18-400 Łomża; ul. Akademicka 1, Tel:+48 86 215 59 50, awiktorzak@pwsip.edu.pl 2490

1 HURTOWNIE DANYCH Hurtownie danych, to zintegrowane olbrzymie ilości danych, przeznaczone wyłącznie do odczytu, pochodzące z różnych systemów bazodanowych wykorzystywanych w przedsiębiorstwie, jak również z systemów zewnętrznych. Hurtownie danych działają dzięki mechanizmom ETL (ang. Extraction, Transformation, Load - pobieranie, przekształcanie, wczytywanie), które sterują procesem zasilania hurtowni oraz ujednolicania danych (rysunek 1). Zewnętrzne źródło danych Pobieranie, przekształcanie, wczytywanie Repozytorium metadanych Hurtownie danych Wspomaga Data Mining OLAP Rys. 1. Analityczne przetwarzanie danych za pomocą hurtowni danych Hurtownie danych można postrzegać, jako rozbudowaną bazę danych, przechowującą olbrzymią ilość danych dotyczących konkretnego tematu. Dane mogą pochodzić z baz danych działających w oparciu o różne modele (np. relacyjne, relacyjno-obiektowe, obiektowe, multimedialne), a także rozwiązania różnych firm. Dane mogą być z różnych działów w firmie (spraw osobowych, finansowy, sprzedaży, dostaw) i zbierane w czasie. [1] W hurtowniach nie stosuje się typowego dla baz danych modelu transakcyjnego OLTP (ang. On- Line Transactional Processing), w którym miarą wydajności jest liczba transakcji przypadająca na jednostkę czasu. Do hurtowni są kierowane przez analityków zapytania o ważne dla nich wzorce (ang. Patterns), czyli zależności, związki i trendy. Takie działania, nazywane analitycznym działaniem bezpośrednim OLAP (ang. On-Line Analytic Processing) zazwyczaj obejmują bardzo złożone zapytania z jednym lub większą liczbą agregatów. Nie występują zapytania aktualizujące bazę danych, lecz takie, których celem jest analizowanie informacji zgromadzonych w bazie. Zadaniem stosowanej tutaj eksploracji danych (ang. Data Mining) jest wyszukiwanie lub wydobywanie wiedzy z olbrzymiej ilości danych. Analiza wydobytych reguł jest bardzo czasochłonna, aby taka analiza przynosiła rezultaty obarczone jak najmniejszym błędem, hurtownie danych muszą być wyposażone w mechanizmy czyszczenia (ujednolicania) oraz korygowania informacji pochodzących z różnorodnych źródeł zewnętrznych. [2] 2491

2 BAZY NoSQL Systemy informacyjne gromadzą i produkują ogromne ilości danych, których przetwarzanie nierzadko przekracza możliwości obliczeniowe konwencjonalnych technologii. Bazy danych NoSQL (Not only SQL) to nowoczesna technologia zastępująca relacyjne bazy danych, a przy tym zachowująca najwyższą wydajność. Wszędzie tam gdzie krytyczna jest dostępność informacji i wydajność związana z przechowywaniem ogromnych ilości danych wpasowują się rozwiązania bazujące na NoSQL. Zastosowane w nich rozproszenie pomiędzy kilka serwerów pozwala na przechowywanie danych powyżej kilkunastu TB. Częściowa redundancja zapewnia odporność na awarie. [3] Opisując nierelacyjną bazę danych można podać kilka jej głównych cech: auto-sharding - bazy danych NoSQL automatycznie rozkładają dane pomiędzy serwerami, bez konieczności instalacji dodatkowej aplikacji. Serwery mogą być dodawane bądź usuwane z warstwy danych bez żadnych przestojów aplikacji, zdolność do replikacji i rozpraszania danych - umożliwia przechowywanie wielu kopii danych w klastrze, a nawet w centrach danych, aby zapewnić wysoką dostępność i wsparcie odzyskiwania systemu po awarii w przypadku, gdy jeden z serwerów stanie się nieaktywny wybierany jest nowy serwer, obsługa rozproszonych zapytań, słabszy model współbieżności niż ACID (Atomicity, Consistency, Isolation, Durability), np. BASE (ang. Basically Available, Soft state, Eventually consistent), prosty interfejs poziomu wywołania, albo protokół, zintegrowana pamięć podręczna - zmniejsza się liczba zapytań wykonywanych na bazie danych, a sama aplikacja działa szybciej i wydajniej. [4] To, co zdecydowanie odróżnia nierelacyjną bazę od relacyjnej jest brak możliwości zagwarantowania właściwości ACID, charakterystycznej i będącej atutem modelu relacyjnego. Jest to spowodowane rozproszeniem architektury serwerów, co zazwyczaj wiąże się z posiadaniem wielu węzłów w celu osiągnięcia skalowalności i możliwości odzyskiwania danych w momencie zaistnienia sytuacji awaryjnej. W zamian za podejście ACID stosuje się tak zwaną spójność ostateczną. Bardzo dużym atutem podejścia nierelacyjnego jest likwidacja problemu z analizą zgromadzonych danych, dzięki zastosowaniu wbudowanych w bazach NoSQL mechanizmów MapReduce. [5] 3 DANE NIESTRUKTURALNE Powszechnie wykorzystywane dane strukturalne gromadzone w bazach danych, mające ściśle określone treści oraz łatwe do zdefiniowania zasady przechowywania. Nie wszystkie zbiory danych nadają się do przechowywania w formie relacyjnej i do przetwarzania w hurtowniach danych. Obecnie występują dane cechujące się następującymi własnościami: o niejednolitej strukturze, niespójne, więc trudne do wprowadzenia do tabel, pochodzące z wielu źródeł, dużych rozmiarów, dynamiczne. Tego typu dane są określane mianem niestrukturalnych. Dane niestrukturalne zawierają bardzo szeroki zakres informacji, wynikający ze sposobu ich pozyskiwania. Szacuje się, że nawet 80% danych w przedsiębiorstwach może być tworzonych i przechowywanych właśnie w formie niestrukturalnej. Ostatnio odkrytym nowym źródłem danych są informacje pochodzące z różnego rodzaju medii społecznościowych (np. Facebook, Nk.pl, Google+ Twitter, Blip). Są one trudne w analizie, gdyż rzadko zawierają konkretne wartości liczbowe, ale można je badać pod kątem obecności słów kluczowych, częstości wpisów, pojawiania się zapisów związanych z różnymi tematami, konotacji negatywnej lub pozytywnej, a także czasu reakcji na działania w Internecie. Mają 2492

one bardzo duże znaczeniu dla przedsiębiorstw zajmujących się obsługą klienta. Analizując je uzyskuje się pełniejszy obraz oczekiwań i potrzeb klienta, można przykładowo: identyfikować nowych klientów, dostosować ofertę dla klienta, sprawdzić reakcję rynku na nasz produkt, wyceniać produkt na tle innych, szacować ryzyko podejmowanych decyzji biznesowych. 4 DUŻE ILOŚCI DANYCH (BIG DATA) Ciągle napływające masy danych sprawiają, że tradycyjne systemy Business Intelligence stają się za wolne, za mało skalowalne i elastyczne, aby zapewnić firmom poziom wiedzy pozwalający konkurować w skali globalnej. Nowym trendem technologicznym a zarazem antidotum na bolączki z brakiem dostępu do odpowiedniej informacji są modele analityczne oparte o zasady Big Data. Określenie Big Data zostało użyte po raz pierwszy w 2009 r. i odnosi się do technologii i inicjatyw obsługujących ogromne ilości danych do poszukiwania wartości biznesowej, w coraz większych wolumenach danych, dodatkowo zbyt złożonych, by mogły być efektywnie przetworzone przez konwencjonalne technologie. Rys. 2. Diagram Big Data. (źródło: http://hortonworks.com/wp-content/uploads/2012/05/bigdata_diagram.png) Pojęcie Big Data często utożsamia się ze źródłami danych pochodzącymi wyłącznie z Internetu (rysunek 2). Z Big Data mamy do czynienia, gdy wielkość, szybkość i różnorodność danych przekracza konwencjonalne możliwości organizacji w zakresie ich przechowywania i przetwarzania. Dużą grupę danych w Big Data stanowią dane niestrukturalne. Następną grupę są dane archiwalne, które nie są przechowywane w hurtowniach danych ze względu na wysokie koszty. Często te dane są usuwane a mogą być niezbędne w ocenie zachowań klientów, czy zmian w czasie. Kolejną grupa danych w Big Data, są dane generowane maszynowo. Powstają podczas wykonywania transakcji przez Internet, korzystania z aplikacji mobilnych, inteligentnych liczników czy też pochodzą z terminali POS i bankomatów. Sztandarowym narzędziem do Big Data jest obecnie oprogramowanie open source o nazwie Apache Hadoop. Projekt, którego efektem jest Hadoop rozpoczęto w 2005 r. Obecnie technologia ta cieszy się olbrzymim zainteresowaniem i powstały kolejne narzędzia do zarządzania bazami danych 2493

zawierającymi dane niestrukturalne, a do tego o olbrzymich wolumenach. Są to: narzędzia do analizy danych - MapReduce i jego nowa wersja Yarn (platforma programistyczna), system plików o dużej wydajności i nazwie Hadoop Distributed File System (HDFS) oraz Common, czyli zestaw narzędzi programistycznych. Olbrzymią zaletą Hadoop jest operowanie danymi typu NoSQL tak, aby ich przetwarzanie było jak najbardziej efektywne. W efekcie Hadoop umożliwia efektywne przetwarzanie Big Data za pomocą dostępnego sprzętu komputerowego, choćby poprzez łączenie przestrzeni i wydajności standardowych urządzeń dyskowych. W publikacjach i literaturze odnaleźć możemy także dodatkowe określenie równoważne w wielu aspektach z ideą Big Data - jest to High Performance Analytics. 5 TECHNOLOGIA MAP REDUCE Modele analityczne w oparciu o zasady Big Data potrafią dokonywać analizy setek, a nawet tysięcy informacji pochodzących z różnych źródeł i na ich podstawie zaprezentować odpowiednie wnioski. Wprowadzając zasady oparte na technologii Big Data, konieczne stało się przetwarzanie zintegrowanych różnorodnych danych. Aby poradzić sobie z tak dużą ilością różnorodnych danych, należy wybrać najważniejsze z nich, po dokonaniu wyboru, uporządkować i w postaci już gotowej do analizy dostarczyć do typowych narzędzi analitycznych. Ponieważ zapytania muszą być wykonywane szybko, proces ten należy przeprowadzić równolegle na wielu niezależnych węzłach. Do tego celu jest wykorzystywane narzędzie MapReduce. Technologia Map Reduce została opracowana przez firmę Google do przetwarzania równoległego dużych zbiorów danych w klastrach komputerów. Jest również chroniona prawem patentowym. Ideologia została stworzona na potrzeby indeksowania stron internetowych, zastępując w 2004 r. dotychczas stosowany algorytm heurystyczny. Zasada działania polega na równoległym przetwarzaniu ogromnych ilości nieuporządkowanych danych przez klastry obliczeniowe lub komputery. Założeniem paradygmatu MapReduce jest podział problemu na dwa główne etapy nazywane mapowaniem i redukcją. Map jest funkcją dystrybuującą pracę na poszczególne węzły klastra, Reduce jest funkcją konsolidującą i zestawiającą wyniki, co w efekcie pozwala zwrócić proste rozwiązanie. [6] W praktyce przy bardziej złożonych problemach często zachodzi potrzeba łączenia tych etapów w tak zwane łańcuchy. Najkrótszy łańcuch może składać się z jednego mapera. Przy tworzeniu łańcuchów należy pamiętać, że każdy etap redukcji musi być poprzedzony przynajmniej jednym etapem mapowania (rysunek 3). 2494

Rys. 3. Schemat działania systemu (źródło: [7]) Dane w klastrze opartym o paradygmat MapReduce w zdecydowanej większości znajdują się w rozproszonym systemie plików. Rozproszony system plików w połączeniu z MapReduce pozwala na przetwarzanie danych w miejscu ich przechowywania. Dzięki temu rozwiązaniu nie ma potrzeby transferu informacji z maszyn magazynujących dane o małej mocy obliczeniowej do potężnych serwerów. Zamiast przesyłać dane (nieraz kilka terabajtów lub więcej) wysyłany jest program MapReduce o rozmiarach kilku kilobajtów. Zyskiwany jest cenny czas potrzebny na transfer. Ta powoduje, że MapReduce wraz z DFS (Distributed File System) pozwala na osiągnięcie liniowej skalowalności klastra obliczeniowego. [8] WNIOSKI Systemy baz danych na przełomie ostatnich dziesięcioleci znacznie zmieniły swoje struktury. Znalazły zastosowanie w niezliczonej liczbie dziedzin współczesnego życia. Gromadzonych jest coraz więcej danych, które zapisywane są w bazach danych. Dane stały się produktem, którym się obraca i na którym się zarabia. Im więcej danych tym większe zyski można osiągnąć. Na porządku dziennym są już bazy o rozmiarach terabajtów. Zdarza się często, że instytucje pozyskują i przechowują różnego rodzaju dane, których nie potrafią wykorzystać. Sukces biznesowy zależy, więc w dużej mierze od umiejętności przetworzenia posiadanych informacji i dostępie do właściwych danych we właściwym czasie. Jednak duże zbiory nie podlegają łatwej analizie, zwłaszcza zbiory nieusystematyzowane. Firmy, które wzmocnią swoje środowiska analityczne nowymi technologiami będą mogły liczyć na przewagę rynkową. Informacja Pracę wykonano w ramach projektu badawczego Państwowej Wyższej Szkoły Informatyki i Przedsiębiorczości w Łomży: BDS-4/IIiA/10/2013 oraz BDS-5/IIiA/10/2013, finansowanego przez Ministerstwo Nauki i Szkolnictwa Wyższego. Streszczenie Artykuł ma na celu przedstawienie koncepcji przetwarzania i analizowanie dużych ilości danych. Tradycyjne oprogramowanie przestaje być zdolne do zarządzania wielkimi danymi i ustępuje miejsca nowym technologiom. Przyszłość baz danych to nie tylko hurtownie danych ale nierelacyjne bazy danych i technologie Big Data takie jak Hadoop czy MapReduce. Rosnące zapotrzebowanie na złożone operacje analityczne oznacza coraz większą popularność narzędzi BA (Business Analytics). 2495

Processing and analyzing large amounts of data Abstract The purpose of this paper is to present concept of processing and analyzing amount of data. Nowadays new technologies manage great number of data, as the traditional software is not able to accomplish it. The future of data base is not only Data Warehouse, but also NoSQL, Big Data techniques, Hadoop Map and Reduce classes. Increasing need of complex analytical operations leads to dissemination tools Business Analytics. BIBLIOGRAFIA 1. V. Poe, P. Klauer, S. Brobst, Tworzenie hurtowni danych, Wydawnictwo Naukowo-Techniczne, Warszawa 2000. 2. P. Listosz,Oracle Warehouse Builder - inteligencja w projektowaniu hurtowni danych, http://www.ploug.org.pl/plougtki.php?action=read&p=23&a=9 3. Ch. Strauch, NoSQL Databases, http://coitweb.uncc.edu/~xwu/5160/nosqldbs.pdf 4. M. Stonebraker, R. Cattell, 10 Rules for scalable Performance in simple operation Datastores 5. S. Tiwari, Professional NoSQL, Wrox, 2011 6. http://www.mapreduce.org/1005-rick-van-der-lans-sql-mapreduce-advanced-analytics.php 7. S. Ghemawat i J. Dean, MapReduce: Simplied Data Processing on Large Clusters, 2004. Available: http://static.googleusercontent.com/media/research.google.com/en//archive/mapreduceosdi04.pdf. 8. E. Busłowska, Ł. Juźwiuk, Wprowadzenie do optymalnego wykorzystania MapReduce, Logistyka 4/2014, s. 3870-3875 2496