Narzędzia i trendy Big Data

Podobne dokumenty

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Hurtownie danych wykład 5

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Wprowadzenie do Hurtowni Danych

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

*Grafomania z. Neo4j. Praktyczne wprowadzenie do grafowej bazy danych.

Hadoop i Spark. Mariusz Rafało

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Definicja. Not Only SQL

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

TOPWEB Microsoft Excel 2013 i PowerBI Przygotowanie danych, analiza i efektowna prezentacja wyników raportów

Z-ID-608b Bazy danych typu Big Data Big Data Databases. Specjalnościowy Obowiązkowy Polski Semestr VI

Koncepcja wirtualnej pracowni GIS w oparciu o oprogramowanie open source

Big Data i 5V Nowe wyzwania w świecie danych Krzysztof Goczyła

NoSQL & relax with CouchDB

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Hbase, Hive i BigSQL

Wprowadzenie do Apache Spark. Jakub Toczek

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

System INTEGRYB jako zintegrowane repozytorium danych umożliwiające zaawansowaną analitykę badawczą

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Tematy prac dyplomowych inżynierskich

Zenoss. Monitorowanie nowoczesnej serwerowni

Bazy danych NoSQL. wprowadzenie. Szymon Francuzik Poznań,

Specjalizacja magisterska Bazy danych

Wprowadzenie do Hurtowni Danych

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Tematy projektów Edycja 2014

Typy przetwarzania. Przetwarzanie zcentralizowane. Przetwarzanie rozproszone

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

AE/ZP-27-16/14. Oprogramowanie do wykonywania kopii zapasowych oraz zarządzania maszynami wirtualnymi

Apache Hadoop framework do pisania aplikacji rozproszonych

Big Data & Analytics

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

Nadzorowanie stanu serwerów i ich wykorzystania przez użytkowników

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Globalne referencje dla idempiere Business Suite

MŁODSZY SPECJALISTA DS. OBSŁUGI KLIENTA Z JĘZYKIEM NIEMIECKIM Miejsce pracy: Piotrków Trybunalski nr ref. DOK/2017

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hadoop : kompletny przewodnik : analiza i przechowywanie danych / Tom White. Gliwice, cop Spis treści

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Bazy danych NoSQL. Szymon Francuzik Poznań,

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Wybrane działy Informatyki Stosowanej

CZY TWOJE ŚRODOWISKO PLIKOWE RÓWNIEŻ ROŚNIE SZYBCIEJ NIŻ BAZODANOWE?

Programowanie Komponentowe WebAPI

Win Admin Replikator Instrukcja Obsługi

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Bazy danych i ich aplikacje

Uniwersytet Mikołaja Kopernika. Wydział Matematyki i Informatyki Wydział Fizyki, Astronomii i Informatyki Stosowanej

Szkolenie wycofane z oferty. Apache Cassandra - modelowanie, wydajność, analiza danych

Ruby on Rails. Supersilnik WWW. Łukasz Włodarczyk

OPIS PRZEDMIOTU ZAMÓWIENIA

010 NOSQL. Prof. dr hab. Marek Wisła

Kurs wybieralny: Zastosowanie technik informatycznych i metod numerycznych w elektronice

Instytut Informatyki Politechniki Warszawskiej

MongoDB. wprowadzenie. dr inż. Paweł Boiński, Politechnika Poznańska

Projektowanie i implementacja wysokowydajnych aplikacji w języku

Analiza internetowa czyli Internet jako hurtownia danych

Nowoczesne zarządzanie pracą serwisu w terenie

Szkolenie: Testowanie wydajności (Performance Testing)

WYKORZYSTANIE I ROZWÓJ WOLNEGO OPROGRAMOWANIA W WOJEWÓDZKIM WĘŹLE INFRASTRUKTURY INFORMACJI PRZESTRZENNEJ

Specjalnościowy Obowiązkowy Polski Semestr 5

PREZENTACJA FUNKCJONALNA SYSTEMU PROPHIX

Przetwarzanie danych w chmurze

Zastosowania narzędzi analitycznych w komunikacji społecznej

SZKOLENIE TWORZENIE SYSTEMÓW

Zaawansowane bazy danych i hurtownie danych Wydział Informatyki Politechnika Białostocka

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

Przykłady zastosowao rozwiązao typu mapserver w Jednostkach Samorządu Terytorialnego

BAZY DANYCH. NIERELACYJNE BAZY DANYCH NoSQL I ASOCJACYJNE STRUKTURY DANYCH. Adrian Horzyk. Akademia Górniczo-Hutnicza

egroupware czy phpgroupware jest też mniej stabilny.

Automatyzacja procesów biznesowych Andrzej Sobecki. ESB Enterprise service bus

Zintegrowana platforma drukowania, skanowania, archiwizowania i obiegu

PROJEKTANT APLIKACJI / DOKUMENTÓW PERSONALIZOWANYCH Miejsce pracy: Piotrków Trybunalski r ref. PA/2017

DOTACJE NA INNOWACJE

Internetowa ogólnopolska baza informatycznych projektów badawczych otwartej innowacji Platforma współpracy SPINACZ 1/46

CouchDB. Michał Nowikowski

PHP: bazy danych, SQL, AJAX i JSON

Przetwarzanie danych w chmurze

Oracle Log Analytics Cloud Service

Wprowadzenie do technologii Business Intelligence i hurtowni danych

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

Inżynieria oprogramowania- Grupa dra inż. Leszka Grocholskiego II UWr 2009/2010. Aleksandra Kloc, Adam Grycner, Mateusz Łyczek. Wasza-fota.

Procesy integracji modeli danych do jednolitej struktury WBD. Tadeusz Chrobak, Krystian Kozioł, Artur Krawczyk, Michał Lupa

System Broker. Wersja 5.1

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

jak zarządzać tysiącem serwerów Piotr Piotrowski Architekt rozwiązań

Wdrożenie technologii procesowej IBM BPM w EFL

Sposób funkcjonowania

Narzędzia analizy przestrzennej wspomagające zarządzanie rybołówstwem morskim w warunkach Wspólnej Polityki Rybackiej

Tworzenie aplikacji bazodanowych

Microsoft System Center Virtual Machine Manager 2012

Transkrypt:

Narzędzia i trendy Big Data 1

Zamiast wstępu Model relacyjny 1970: podwaliny teoretyczne modelu 1980: SQL hype 1990: upowszechnienie standardu i narzędzi Model map-reduce 1995: koncepcja przetwarzania rozproszonego z krokami rozdzielania i scalania komunikatów 2005: koncepcja Map-reduce w Google 2015:...?... A miedzyczasie... kambryjska eksplozja narzędzi Nowe źródła danych uporządkowanych oraz bez zdefiniowanej struktury Narzędzia i techniki używane w IT można użyć do analizowania danych Tani sprzęt odpowiednio zestawiony pozwala zwiększyć wolumen przetwarzanych danych Planowanie nowego projektu nie jest łatwe mnogość rozwiązań Open Source na ratunek 2

Infrastruktura i narzędzia Stos technologii związanych z Big Data Urządzenia fizyczne i przeglądarki Zastosowania i aplikacje Raportowanie i wizualizacja Analiza i analityczne hurtownie danych Narzędzia niskopoziomowe i bazy danych Infrastruktura i bezpieczeństwo P.3

Poziom żółty: infrastruktura i bezpieczeństwo Serwery (sprzęt) Amazon EC2 Umożliwia wynajmowanie komputerów w różnych konfiguracjach (maszyny wirtualne Windows i Linux) Ułatwienia w tworzeniu serwerów Hadoop Istotny autor/właściciel systemu Google App Engine Hosting aplikacji napisanych w Java lub Python Serwis sam dba o rozkładanie obciążenia (dość nietypowe) System opłat może utrudniać realizację projektów Big Data (drogi) Heroku Hosting aplikacji napisanych w Ruby (i innych) Łatwość wdrożeń i więcej możliwości (swobody) niż GAE (dostęp do bazy SQL) Podobnie jak w GAE system opłat może utrudniać realizację projektów Big Data P.4

Poziom żółty: infrastruktura i bezpieczeństwo Systemy plików Apache HDFS Pierwszy Open Source na liście Część wielkiego ekosystemu przetwarzania Big Data Rozproszony system plików o wysokiej dostępności Usługa przechowywania danych tam, gdzie szybkość przetwarzania i rozmiar danych ma istotne znaczenie P.5

Poziom zielony: narzędzia niskopoziomowe i bazy danych Bazy danych Oparte na dokumentach MongoDB - Poszczególne rekordy przypominają obiekty JSON - Automatyczne rozkładanie obciążenia na wiele serwerów - Obsługuje MapReduce, zapytania w JavaScript - Łatwa w obsłudze i utrzymaniu - Idealna na start projektu CouchDB - Obsługuje MapReduce, zapytania nieco trudniejsze - Rozkład obciążenia na wiele serwerów zapewniany dodatkowymi narzędziami Kolumnowe (column-oriented) BigTable (GAE) - Komercyjny produkt Google dostępny w GAE - Bardziej skomplikowana struktura niż większość baz NoSQL (hierarchiczność i wielowymiarowość) - Przeznaczona do obsługi bardzo dużych ilości danych na wielu serwerach dostępnych masowo Kolumnowe cd. Hbase - Odpowiednik BigTable o otwartym kodzie źródłowym - Bardzo dobrze zintegrowana z projektem Hadoop Cassandra - Pierwotnie projekt Facebook a - Początkowo trudny w obsłudze, ale zmienia się to - Łączy model BigTable z modelem klucz-wartość - Duża elastyczność i możliwości za cenę nauki - Zapytania najlepiej tworzyć przez Hadoop niż Thrift Typu klucz-wartość Redis - Może być w całości w RAM (persystencja na dysku) - Bardzo wydajna do momentu stronicowania - Obsługa wielu serwerów na poziomie klienta Riak - Zaprojektowana do środowiska wieloserwerowego - Obsługuje MapReduce - Wsparcie komercyjne P.6

Poziom zielony: narzędzia niskopoziomowe i bazy danych Bazy danych cd. Grafowe Neo4J - Nierelacyjna, rozproszona baza danych z transakcjami - Wybierana kiedy model danych odwzorowuje graf (sieci społecznościowe, grupy zainteresowań, systemy klasyfikacji w biologii) - Wsparcie komercyjne Przestrzenne PostGIS - Baza do przechowywania danych przestrzennych (mapy geograficzne, obiekty trójwymiarowe: budynki, układy atmosferyczne, układy gwiezdne, rozłożenie sieci czujników) - Specjalistyczna nakładka na bazę relacyjną - Podstawa całej rodziny produktów do modelowania danych przestrzennych Grupa MapReduce Hadoop Hive Pig mrjob Odpowiedź Yahoo na MapReduce (Google) Implementacja idei MapReduce Bardzo popularne narzędzie (wiele testów) Dużo narzędzi ułatwiających konfigurację i pracę Programowanie zadań Hadoop za pomocą SQL Określa się transformacje danych wejściowych do tabel relacyjnych (wieloserwerowe środowisko) Specjalny język dla Hadoop Określa się kolejne kroki do wykonania operacji na danych (podejście proceduralne) Wadą jest konieczność nauki kolejnego języka Cascading Oozie, Greenplum P.7

Poziom czerwony: analiza i analityczne hurtownie danych Python + biblioteki R project P.8

Poziom czerwony: analiza i analityczne hurtownie danych Google Spreadsheets P.9

Poziom czerwony: analiza i analityczne hurtownie danych Many Eyes P.10

Poziom czerwony: analiza i analityczne hurtownie danych Tableau Public P.11

Poziom czerwony: analiza i analityczne hurtownie danych Analiza Przetwarzanie i modelowanie R, - Kompletne środowisko statystyczne - Ogrom pakietów rozszerzających możliwości - Nie jest przystosowane do środowiska wieloserwerowego (dane na jednej maszynie) - Idealne do prototpowania Yahoo Pipes - Środowisko graficzne do modelowania zadań przetwarzania danych Lucene/Solr, elasticsearch - Standard przeszukiwania i indeksowania tekstu - Rozbudowane narzędzie z dużymi możliwościami konfiguracji - Zaprojektowane dla środowiska wieloserwerowego - Można integrować wiele źródeł danych (PDF, Word, dane przestrzenne) GeoTools - Zestaw narzędzi do manipulowania danymi przestrzennymi JUNG / TinkerPop - Zestaw narzędzi do analizy i wizualizacji danych struktur sieciowych i grafowych - Zastosowanie w analizie sieci społecznościowych, PageRank, data mining Mechanical Turk - Masowe zadania wymagające udziału człowieka Uczenie maszynowe WEKA, Mahout scikit-learn, PyBrain Elefant, OpenCV Przetwarzanie tekstu (NLP) Natural Language Toolkit (NLTK) BeautifulSoup Awk Integracja z RDBMS Apache Flume Apache Sqoop P.12

Poziom niebieski: raportowanie i wizualizacja R (ggplot2) Python (ipython) P.13

Poziom niebieski: raportowanie i wizualizacja D3.js (Protovis) P.14

Poziom niebieski: raportowanie i wizualizacja Polymaps P.15

Poziom niebieski: raportowanie i wizualizacja Inkscape P.16

Poziom niebieski: raportowanie i wizualizacja Raportowanie i wizualizacja R (lattice, ggplot2) Pakiety graficzne w środowisku R Python Szeroka gama bibliotek oraz wtyczek narzędzi Gnuplot Tworzenie wykresów z linii poleceń (skrypty) Gephi Aplikacja w języku Java do wizualizacji sieci złożonych z węzłów i krawędzi Jeden z twórców projektu zatrudniony w Linkedin GraphViz Narzędzie do wizualizacji sieci z linii poleceń Szerokie możliwości konfiguracji Processing.js / D3.js Biblioteka JavaScript do wizualizacji P.17

Infrastruktura i narzędzia (przypomnienie) Stos technologii związanych z Big Data Urządzenia fizyczne i przeglądarki Zastosowania i aplikacje Raportowanie i wizualizacja Analiza i analityczne hurtownie danych Narzędzia niskopoziomowe i bazy danych Infrastruktura i bezpieczeństwo P.18

Trendy 2015+ Więcej automatyzacji, konsolidacji pakietów Open Source przez firmy komercyjne, większa dojrzałość narzędzi, nowe modele biznesowe Podeście typu point-and-click Udostępnienie możliwości analitycznych szerszym kręgom, szczególnie biznesowym Tzw. self-service Big Data oraz podejście as-a-service Wielowymiarowa analiza, tj. analiza połączonych danych: starych (hurtownie) oraz nowych, agile (dane bez struktury) Zmiana paradygmatu: z: jak analizować dane, na: które dane pojawią się szybciej do analizy Datafication, czyli odkrywanie dzięki technologii nowych procesów, które można poddawać analizie Urządzenia do fitness, piłki nożne i rakiety tenisowe z czujnikami ruchu i położenia Drony monitorujące stany magazynowe i online owy monitoring kupowanych produktów Elektronika samochodowa nowej ery Internet-of-things P.24

DZIĘKUJĘ ZA UWAGĘ P.25