Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Podobne dokumenty
Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Hadoop i Spark. Mariusz Rafało

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Wprowadzenie do Hurtowni Danych

Dni: 2. Partner merytoryczny. Opis: Adresaci szkolenia

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Wprowadzenie do Apache Spark. Jakub Toczek

Szkolenie: Jak mieć więcej czasu na wyciąganie wniosków

Szkolenia SAS Cennik i kalendarz 2017

Nowe podejście do składowania danych

Szkolenie wycofane z oferty. Apache Cassandra - modelowanie, wydajność, analiza danych

Instytut Informatyki Politechniki Warszawskiej

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Rola analityki danych w transformacji cyfrowej firmy

Narzędzia i trendy Big Data

NoSQL & relax with CouchDB

O mnie

TECHNOLOGIE BIG DATA A BEZPIECZEŃSTWO INFORMATYCZNE WE KNOW YOU KNOW. silmine.com

Hbase, Hive i BigSQL

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

Tematy prac dyplomowych inżynierskich

Uniwersytet Łódzki Wydział Matematyki i Informatyki, Katedra Analizy Nieliniowej. Wstęp. Programowanie w Javie 2. mgr inż.

Strumieniowe bazy danych. Piotr i Paweł

Obiektowy model dokumentu. Katedra Mikroelektroniki i Technik Informatycznych

Krótka Historia. Co to jest NetBeans? Historia. NetBeans Platform NetBeans IDE NetBeans Mobility Pack Zintegrowane moduły. Paczki do NetBeans.

Mariusz Dzieciątko. Krótko o sobie / Personal Overview/

Wprowadzenie do Hurtowni Danych

Dariusz Brzeziński. Politechnika Poznańska, Instytut Informatyki

Java w 21 dni / Rogers Cadenhead. Gliwice, cop Spis treści. O autorze 11. Wprowadzenie 13 TYDZIEŃ I JĘZYK JAVA

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

Korporacyjna Magistrala Usług na przykładzie Oracle Service Bus

Czym jest Java? Rozumiana jako środowisko do uruchamiania programów Platforma software owa

Alicja Marszałek Różne rodzaje baz danych

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

EasyInput Wydajniejsza praca użytkownika dzięki integracji SAP z MS Excel

Struktury systemów operacyjnych

Seminarium magisterskie. Mariusz Rafało

Zagadnienia egzaminacyjne AUTOMATYKA I ROBOTYKA. Stacjonarne I-go stopnia TYP STUDIÓW STOPIEŃ STUDIÓW SPECJALNOŚĆ

BigData. Czy zawsze oznacza BigProblem? Artur Górnik, SAP Polska Piotr Zacharek, HP Polska 14 kwietnia, 2015

EasyInput EasyInput wydajniejsza praca użytkownika dzięki integracji SAP z MS Excel. Prezentacja produktu

Podstawy analizy danych numerycznych w języku Python

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Informacje organizacyjne:

Programowanie Komponentowe WebAPI

EXPERIENCE IS THE KING

Wykorzystanie zaawansowanych narzędzi analitycznych w systemach monitorowania cyberbezpieczeństwa

1 Wprowadzenie do J2EE

Programowanie obiektowe

Jak efektywnie pozyskać, przechowywać i wykorzystywać dane

Budowanie aplikacji biznesowych przy użyciu. Presentation Foundation i wzorca MVVM

Modelowanie procesów biznesowych, przepływu pracy oraz reguł biznesowych na przykładzie Drools i jbpm lub Activiti

JAVA EE MODEL APLIKACJI. Waldemar Korłub. Narzędzia i aplikacje Java EE KASK ETI Politechnika Gdańska

IBM Streams MATERIAŁY DYDAKTYCZNE I SZKOLENIOWE NA STUDIA PODYPLOMOWE ORAZ NA SZKOLENIA DYSTRYBUOWANE SĄ BEZPŁATNIE

JBoss: MetaMatrix, Mobicents, Seam, Rools, ESB

Big Data & Analytics

Analiza, projekt i realizacja systemu wspomagania zarządzaniem hotelu. Michał Koczko 4321

Projekt i implementacja narzędzia do analizy modeli spójności F R Y D E R Y K R A C Z Y K K O N R A D S Z A Ł K O W S K I

III Etap konkursu TWOJA FIRMA TWOJA SZANSA NA SUKCES

Bezpieczne miasto. koncepcja i rozwiązania w projekcie Mayday Euro 2012

AE/ZP-27-16/14. Oprogramowanie do wykonywania kopii zapasowych oraz zarządzania maszynami wirtualnymi

Automatyzacja procesów biznesowych Andrzej Sobecki. ESB Enterprise service bus

Szybkość instynktu i rozsądek rozumu$

Programowanie obiektowe zastosowanie języka Java SE

Zarządzanie partycjami

STAR FINANCE Case Study

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Informatyka I. Standard JDBC Programowanie aplikacji bazodanowych w języku Java

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

Typy przetwarzania. Przetwarzanie zcentralizowane. Przetwarzanie rozproszone

Szkolenie wycofane z oferty. Program szkolenia: Enterprise Java Beans 3.0/3.1

Digitize Your Business

Dlaczego my? HARMONOGRAM SZKOLEŃ październik - grudzień ACTION Centrum Edukacyjne. Autoryzowane szkolenia. Promocje

dlibra 3.0 Marcin Heliński

Wykład V. Rzut okiem na języki programowania. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

EasyInput Integracja SAP z MS Excel. Prezentacja produktu

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Rozwiązanie Compuware Data Center - Real User Monitoring

Hurtownia danych szansa na nowe życie (starej idei) Jakub Skuratowicz Technical Sales

Metody replikacji baz danych Oracle pomiędzy ośrodkami przetwarzania danych

Analityka danych publicznych dla diagnoz i prognoz dotyczących osób niepełnosprawnych

Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska

FORMULARZ OFERTY CENOWEJ. Future Processing Sp. z o.o. ul. Bojkowska 37A Gliwice NIP: NIP:

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

Wprowadzenie do projektowania i wykorzystania baz danych Relacje i elementy projektowania baz

Architektury i protokoły dla budowania systemów wiedzy - zadania PCSS w projekcie SYNAT

Wspomaganie pracy w terenie za pomocą technologii BlackBerry MDS. (c) 2008 Grupa SPOT SJ

enxoo properto Kompleksowy system do zarządzania sprzedażą i wynajmem nieruchomości

Projektowanie i implementacja wysokowydajnych aplikacji w języku

Nad rozwojem platformy pracują: Allegro.pl to największa w Polsce platforma e-commerce.

Firebird Alternatywa dla popularnych darmowych systemów bazodanowych MySQL i Postgres

ActiveXperts SMS Messaging Server

<Insert Picture Here> SOA w oparciu o domeny kompetencyjne oraz architekturę referencyjną

Letnia Akademia SUSE. Implementacja nowych rozwiązań open source wszystko, co musisz wiedzieć!

Transkrypt:

Big Data

Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG)

DANE W CZASIE RZECZYWISTYM 3

Tryb analizowania danych 4

Okno analizowania 5

Real-time: Checkpointing

Teoria CAP Partition tolerance Consistency Availability

TECHNOLOGIE REAL-TIME 8

Apache Kafka Platforma służąca do tworzenia i zarządzania strumieniami danych Technologia oparta jest na tzw. brokerach: pojedynczy broker może obsługiwać setki megabajtów danych zapisywanych i odczytywanych w ciągu sekundy Dane w strumieniu mogą być partycjonowane; wówczas różne maszyny obsługują różne elementy strumienia Wszystkie komunikaty są składowane na dysku, przez co platforma jest odporna na zatrzymania pracy i inne awarie 9

Apache Kafka 10

Apache Storm Platforma do strumieniowego przetwarzania danych Może służyć do analityki w czasie rzeczywistym, wykorzystania algorytmów statystycznych a także jako narzędzie ETL Platforma zintegrowana z narzędziem Apache Kafka Obsługuje okna czasowe oparte na datach biznesowych 11

Apache Spark Platforma do przetwarzania danych w dużej skali Obsługuje języki programowania: Java, Scala, Python, R Może pracować w trybie batch lub stream Posiada wiele wbudowanych bibliotek: SQL Data Frame Mlib GraphX Źródło: spark.apache.org

Apache Flink Platforma do obsługi danych w trybie strumieniowym; pracuje w środowisku rozproszonym z wysokim poziomem tolerancji na awarie Flink składa się z kilku narzędzi: DataStream API służące do strumieni, które nie posiadają ograniczeń DataSet API służące do obsługi strumieni statycznych Table API pozwalające na stosowanie składni SQL Biblioteka CEP (Complex Event Processing) Biblioteka Machine Learning Źródło: flink.apache.org

Apache Samoa Platforma służąca rozproszonemu wykonywaniu zadań związanych ze statystyczną obróbką danych Obsługuje najpopularniejsze algorytmy Machine Learning, jako biblioteki Obsługuje automatycznie strumienie danych pochodzące z różnych źródeł (Kafka, Storm, Samza, itp.) Pozwala na tworzenie i wykorzystanie w aplikacjach własnych bibliotek

BATCH VS REAL-TIME 15

Podejście wsadowe vs real-time szerokie Stream Okno analizy krótki wąskie Liczba transakcji duża mała Stream Batch Czas reakcji długi szerokie Liczba transakcji duża mała Stream Batch Okno analizy wąskie Batch 16

WYKORZYSTANIE NARZĘDZI

Action repository Decision rules Decision engine Customer Contact Rules repository Event trigger Batch event trigger Reporting Adaptative learning models Predictive models NRT repository Real time cache Aggregate stream data 360 DCV Scores Context enrichment Rules repository Filtering 360 DCV ODS Batch data repository Context data adapters Parsers repository ETL Metadata IVR CDR WWW Context data CRM Billing Sales Enterprise applications

Action repository Decision rules Decision engine Customer Contact Hive Rules repository Kafka Event trigger Batch event trigger Oozie Reporting Adaptative learning Samoa models Predictive models Mahout Hive NRT repository Cassandra Rules repository Real time cache Spark: streaming mode Filtering Aggregate stream Sqoop data Context enrichment Spark: SQL mode Redis 360 DCV ODS 360 DCV Batch data repository Scores Context data adapters Kafka Cassandra Parsers repository ETL Metadata IVR CDR WWW Context data CRM Billing Sales Enterprise applications

Dziękuję za uwagę