Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Podobne dokumenty
Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Dni: 2. Partner merytoryczny. Opis: Adresaci szkolenia

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Wprowadzenie do Apache Spark. Jakub Toczek

Hadoop : kompletny przewodnik : analiza i przechowywanie danych / Tom White. Gliwice, cop Spis treści

Hbase, Hive i BigSQL

Wprowadzenie do Hurtowni Danych

Podstawy analizy danych numerycznych w języku Python

Modelowanie procesów biznesowych, przepływu pracy i wdrażanie aplikacji w oparciu o Jboss jbpm lub Activiti

Architektura mikroserwisów na platformie Spring IO

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

Z-ID-608b Bazy danych typu Big Data Big Data Databases. Specjalnościowy Obowiązkowy Polski Semestr VI

Hadoop i Spark. Mariusz Rafało

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

Instytut Informatyki Politechniki Warszawskiej

Szkolenie wycofane z oferty. Apache Cassandra - modelowanie, wydajność, analiza danych

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Dni: 3. Opis: Adresaci szkolenia

Od uczestników szkolenia wymagana jest umiejętność programowania w języku C oraz podstawowa znajomość obsługi systemu Windows.

Architektura rozproszonych magazynów danych

Korporacyjna Magistrala Usług na przykładzie Mule ESB

Korporacyjna Magistrala Usług na przykładzie Oracle Service Bus

Od uczestników szkolenia wymagana jest umiejętność programowania w języku C oraz podstawowa znajomość obsługi systemu Linux.

Tworzenie komponentów logiki biznesowej i warstwy dostępu do danych w oparciu o EJB3.0/JPA lub EJB 3.1/JPA2

Hurtownie danych wykład 5

Narzędzia i trendy Big Data

Technologie wyszukiwania pełnotekstowego

Zaawansowane programowanie w języku C++

Zajęcia prowadzone przez MCT, auditora wiodącego systemów bezpieczeństwa informacji.

NoSQL & relax with CouchDB

Modelowanie procesów biznesowych, przepływu pracy oraz reguł biznesowych na przykładzie Drools i jbpm lub Activiti

VMware vsphere 5.5: Install, Configure, Manage

VMware View: Desktop Fast Track [v5.1] Dni: 5. Opis: Adresaci szkolenia

Dni: 5. Opis: Adresaci szkolenia

Projektowanie, tworzenie aplikacji mobilnych na platformie Android

Tytuł szkolenia: Angular 4 - budowanie nowoczesnych i wydajnych aplikacji przeglądarkowych

VMware vsphere: Automation Fast Track

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

Informacje organizacyjne:

Spis treści. Przedmowa

Zagadnienia egzaminacyjne INFORMATYKA. Stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

Podyplomowe Studium Informatyki w Bizniesie Wydział Matematyki i Informatyki, Uniwersytet Łódzki specjalność: Tworzenie aplikacji w środowisku Oracle

INFORMATYKA PLAN STUDIÓW NIESTACJONARNYCH. Podstawy programowania Systemy operacyjne

Programowanie w Javie nazwa przedmiotu SYLABUS A. Informacje ogólne

ZAPYTANIE OFERTOWE. Ilość godzin szkoleniowych

TECHNOLOGIE BIG DATA A BEZPIECZEŃSTWO INFORMATYCZNE WE KNOW YOU KNOW. silmine.com

Tytuł kursu: Oracle 11g XE Administracja (kompleksowe)

INFORMATYKA PLAN STUDIÓW NIESTACJONARNYCH (W UKŁADZIE ROCZNYM) STUDIA ROZPOCZYNAJĄCE SIĘ W ROKU AKADEMICKIM

Zagadnienia egzaminacyjne INFORMATYKA. stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

FORMULARZ OFERTY CENOWEJ. Future Processing Sp. z o.o. ul. Bojkowska 37A Gliwice NIP: NIP:

INFORMATYKA. PLAN STUDIÓW NIESTACJONARNYCH 1-go STOPNIA STUDIA ROZPOCZYNAJĄCE SIĘ W ROKU AKADEMICKIM 2015/16. zajęć w grupach A K L S P

Dni: 3. Opis: Adresaci szkolenia

Dni: 5. Opis: Adresaci szkolenia. Kurs jest przeznaczony dla:

Aplikacje webowe z wykorzystaniem Node.js oraz Express

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

INŻYNIERIA OPROGRAMOWANIA

Efektywne tworzenie aplikacji webowych z wykorzystaniem AngularJS, HTML5 i JavaScript

Projektowanie i implementacja wysokowydajnych aplikacji w języku

PRZEWODNIK PO PRZEDMIOCIE

Big Data & Analytics

INFORMATYKA. PLAN STUDIÓW NIESTACJONARNYCH 1-go STOPNIA STUDIA ROZPOCZYNAJĄCE SIĘ W ROKU AKADEMICKIM 2016/17. zajęć w grupach A K L S P

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

Certified IT Manager Training (CITM ) Dni: 3. Opis:

Szkolenie: Budowa aplikacji SOA/BPM na platformie Oracle SOA Suite 11g

PAŃSTWOWA WYŻSZA SZKOŁA ZAWODOWA W NOWYM SĄCZU SYLABUS PRZEDMIOTU. Obowiązuje od roku akademickiego: 2011/2012

PROGRAM STUDIÓW WYŻSZYCH ROZPOCZYNAJĄCYCH SIĘ W ROKU AKADEMICKIM 2010/2011. Wydział Matematyczno-Fizyczno-Techniczny

Bazy danych - ciągłość działania, spójność danych i disaster recovery. Daniel Polek-Pawlak Jarosław Zdebik

Górnośląska Wyższa Szkoła Pedagogiczna imienia Kardynała Augusta Hlonda - pedagogika, studia, studia podyplomowe, Śląsk, Katowice UTW Mysłowice

Apache Hadoop framework do pisania aplikacji rozproszonych

KARTA KURSU. Systemy operacyjne

Grupy pytań na egzamin magisterski na kierunku Informatyka (dla studentów dziennych studiów II stopnia)

Plan nauczania informatyki Opracował: mgr Daniel Starego

INFORMATYKA. PLAN STUDIÓW NIESTACJONARNYCH INŻYNIERSKICH 1-go STOPNIA STUDIA ROZPOCZYNAJĄCE SIĘ W ROKU AKADEMICKIM 2018/19.

Piotr Bubacz Cloud Computing

R i ekosystem Hadoop

INFORMATYKA. PLAN STUDIÓW STACJONARNYCH 1-go STOPNIA (W UKŁADZIE SEMESTRALNYM) STUDIA ROZPOCZYNAJĄCE SIĘ W ROKU AKADEMICKIM A K L S P

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Program szkolenia: REST i Microservices w PHP

Dzięki szkoleniu. Dni: 3. Opis: Adresaci szkolenia

Zaawansowane bazy danych i hurtownie danych Wydział Informatyki Politechnika Białostocka

Nasz obecny zespół programistyczny rozbudowujemy o nowe wakaty na takie stanowiska jak:

INFORMATYKA. PLAN STUDIÓW STACJONARNYCH INŻYNIERSKICH 1-go STOPNIA STUDIA ROZPOCZYNAJĄCE SIĘ W ROKU AKADEMICKIM 2018/19.

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

INŻYNIERIA OPROGRAMOWANIA

Od systemu rekrutacji elektronicznej do platformy zarządzania oświatą. Andrzej Bobak, Piotr Grzybowski

Rok akademicki: 2013/2014 Kod: RIA s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: Stacjonarne

PROGRAM STUDIÓW WYŻSZYCH ROZPOCZYNAJĄCYCH SIĘ W ROKU AKADEMICKIM 2010/2011. Wydział Matematyczno-Fizyczno-Techniczny

INFORMATYKA P L AN S T U DIÓW ST AC J O N AR N Y C H ( W UKŁAD Z I E S EMESTR AL N Y M ) Podstawy programowania

Rozwiązania bazodanowe EnterpriseDB

Database Connectivity

Full Stack JavaScript z Angular i Nest. Dni: 5. Opis: Adresaci szkolenia

Tematy prac dyplomowych inżynierskich

Programowanie obiektowe

Opis efektów kształcenia dla modułu zajęć

4 Web Forms i ASP.NET Web Forms Programowanie Web Forms Możliwości Web Forms Przetwarzanie Web Forms...152

Transkrypt:

Kod szkolenia: Tytuł szkolenia: HADOOP Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family Dni: 5 Opis: Adresaci szkolenia: Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji, którzy chcą tworzyć lub utrzymywać systemy, w których wolumen przetwarzanych danych ma najwyższy priorytet i przekracza możliwości tradycyjnych architektur i systemów takich jak relacyjne bazy danych czy nawet hurtownie danych. Szkolenie jest także kierowane do osób, które chcą uzupełnić swoją wiedzę o pojęcia związane z Big Data, MapReduce, NoSQL oraz ich realizacją z wykorzystaniem oprogramowania Apache Hadoop & Family. Cel szkolenia: Uczestnicy szkolenia zdobędą przekrojową wiedzę dotyczącą takich pojęć jak algorytm MapReduce, poznają założenia Big Data, BigTable, rozproszone systemy plikowe DFS, bazy danych typu NoSQL. Dzięki temu będą mogli wybrać właściwy zestaw narzędzi i technik dla swoich projektów. Szkolenie, poza ogólnym wprowadzeniem do pojęć teoretycznych, skupia się na stosie produktowym wybudowanym wokół Apache Hadoop. Mocne strony szkolenia: Program obejmuje zarówno ogólne wprowadzenie w tematykę Big Data jak i całościowe przedstawienie stosu produktowego wokół Apache Hadoop. Szkolenie jest unikalne, gdyż

tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest mocno rozproszona. Program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie. Wymagania: Od uczestników wymagana jest podstawowa znajomość baz danych, podstawowa umiejętność programowania w języku Java. Parametry szkolenia: 5*8 godzin (5*7 netto) wykładów i warsztatów, z wyraźną przewagą warsztatów. W trakcie warsztatów, oprócz prostych ćwiczeń, uczestnicy rozwiązują problemy przetwarzania danych implementując własne algorytmy z wykorzystaniem paradygmatu MapReduce, modelują struktury danych bazy NoSQL, wykonują podstawowe czynności administracyjne. Wielkość grupy: maks. 8-10 osób Program szkolenia: 1. Wstęp do BigData I. Definicja II. Czym jest BigData? i. Geneza i historia BigData ii. Strony w projektach BigData III. Problemy BigData IV. Typy przetwarzania BigData i. Wsadowe ii. Strumieniowe V. Dystrybucje Big Data VI. Rozwiązania w chmurze 2. Apache Hadoop I. HDFS i. Wprowadzenie do rozproszonego systemu plików ii. Zarządzanie za pomocą linii komend iii. Dostęp przez WWW iv. Korzystanie za pomocą API v. Importowanie i eksportowanie danych II. MapReduce i. Wprowadzenie do paradygmatu MapReduce ii. Formaty wejścia i wyjścia, tworzenie własnych formatów iii. Wbudowane i własne typy danych iv. Partitioner i Combiner, kiedy i jak używać v. Liczniki danych vi. Konfiguracja zadań za pomocą parametrów vii. Łańcuchy zadań MapReduce viii. Wykorzystanie kompresji dla zmniejszenia liczby danych

ix. Optymalizacja zadań MapReduce III. YARN i. Wprowadzenie ii. Uruchamianie i zarządzanie zadaniami uruchomionymi w oparciu o architekturę YARN 3. Apache Pig II. PigLatin w szczegółach III. Funkcje wbudowane IV. Funkcje użytkownika (UDF) V. Wydajność VI. Testowanie i diagnostyka 4. Apache Hive I. Czym jest Hive II. Architektura III. Unikalne cechy Hive IV. HiveCLI V. HiveQL VI. PigLatin vs HiveQL VII. Tabele w Hive 5. Apache HBase i. Wprowadzenie do baz danych NoSQL ii. Przyczyna powstania baz chmurowych iii. Spójność, Dostępność, Odporność na partycjonowanie iv. Twierdzenie CAP v. Co różni bazy NoSQL od baz relacyjnych vi. Podstawowe parametry baz NoSQL vii. Klasyfikacja i przegląd baz NoSQL viii. Unikalne cechy HBase II. Architektura HBase i. Elementy składowe A. Master Servers B. Regiony i Region Servers C. Zookeeper ii. Zasada działania III. Model danych i. Model koncepcyjny a fizyczny ii. Przestrzeń nazw iii. Tabela iv. Wiersz v. Kolumna vi. Wersja vii. Komórka IV. Wykorzystanie HBase i. HBase API

ii. Z poziomu platformy Apache Hadoop i zadań MapReduce iii. Za pomocą API zewnętrznych - REST API, Apache Thrift etc. iv. Testowanie aplikacji HBase V. Zarządzanie i. Optymalizacja i konfiguracja ii. Dobre praktyki korzystania z bazy iii. Diagnostyka iv. Snapshoty i backup danych v. Podstawowe operacje administracyjne vi. Bezpieczeństwo VI. Apache HBase w porównaniu do innych baz danych NoSQL 6. Apache Spark i. Historia ii. Spark a Hadoop iii. Rozproszone kolekcje obiektów Resilient Distributed Datasets (RDDs) iv. Przetwarzanie w pamięci a z dysku v. Architektura vi. Warianty uruchomienia klastra A. Własny klaster Spark B. Apache Mesos C. Apache YARN II. Spark Core ii. Java vs Spark vs Python iii. RDD vs Dataset vs DataFrame iv. Łączenie z klastrem v. Rozproszone dane vi. Operacje RDD vii. Transformacje viii. Akcje ix. Współdzielone zmienne x. Uruchomienie i testowanie xi. Dostrajanie zadań xii. Serializacja xiii. Pamięć III. Spark SQL ii. Spark SQL a Hive iii. Zasada działania iv. Dane i schematy v. Zapytania vi. Integracja z Hive vii. Uruchomienie i testowanie IV. Spark Streaming

Powered by TCPDF (www.tcpdf.org) ii. Zasada działania iii. Strumienie iv. Wejście v. Transformacja vi. Wyjście vii. Uruchomienie i testowanie V. Spark MLlib ii. Dostępne algorytmy iii. Transformery i estymatory iv. Dostępne transformacje v. Budowa pipeline u vi. Uczenie modeli 7. Apache Kafka I. Wprowadzenie i. Historia ii. Zastosowania iii. Terminologia iv. Porównanie z innymi narzędziami typu producent konsument II. Korzystanie z API i. Wysyłanie wiadomości ii. Odbieranie wiadomości iii. Serializacja iv. Konfiguracja producentów i konsumentów v. Projektowanie rozwiązań w oparciu o Apache Kafka vi. Integracja z Hadoop i Spark III. Zarządzanie i. Instalacja ii. Konfiguracja iii. Replikacja iv. Kompresja danych 8. Apache Oozie I. Akcje HDFS II. Akcje MapReduce III. Akcje Spark IV. Akcje Pig V. Akcje Hive VI. Akcje Subworkflow 9. Zarządzanie i monitoring infrastrukturą Apache Hadoop & Family I. Apache Ambari 10. Przegląd Apache Hadoop & Family