Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Podobne dokumenty
Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Dni: 2. Partner merytoryczny. Opis: Adresaci szkolenia

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Architektura mikroserwisów na platformie Spring IO

Hadoop : kompletny przewodnik : analiza i przechowywanie danych / Tom White. Gliwice, cop Spis treści

Instytut Informatyki Politechniki Warszawskiej

Hbase, Hive i BigSQL

Wprowadzenie do Hurtowni Danych

Narzędzia i trendy Big Data

Podstawy analizy danych numerycznych w języku Python

Hadoop i Spark. Mariusz Rafało

Dni: 3. Opis: Adresaci szkolenia

Modelowanie procesów biznesowych, przepływu pracy i wdrażanie aplikacji w oparciu o Jboss jbpm lub Activiti

Korporacyjna Magistrala Usług na przykładzie Oracle Service Bus

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

Z-ID-608b Bazy danych typu Big Data Big Data Databases. Specjalnościowy Obowiązkowy Polski Semestr VI

Korporacyjna Magistrala Usług na przykładzie Mule ESB

Od uczestników szkolenia wymagana jest umiejętność programowania w języku C oraz podstawowa znajomość obsługi systemu Linux.

Architektura rozproszonych magazynów danych

VMware vsphere 5.5: Install, Configure, Manage

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

Zaawansowane programowanie w języku C++

Szkolenie wycofane z oferty. Apache Cassandra - modelowanie, wydajność, analiza danych

Hurtownie danych wykład 5

VMware View: Desktop Fast Track [v5.1] Dni: 5. Opis: Adresaci szkolenia

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Tworzenie komponentów logiki biznesowej i warstwy dostępu do danych w oparciu o EJB3.0/JPA lub EJB 3.1/JPA2

Od uczestników szkolenia wymagana jest umiejętność programowania w języku C oraz podstawowa znajomość obsługi systemu Windows.

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Informacje organizacyjne:

Dni: 5. Opis: Adresaci szkolenia

VMware vsphere: Automation Fast Track

TECHNOLOGIE BIG DATA A BEZPIECZEŃSTWO INFORMATYCZNE WE KNOW YOU KNOW. silmine.com

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

Zagadnienia egzaminacyjne INFORMATYKA. stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

Zagadnienia egzaminacyjne INFORMATYKA. Stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

Modelowanie procesów biznesowych, przepływu pracy oraz reguł biznesowych na przykładzie Drools i jbpm lub Activiti

Szkolenie: Testowanie wydajności (Performance Testing)

Full Stack JavaScript z Angular i Nest. Dni: 5. Opis: Adresaci szkolenia

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Tytuł szkolenia: Angular 4 - budowanie nowoczesnych i wydajnych aplikacji przeglądarkowych

PAŃSTWOWA WYŻSZA SZKOŁA ZAWODOWA W NOWYM SĄCZU SYLABUS PRZEDMIOTU. Obowiązuje od roku akademickiego: 2011/2012

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

NoSQL & relax with CouchDB

FORMULARZ OFERTY CENOWEJ. Future Processing Sp. z o.o. ul. Bojkowska 37A Gliwice NIP: NIP:

Big Data & Analytics

Dni: 5. Opis: Adresaci szkolenia. Kurs jest przeznaczony dla:

Zajęcia prowadzone przez MCT, auditora wiodącego systemów bezpieczeństwa informacji.

Program szkolenia: REST i Microservices w PHP

Programowanie.NET - kurs zaawansowany

Nasz obecny zespół programistyczny rozbudowujemy o nowe wakaty na takie stanowiska jak:

Rozwiązania bazodanowe EnterpriseDB

Tytuł kursu: Oracle 11g XE Administracja (kompleksowe)

Administratorzy systemów, inżynierowie, konsultanci, którzy wdrażają i zarządzają rozwiązaniami opartymi o serwery HP ProLiant

5 Moduył do wyboru II *[zobacz opis poniżej] 4 Projektowanie i konfiguracja sieci komputerowych Z

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

INŻYNIERIA OPROGRAMOWANIA

Szkolenie autoryzowane. MS Administracja Windows Server Strona szkolenia Terminy szkolenia Rejestracja na szkolenie Promocje

Tematy prac dyplomowych inżynierskich

Wprowadzenie do Apache Spark. Jakub Toczek

Technologie wyszukiwania pełnotekstowego

Opisy efektów kształcenia dla modułu

INFORMATYKA PLAN STUDIÓW NIESTACJONARNYCH. Podstawy programowania Systemy operacyjne

5 Moduył do wyboru II *[zobacz opis poniżej] 4 Projektowanie i konfiguracja sieci komputerowych Z

Rok akademicki: 2012/2013 Kod: ZIE s Punkty ECTS: 3. Poziom studiów: Studia I stopnia Forma i tryb studiów: -

INFORMATYKA. PLAN STUDIÓW NIESTACJONARNYCH 1-go STOPNIA STUDIA ROZPOCZYNAJĄCE SIĘ W ROKU AKADEMICKIM 2016/17. zajęć w grupach A K L S P

Front-end: solidne podstawy. Wszystko, co warto wiedzieć o HTML, CSS, JavaScript i Bootstrap.

Prezentacja specjalności Inżynieria Systemów Informatycznych

Specjalizacja magisterska Bazy danych

Produktywne tworzenie aplikacji webowych z wykorzystaniem Groovy i

Informatyka II stopień (I stopień / II stopień) Ogólno akademicki (ogólno akademicki / praktyczny)

Szkolenie: Budowa aplikacji SOA/BPM na platformie Oracle SOA Suite 11g

INFORMATYKA PLAN STUDIÓW NIESTACJONARNYCH (W UKŁADZIE ROCZNYM) STUDIA ROZPOCZYNAJĄCE SIĘ W ROKU AKADEMICKIM

Szkolenie: JMeter w praktyce

Implementing HP Rack and Tower & HP BladeSystem Server Solutions

PRZEWODNIK PO PRZEDMIOCIE

Wprowadzenie do NoSql. Maksymilian Wiesiołek

CZY TWOJE ŚRODOWISKO PLIKOWE RÓWNIEŻ ROŚNIE SZYBCIEJ NIŻ BAZODANOWE?

Dni: 3. Opis: Adresaci szkolenia

Bazy danych NoSQL. wprowadzenie. Szymon Francuzik Poznań,

Apache Hadoop framework do pisania aplikacji rozproszonych

PROGRAM STUDIÓW WYŻSZYCH ROZPOCZYNAJĄCYCH SIĘ W ROKU AKADEMICKIM 2010/2011. Wydział Matematyczno-Fizyczno-Techniczny

Projektowanie, tworzenie aplikacji mobilnych na platformie Android

HP Matrix Operating Environment Foundations

Górnośląska Wyższa Szkoła Pedagogiczna imienia Kardynała Augusta Hlonda - pedagogika, studia, studia podyplomowe, Śląsk, Katowice UTW Mysłowice

ZAPYTANIE OFERTOWE. Ilość godzin szkoleniowych

INFORMATYKA. PLAN STUDIÓW NIESTACJONARNYCH 1-go STOPNIA STUDIA ROZPOCZYNAJĄCE SIĘ W ROKU AKADEMICKIM 2015/16. zajęć w grupach A K L S P

Architektura systemów webowych wysokiej przepustowości. na przykładzie Wikia

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Analiza danych tekstowych i języka naturalnego

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Definicja. Not Only SQL

INFORMATYKA. PLAN STUDIÓW STACJONARNYCH 1-go STOPNIA (W UKŁADZIE SEMESTRALNYM) STUDIA ROZPOCZYNAJĄCE SIĘ W ROKU AKADEMICKIM A K L S P

Programowanie w Javie nazwa przedmiotu SYLABUS A. Informacje ogólne

INŻYNIERIA OPROGRAMOWANIA

Dzięki szkoleniu. Dni: 3. Opis: Adresaci szkolenia

INFORMATYKA. PLAN STUDIÓW NIESTACJONARNYCH INŻYNIERSKICH 1-go STOPNIA STUDIA ROZPOCZYNAJĄCE SIĘ W ROKU AKADEMICKIM 2018/19.

PRZEWODNIK PO PRZEDMIOCIE

Transkrypt:

Kod szkolenia: Tytuł szkolenia: HADOOP Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family Dni: 5 Partner merytoryczny Opis: Adresaci szkolenia: Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji, którzy chcą tworzyć lub utrzymywać systemy, w których wolumen przetwarzanych danych ma najwyższy priorytet i przekracza możliwości tradycyjnych architektur i systemów takich jak relacyjne bazy danych czy nawet hurtownie danych. Szkolenie jest także kierowane do osób, które chcą uzupełnić swoją wiedzę o pojęcia związane z Big Data, MapReduce, NoSQL oraz ich realizacją z wykorzystaniem oprogramowania Apache Hadoop & Family. Cel szkolenia: Uczestnicy szkolenia zdobędą przekrojową wiedzę dotyczącą takich pojęć jak algorytm MapReduce, poznają założenia Big Data, BigTable, rozproszone systemy plikowe DFS, bazy danych typu NoSQL. Dzięki temu będą mogli wybrać właściwy zestaw narzędzi i technik dla swoich projektów. Szkolenie, poza ogólnym wprowadzeniem do pojęć teoretycznych, skupia się na stosie produktowym wybudowanym wokół Apache Hadoop. Mocne strony szkolenia: Program obejmuje zarówno ogólne wprowadzenie w tematykę Big Data jak i całościowe przedstawienie stosu produktowego wokół Apache Hadoop. Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest mocno rozproszona. Program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie. Wymagania: Od uczestników wymagana jest podstawowa znajomość baz danych, podstawowa umiejętność programowania w języku Java.

Parametry szkolenia: 5*8 godzin (5*7 netto) wykładów i warsztatów, z wyraźną przewagą warsztatów. W trakcie warsztatów, oprócz prostych ćwiczeń, uczestnicy rozwiązują problemy przetwarzania danych implementując własne algorytmy z wykorzystaniem paradygmatu MapReduce, modelują struktury danych bazy NoSQL, wykonują podstawowe czynności administracyjne. Wielkość grupy: maks. 8-10 osób Program szkolenia: 1. Wstęp I. Czym jest Big Data, BigTable, BigQuery, MapReduce II. Paradygmat MapReduce w szczegółach III. MapReduce a inne paradygmaty przetwarzania rozproszonego np.: MPI, PVM etc. IV. Przegląd Apache Hadoop & Family 2. Apache Hadoop I. Architektura II. Hadoop 1.0 vs 2.0 III. Hadoop Shell Commands IV. Apache Hadoop Distributed File System (HDFS) i. Architektura, NameNodes, DataNodes ii. Federacja I klastrowanie iii. Uprawnienia i atrybuty plików iv. Snapshoty v. WebHDFS, HttpFS, FUSE vi. Porównanie do innych rozproszonych systemów plików V. Apache Hadoop NextGen MapReduce (YARN, MRv2) i. Architektura ResourceManager Scheduler ApplicationsManager JobTracker i TaskTracker ii. YARN shell iii. Hadoop/YARN API iv. YARN REST API v. MapReduce 1.0 vs MapReduce 2.0, kompatybilność API vi. Przykłady z omówieniem VI. Administracja Apache Hadoop i składowymi ii. Demony, piki konfiguracyjne, pliki logów iii. Hadoop On Demand, Hadoop Cluster Setup iv. Administracja HDFS Uprawnienia systemu plików Quota v. Administracja MaReduce

Zarządzanie jobami Scheduling vi. Równoważenie klastra vii. Monitorowanie viii. Narzędzia administracyjne 3. Apache PIG I. Wstęp i. Architektura ii. Tryby pracy iii. Podstawy PigLatin iv. Hadoop/YARN API a PigLatin II. PigLatin w szczegółach i. Słowa kluczowe ii. Typy danych iii. Operatory iv. Funkcje wbudowane i funkcje użytkownika III. Funkcje wbudowane i. Funkcje proste (eval functions) ii. Funkcje do ładowania/zapisu danych iii. Funkcje matematyczne iv. Funkcje do operowania na łańcuchach znakowych v. Funkcje do operowania na dacie i czasie vi. Pozostałe IV. Funkcje użytkownika (UDF) i. Funkcje UDF pisane w Java ii. Funkcje UDF pisane w JavaScript iii. Funkcje UDF pisane w innych językach: Python/Jython/Groovy iv. Piggybank V. Wydajność i. Combiner ii. Multi-Query Execution iii. Reguły optymalizacji wykorzystywane przez Pig iv. Dobre praktyki VI. Testowanie i diagnostyka i. Operatory diagnostyczne ii. Dane statystyczne iii. Testy jednostkowe z wykorzystaniem PigUnit 4. Apache HBase I. Wstęp i. Wprowadzenie do baz danych NoSQL ii. Przyczyna powstania baz chmurowych iii. Spójność, Dostępność, Odporność na partycjonowanie iv. Twierdzenie CAP v. Co różni bazy NoSQL od baz relacyjnych vi. Podstawowe parametry baz NoSQL vii. Klasyfikacja i przegląd baz NoSQL (Cassandra, Hbase, Mongo, Riak,

CouchDB, Tokyo Cabinet, Voldemort, etc.) viii. Unikalne cechy HBase II. Architektura HBase i. Tabele katalogowe ii. Master Servers iii. Regiony i Region Servers III. Model danych i. Model koncepcyjny a fizyczny ii. Przestrzeń nazw iii. Tabela iv. Wiersz v. Kolumna vi. Wersja vii. Cela IV. Wykorzystanie HBase i. HBase API ii. Z poziomu platformy Apache Hadoop i zadań MapReduce iii. Za pomocą API zewnętrznych - REST API, Apache Thrift etc. V. Wydajność i. Optymalizacja odczytów ii. Optymalizacja zapisów iii. Optymalizacja parametrów JVM, sieci, systemu operacyjnego, systemu plików iv. Dobre praktyki VI. Diagnostyka i. Logi ii. Narzędzia VII. Bezpieczeństwo i. Uwierzytelnianie i autoryzacja dostępu ii. Bezpieczeństwo i szyfrowanie danych VIII. Administracja bazą danych HBase ii. Najczęstsze czynności administracyjne (operations manual) iii. Aktualizacja do wyższych wersji iv. Migracja, backupowanie i snapshoty danych v. Dodawanie/usuwanie węzłów do repliki/klastra oraz resynchronizacja vi. Panele administracyjne i monitorujące, narzędzia wspomagające IX. Apache HBase w porównaniu do innych baz danych Apache NoSQL i. Apache Accumulo ii. Apache Cassandra 5. Apache Hive I. Czym jest Hive II. Architektura III. Unikalne cechy Hive IV. HiveCLI V. HiveQL

Powered by TCPDF (www.tcpdf.org) VI. PigLatin vs HiveQL VII. Tabele w Hive VIII. Administracja Hive Hive Metastore HCatalog WebHCat ii. Najczęstsze czynności administracyjne (operations manual) iii. Aktualizacja do wyższych wersji iv. Panele administracyjne i monitorujące, narzędzia wspomagające 6. Apache Avro I. Apache Avro IDL II. Typy danych III. Serializacja i deserializacja IV. Avro RPC 7. Apache Mahout I. Czym jest uczenie maszynowe, eksploracja danych, data mining II. Możliwości Mahout i. Algorytmy klasyfikacji ii. Algorytmy grupowania iii. Algorytmy ewolucyjne i genetyczne iv. Redukcja wymiarów v. Pozostałe III. Instalacja i podstawowa konfiguracja IV. Zastosowanie Apache Mahout w powiązaniu z Apache Hadoop V. Przykłady z omówieniem 8. Tworzenie aplikacji przetwarzania danych I. Apache Oozie i. Akcje MapReduce ii. Akcje Pgi iii. Akcje Hive iv. Akcje Subworkflow II. Cascading 9. Zarządzanie i monitoring infrastrukturą Apache Hadoop & Family I. Apache ZooKeeper II. Apache Flume III. Apache Ambari 10. Pozostałe I. Apache Storm II. Apache Spark III. Cascalog