Kod szkolenia: Tytuł szkolenia: HADOOP Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family Dni: 5 Partner merytoryczny Opis: Adresaci szkolenia: Szkolenie jest adresowane do programistów, architektów oraz administratorów aplikacji, którzy chcą tworzyć lub utrzymywać systemy, w których wolumen przetwarzanych danych ma najwyższy priorytet i przekracza możliwości tradycyjnych architektur i systemów takich jak relacyjne bazy danych czy nawet hurtownie danych. Szkolenie jest także kierowane do osób, które chcą uzupełnić swoją wiedzę o pojęcia związane z Big Data, MapReduce, NoSQL oraz ich realizacją z wykorzystaniem oprogramowania Apache Hadoop & Family. Cel szkolenia: Uczestnicy szkolenia zdobędą przekrojową wiedzę dotyczącą takich pojęć jak algorytm MapReduce, poznają założenia Big Data, BigTable, rozproszone systemy plikowe DFS, bazy danych typu NoSQL. Dzięki temu będą mogli wybrać właściwy zestaw narzędzi i technik dla swoich projektów. Szkolenie, poza ogólnym wprowadzeniem do pojęć teoretycznych, skupia się na stosie produktowym wybudowanym wokół Apache Hadoop. Mocne strony szkolenia: Program obejmuje zarówno ogólne wprowadzenie w tematykę Big Data jak i całościowe przedstawienie stosu produktowego wokół Apache Hadoop. Szkolenie jest unikalne, gdyż tematyka poruszana w jego trakcie nie jest wyczerpująco ujęta w dostępnej literaturze, a wiedza na ten temat jest mocno rozproszona. Program jest ciągle uaktualniany ze względu na szybki rozwój rozwiązań, których dotyczy szkolenie. Wymagania: Od uczestników wymagana jest podstawowa znajomość baz danych, podstawowa umiejętność programowania w języku Java.
Parametry szkolenia: 5*8 godzin (5*7 netto) wykładów i warsztatów, z wyraźną przewagą warsztatów. W trakcie warsztatów, oprócz prostych ćwiczeń, uczestnicy rozwiązują problemy przetwarzania danych implementując własne algorytmy z wykorzystaniem paradygmatu MapReduce, modelują struktury danych bazy NoSQL, wykonują podstawowe czynności administracyjne. Wielkość grupy: maks. 8-10 osób Program szkolenia: 1. Wstęp I. Czym jest Big Data, BigTable, BigQuery, MapReduce II. Paradygmat MapReduce w szczegółach III. MapReduce a inne paradygmaty przetwarzania rozproszonego np.: MPI, PVM etc. IV. Przegląd Apache Hadoop & Family 2. Apache Hadoop I. Architektura II. Hadoop 1.0 vs 2.0 III. Hadoop Shell Commands IV. Apache Hadoop Distributed File System (HDFS) i. Architektura, NameNodes, DataNodes ii. Federacja I klastrowanie iii. Uprawnienia i atrybuty plików iv. Snapshoty v. WebHDFS, HttpFS, FUSE vi. Porównanie do innych rozproszonych systemów plików V. Apache Hadoop NextGen MapReduce (YARN, MRv2) i. Architektura ResourceManager Scheduler ApplicationsManager JobTracker i TaskTracker ii. YARN shell iii. Hadoop/YARN API iv. YARN REST API v. MapReduce 1.0 vs MapReduce 2.0, kompatybilność API vi. Przykłady z omówieniem VI. Administracja Apache Hadoop i składowymi ii. Demony, piki konfiguracyjne, pliki logów iii. Hadoop On Demand, Hadoop Cluster Setup iv. Administracja HDFS Uprawnienia systemu plików Quota v. Administracja MaReduce
Zarządzanie jobami Scheduling vi. Równoważenie klastra vii. Monitorowanie viii. Narzędzia administracyjne 3. Apache PIG I. Wstęp i. Architektura ii. Tryby pracy iii. Podstawy PigLatin iv. Hadoop/YARN API a PigLatin II. PigLatin w szczegółach i. Słowa kluczowe ii. Typy danych iii. Operatory iv. Funkcje wbudowane i funkcje użytkownika III. Funkcje wbudowane i. Funkcje proste (eval functions) ii. Funkcje do ładowania/zapisu danych iii. Funkcje matematyczne iv. Funkcje do operowania na łańcuchach znakowych v. Funkcje do operowania na dacie i czasie vi. Pozostałe IV. Funkcje użytkownika (UDF) i. Funkcje UDF pisane w Java ii. Funkcje UDF pisane w JavaScript iii. Funkcje UDF pisane w innych językach: Python/Jython/Groovy iv. Piggybank V. Wydajność i. Combiner ii. Multi-Query Execution iii. Reguły optymalizacji wykorzystywane przez Pig iv. Dobre praktyki VI. Testowanie i diagnostyka i. Operatory diagnostyczne ii. Dane statystyczne iii. Testy jednostkowe z wykorzystaniem PigUnit 4. Apache HBase I. Wstęp i. Wprowadzenie do baz danych NoSQL ii. Przyczyna powstania baz chmurowych iii. Spójność, Dostępność, Odporność na partycjonowanie iv. Twierdzenie CAP v. Co różni bazy NoSQL od baz relacyjnych vi. Podstawowe parametry baz NoSQL vii. Klasyfikacja i przegląd baz NoSQL (Cassandra, Hbase, Mongo, Riak,
CouchDB, Tokyo Cabinet, Voldemort, etc.) viii. Unikalne cechy HBase II. Architektura HBase i. Tabele katalogowe ii. Master Servers iii. Regiony i Region Servers III. Model danych i. Model koncepcyjny a fizyczny ii. Przestrzeń nazw iii. Tabela iv. Wiersz v. Kolumna vi. Wersja vii. Cela IV. Wykorzystanie HBase i. HBase API ii. Z poziomu platformy Apache Hadoop i zadań MapReduce iii. Za pomocą API zewnętrznych - REST API, Apache Thrift etc. V. Wydajność i. Optymalizacja odczytów ii. Optymalizacja zapisów iii. Optymalizacja parametrów JVM, sieci, systemu operacyjnego, systemu plików iv. Dobre praktyki VI. Diagnostyka i. Logi ii. Narzędzia VII. Bezpieczeństwo i. Uwierzytelnianie i autoryzacja dostępu ii. Bezpieczeństwo i szyfrowanie danych VIII. Administracja bazą danych HBase ii. Najczęstsze czynności administracyjne (operations manual) iii. Aktualizacja do wyższych wersji iv. Migracja, backupowanie i snapshoty danych v. Dodawanie/usuwanie węzłów do repliki/klastra oraz resynchronizacja vi. Panele administracyjne i monitorujące, narzędzia wspomagające IX. Apache HBase w porównaniu do innych baz danych Apache NoSQL i. Apache Accumulo ii. Apache Cassandra 5. Apache Hive I. Czym jest Hive II. Architektura III. Unikalne cechy Hive IV. HiveCLI V. HiveQL
Powered by TCPDF (www.tcpdf.org) VI. PigLatin vs HiveQL VII. Tabele w Hive VIII. Administracja Hive Hive Metastore HCatalog WebHCat ii. Najczęstsze czynności administracyjne (operations manual) iii. Aktualizacja do wyższych wersji iv. Panele administracyjne i monitorujące, narzędzia wspomagające 6. Apache Avro I. Apache Avro IDL II. Typy danych III. Serializacja i deserializacja IV. Avro RPC 7. Apache Mahout I. Czym jest uczenie maszynowe, eksploracja danych, data mining II. Możliwości Mahout i. Algorytmy klasyfikacji ii. Algorytmy grupowania iii. Algorytmy ewolucyjne i genetyczne iv. Redukcja wymiarów v. Pozostałe III. Instalacja i podstawowa konfiguracja IV. Zastosowanie Apache Mahout w powiązaniu z Apache Hadoop V. Przykłady z omówieniem 8. Tworzenie aplikacji przetwarzania danych I. Apache Oozie i. Akcje MapReduce ii. Akcje Pgi iii. Akcje Hive iv. Akcje Subworkflow II. Cascading 9. Zarządzanie i monitoring infrastrukturą Apache Hadoop & Family I. Apache ZooKeeper II. Apache Flume III. Apache Ambari 10. Pozostałe I. Apache Storm II. Apache Spark III. Cascalog