Informacje organizacyjne:

Podobne dokumenty
Wprowadzenie do Hurtowni Danych

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Hadoop i Spark. Mariusz Rafało

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Wprowadzenie do Apache Spark. Jakub Toczek

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Hbase, Hive i BigSQL

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Hadoop : kompletny przewodnik : analiza i przechowywanie danych / Tom White. Gliwice, cop Spis treści

Dni: 2. Partner merytoryczny. Opis: Adresaci szkolenia

Hurtownie danych wykład 5

Architektura rozproszonych magazynów danych

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

Oracle Log Analytics Cloud Service

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

Narzędzia i trendy Big Data

Szkolenie: Jak mieć więcej czasu na wyciąganie wniosków

Hurtownie danych - przegląd technologii

Wprowadzenie do technologii Business Intelligence i hurtowni danych

*Grafomania z. Neo4j. Praktyczne wprowadzenie do grafowej bazy danych.

Jarosław Kuchta. Administrowanie Systemami Komputerowymi. System plików

Systemy plików FAT, FAT32, NTFS

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

PROGRAM PRAKTYKI ZAWODOWEJ. Technikum Zawód: technik informatyk

1. Instalacja jednostanowiskowa Instalacja sieciowa Instalacja w środowisku rozproszonym Dodatkowe zalecenia...

Baza danych. Baza danych to:

SAS Access to Hadoop, SAS Data Loader for Hadoop Integracja środowisk SAS i Hadoop. Piotr Borowik

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1.

Definicja. Not Only SQL

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Partition Wizard Home Edition Aplikacja przeznaczona do partycjonowania dysków twardych, obsługująca również macierze RAID oraz dyski o pojemności

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Program szkolenia KURS SPD i PD Administrator szkolnej pracowni internetowej Kurs MD1 Kurs MD2 Kurs MD3 (dla szkół ponadgimnazjalnych)

MongoDB. wprowadzenie. dr inż. Paweł Boiński, Politechnika Poznańska

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Seminarium Bazy Danych I. BigTable. Piotr Świgoń Uniwersytet Warszawski

dziennik Instrukcja obsługi

ActiveXperts SMS Messaging Server

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Co to jest GASTRONOMIA?

Specjalizacja magisterska Bazy danych

System Kancelaris. Zdalny dostęp do danych

AE/ZP-27-16/14. Oprogramowanie do wykonywania kopii zapasowych oraz zarządzania maszynami wirtualnymi

ZAŁĄCZNIK NR 1.8 do PFU Serwery wraz z system do tworzenia kopii zapasowych i archiwizacji danych - wyposażenie serwerowni

Liczba godzin 1,2 Organizacja zajęć Omówienie programu nauczania 2. Tematyka zajęć

1 Implementowanie i konfigurowanie infrastruktury wdraŝania systemu Windows... 1

Bazy danych - ciągłość działania, spójność danych i disaster recovery. Daniel Polek-Pawlak Jarosław Zdebik

Bazy danych - wykład wstępny

Rozwiązania HPE Storage jak zapewnić pełne bezpieczeństwo Twoich danych?

Referat pracy dyplomowej

Opis przedmiotu zamówienia: Przedmiotem zamówienia na potrzeby Miejskiego Ośrodka Pomocy Społecznej w Mikołowie jest zakup, dostawa oprogramowania (

Technologia informacyjna (IT - Information Technology) dziedzina wiedzy obejmująca:

Moduł 2 Użytkowanie komputerów i zarządzanie plikami wymaga od kandydata znajomości obsługi komputera osobistego.

Szkolenie wycofane z oferty. Apache Cassandra - modelowanie, wydajność, analiza danych

Program Rejestr zużytych materiałów. Instrukcja obsługi

Podręcznik administratora systemu

Instrukcja do panelu administracyjnego. do zarządzania kontem FTP WebAs.

CZY TWOJE ŚRODOWISKO PLIKOWE RÓWNIEŻ ROŚNIE SZYBCIEJ NIŻ BAZODANOWE?

Windows Serwer 2008 R2. Moduł 8. Mechanizmy kopii zapasowych

Zajęcia prowadzone przez MCT, auditora wiodącego systemów bezpieczeństwa informacji.

Wykład I. Wprowadzenie do baz danych

TECHNOLOGIE BIG DATA A BEZPIECZEŃSTWO INFORMATYCZNE WE KNOW YOU KNOW. silmine.com

OMEGA-PSIR na Uniwersytecie Gdańskim

Tworzenie partycji i dysków logicznych

OfficeObjects e-forms

Problemy niezawodnego przetwarzania w systemach zorientowanych na usługi

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

Szybki przewodnik po produkcie. EMC DataDomain

Replikacje. dr inż. Dziwiński Piotr Katedra Inżynierii Komputerowej. Kontakt:

OBIEG INFORMACJI I WSPOMAGANIE DECYZJI W SYTUACJACH KRYZYSOWYCH

Deduplikacja danych. Zarządzanie jakością danych podstawowych

Egzamin : administrowanie systemem Windows Server 2012 R2 / Charlie Russel. Warszawa, Spis treści

Sprawa numer: BAK.WZP Warszawa, dnia 16 sierpnia 2016 r.

ETL darmowe narzędzia

Big Data & Analytics

Wybrane działy Informatyki Stosowanej

Leonard G. Lobel Eric D. Boyd. Azure SQL Database Krok po kroku. Microsoft. Przekład: Marek Włodarz. APN Promise, Warszawa 2014

Replikacja bazy danych polega na kopiowaniu i przesyłaniu danych lub obiektów bazodanowych między serwerami oraz na zsynchronizowaniu tych danych w

Sposób funkcjonowania

MIGRATE OS TO SSD. Przewodnik

Apache Hadoop framework do pisania aplikacji rozproszonych

Asseco HOME: obniżenie kosztów operacyjnych telekomów dzięki rozwiązaniu Big Data.

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Pamięci masowe. ATA (Advanced Technology Attachments)

Wykład 2. Temat: (Nie)zawodność sprzętu komputerowego. Politechnika Gdańska, Inżynieria Biomedyczna. Przedmiot:

WHITE PAPER. Planowanie, przygotowanie i testowanie działań na wypadek wystąpienia awarii

dlibra 3.0 Marcin Heliński

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Projektowanie, tworzenie aplikacji mobilnych na platformie Android

WZÓR UMOWY. Zawarta w Białymstoku, w dniu.. pomiędzy:

Struktura dysku. Dyski podstawowe i dynamiczne

str. 1 Informacja o zmianie treści specyfikacji istotnych warunków zamówienia Oświęcim, dnia r.

NoSQL & relax with CouchDB

SYSTEMY OPERACYJNE WYKŁAD 5 OBSŁUGA PAMIĘCI MASOWYCH

Narzędzia umożliwiające tworzenie scentralizowanej polityki prowadzenia backupów. Adrian Marczyk

Transkrypt:

Informacje organizacyjne: 1. Zaliczenie przedmiotu zostanie przeprowadzone w formie testu, z którego będzie można zdobyć maksymalnie 100 punktów. Skala ocen: 00 50 punktów: 2 51 60 punktów: 3 61 70 punktów: 3,5 71-80 punktów: 4 81 90 punktów: 4,5 91 100 punktów: 5 2. Symbol oznacza listę wyboru, w której należy zaznaczyć tylko JEDNĄ PRAWIDŁOWĄ odpowiedź. Zaznaczenie odpowiedzi prawidłowej = 1 punkt. Zaznaczenie odpowiedzi nieprawidłowej lub zaznaczenie kilku odpowiedzi = 0 punktów. 3. Symbol oznacza listę wyboru, w której należy zaznaczyć WSZYSTKIE PRAWIDŁOWE odpowiedzi. Punktacja jest obliczana na podstawie wzoru = MAX(0, 3*(liczba_zaznaczonych_odpowiedzi_prawidłowych - 2*liczba_zaznaczonych_odpowiedzi_nieprawidłowych ) / liczba_odpowiedzi_prawidłowych ). Za zadanie można otrzymać od 0 do 3 punktów. Przykładowe pytania (i listy odpowiedzi): Dokończyć zdanie: Problem Big data... dotyczy jedynie najniższego (systemowego)poziomu przetwarzania danych. dotyczy jedynie przetwarzania danych na poziomie aplikacji analitycznych. dotyczy wszystkich poziomów przetwarzania, od systemowego, do aplikacyjnego. dotyczy innych technologii informatycznych, niż przetwarzanie danych. Dlaczego rozwiązywanie problemu Big data stało się obecnie naglącą koniecznością? Ponieważ wcześniej nie było tak obszernych masywów danych. Ponieważ wcześniej nie było zaawansowanych technologii. Ponieważ wcześniej nie istniały tak bogate źródła interesujących informacji analitycznych o odpowiedniej objętości, płynności i różnorodnych postaciach. Ponieważ nikt wcześniej nie wpadł na ten pomysł. Dokończyć zdanie: Informacje typu Open data... są synonimem określenia Big Data. stanowią podzbiór danych Big Data. są danymi dostępnymi powszechne i bez ograniczeń. są zbiorem danych powiązanych w formacie RDF (Resource Description Framework) Co oznacza określenie Veracity : Dane, które jednocześnie spełniają trzy podstawowe kryteria wielkości ( Volume, Variety, Velocity ). Dane, generowane przez administracje miast city, które spełniają dwa podstawowe kryteria wielkości ( Velocity, Variety ). Poziom ufności - przekonania o prawidłowości danych. (tzn. że nie zawierają błędów) Żadne z powyższych.

Co oznacza określenie 3V : Vast, Velocity, Veracity Variable, Veracity, Velocity Volume, Variety, Velocity Volume Variety Veracity Dlaczego istniejące technologie relacyjnych baz danych nie sprawdzają się w przetwarzaniu zbiorów typu Big Data : Ponieważ mają różne typy danych Ponieważ dane nie są stale dostępne. Ponieważ nie są wystarczająco szybkie. Ponieważ nie radzą sobie z tak dużą różnorodnością objętości i zmiennością danych. Jaki podstawowy format danych jest odczytywany i generowany przez funkcje modelu przetwarzania MapReduce: Key/Value format. Text format. Graph format. XML format Jak wygląda typowy klaster HDFS: Jeden węzeł Namenode i zbiór węzłów Datanode. Jeden węzeł Namenode i jeden węzeł Datanode. Jeden węzeł JobTracker i jeden węzeł TaskTracker Jeden węzeł JobTracker i zbiór węzłów TaskTracker. Jaką funkcję w systemie MapReduce v2 (MR2) pełni węzeł YARN ResourceManager: JobTracker. TaskTracker. Datanode. namenode. Które stwierdzenia dotyczące Apache Spark są prawdziwe: Spark przechowuje i przetwarza dane w zbiorach rozproszonych, przechowywanych w pamięci operacyjnej komputerów klastra, nazywanych Resilient Distributed Datasets (RDD). Spark jest szybszy niż Hadoop Spark SQL wykorzystuje interfejs i bazę metadanych serwera Hive Biblioteka GraphX wykorzystuje Resilient Distributed Datasets (RDD) do przetwarzania danych graficznych Firma Krzak musi na bieżąco (online) obsługiwać zamówienia, które są przysyłane co kilka sekund. Chociaż zbiory zamówień są względnie małe i posiadają stałą strukturę, to jednak mamy tu do czynienia z problemem typu "Big Data". Dlaczego? Zamówienia charakteryzuje wysoka wartość Velocity -prędkości przyjmowania. Zamówienia charakteryzuje wysoka wartość Variety -różnorodności formatów. Zamówienia charakteryzuje wysoka wartość Volume -objętości danych. To nie jest problem typu Big Data, bo nie występują wszystkie trzy 'V' jednocześnie. Jakiego narzędzia używa Google do przechowywania danych podczas katalogowania Internetu? Bigtable Hadoop Distributed File System MapReduce

Jakiej wielkości jest typowy klaster Hadoop? Megabajty Gigabajty Terabajty Petabajty / exabajty Co jest akronimem nazwy grupy urządzeń, połączonych przez Internet, które automatycznie przesyłają dane, rejestrowane przez posiadane czujniki? SQL IoT ETL Co oznacza skrót 3V w przypadku systemów Big Data? Variation, Value, Visualization Volume, Value, Vertex Visualization, velocity, Virtual Velocity, Variety, Volume Administrujesz bazą danych w szpitalu. Twoja baza zawiera zbiory badań RTG pacjentów, roszczeń ubezpieczeniowych i danych płacowych. Każdy zbiór posiada odmienne struktury i formaty. Do której grupy zaliczysz swoją bazę? Wysoka wartość prędkości przepływu -Velocity Wysoka różnorodność -Variety Wysoka objętość -Volume Wysokie wartości -Value Jaka cecha systemu plików GFS (Google File System) umożliwia rozwiązywanie problemów klasy Big Data? Normalizuje dane do postaci wspólnego typu. Przyspiesza dane w celu skrócenia czasu zasilania bazy. Dzieli dane na fragmenty, umożliwiające sprawne przetwarzanie. Kompresuje dana do mniejszej objętości. Który typ danych jest niestrukturalny ( unstructured)? Plik Video Plik JSON Plik CSV Tabela Parquet Które typy danych są strukturalne (structured)? Plik Video Plik JSON Plik CSV Tabela Parquet Który typ danych jest semistrukturalny (semi-structured)? Plik Video Plik JSON Plik CSV Tabela Parquet

Co oznacza skrót ETL? Estimated Time to Load Escape Tabulate Log Extract Transform Load Explain Table Logs Które zadania wykonuje Administrator Systemu? Normalizacja danych dla algorytmów ML Instalowanie nowych programów dla potrzeb pracowników organizacji Tworzenie infografik i innych prezentacji Wdrażanie protokołów bezpieczeństwa baz danych Które zadania wykonuje Deweloper? Budowanie i testowanie nowych aplikacji zasilania danych. Instalowanie i konfigurowanie baz danych. Przeszukiwanie danych (Querying) w celu znajdowania korelacji. Utrzymanie i aktualizowanie bibliotek oprogramowania. Które zadania wykonuje Analityk Danych? Pisze skrypty do automatyzacji procesu ETL. Przewiduje zachowanie klientów przy pomocy algorytmów ML. Prezentuje złożone informacje przy pomocy wykresów kołowych. Nadaje uprawnienia systemowe dla nowych pracowników. Analiza różnorodności (Variety) danych, przed rozpoczęciem nowego projektu, służy do? planowania wielkości potrzebnej przestrzeni danych. planowania procesów ETL. podjęcia decyzji o potrzebie przetwarzanie w czasie rzeczywistym (real-time processing). podjęcia decyzji o potrzebie rozdzielania (split) lub próbkowania (sample) danych. Analiza prędkości (Velocity) danych, przed rozpoczęciem nowego projektu, służy do? podjęcia decyzji czy wymagane jest przetwarzanie w czasie rzeczywistym (real-time processing). planowania wielkości potrzebnej przestrzeni danych. planowania procesów ETL podjęcia decyzji o potrzebie rozdzielania (split) lub próbkowania (sample) danych. Kto jest odpowiedzialny za programowanie procesów zasilania i wstępnego przetwarzania danych? Deweloper/Programista Administrator Analityk danych Architekt danych Kto jest odpowiedzialny za planowanie odzyskiwania danych po awarii? Analityk danych Architekt danych Administrator Deweloper/Programista Kto jest odpowiedzialny za pozyskiwanie wiedzy biznesowej z danych? Architekt danych Administrator Analityk danych Deweloper/Programista

Rozproszone systemy plików typu HDFS różnią się od lokalnych systemów plików, takich jak FAT lub NTFS, bo? nie używają fizycznych nośników danych, bowiem znajdują się w chmurze. automatycznie replikują dane w celu uzyskania odporności na uszkodzenia. dzielą dane na małe fragmenty i rozpraszają w systemie. umożliwiają jedynie odczyt danych, w celu zabezpieczenia przed błędami popełnianymi przez użytkowników podczas zapisu. Jaka domyślna operacja jest wykonywana automatycznie podczas zapisu pliku w HDFS? Kompresja Kopia lustrzana (Mirroring) Replikacja Migawki (Snapshots) Jaka jest prawidłowa kolejność faz procesu MapReduce? Map, Split, Reduce Map, Shuffle, Reduce Split, Map, Reduce Shuffle, Map, Reduce W jakim celu tworzy sie lustrzane kopie danych w chmurze (cloud mirrors)? Dla ochrony przed kradzieżą lub zniszczeniem. W celu uzyskania mniejszego opóźnienia w sieci. W celu uzyskania krótszego czasu przetwarzania. W celu zapewnienia większej przestrzeni dyskowej. W jaki sposób najlepiej zabezpieczyć system przed skutkami takich błędów użytkowników, jak przypadkowe skasowanie danych? Regularnie wykonywać kopie przyrostowe (incremental backups). Zamontować dodatkowe dyski z macierzy RAID. Skonfigurować dyski do pracy lustrzanej (local mirror). Regularnie wykonywać kopię bieżącego obrazu dysku na zdalnym nośniku. Jaka domyślna liczba replikacji bloku danych w HDFS? 2 3 Nie ma wartości domniemanej, trzeba ją definiować każdorazowo podczas zapisu pliku. 5 Plan rozmieszczenia dysków komputerów, osprzętu i szaf serwerowych w klastrze jest przykładem? Topologii logicznej Topologii fizycznej Współczynnika replikacji Lokalnego systemu plików Drugim etapem szablonu MapReduce jest? Shuffle Split Reduce Partition

Jaka jest podstawowa korzyść z dzielenia plików na bloki danych(splitting) przez MapReduce.? Równoległe przetwarzanie rozległych masywów danych. Stosowanie wysokiego współczynnika replikacji zapewnia ochronę danych przed zniszczeniem. Agregacja mniejszych bloków danych generuje mniejsze opóźnienia (latency) Używanie małych bloków danych umożliwia uzyskanie wysokich wartości prędkości danych (Velocity). Co to jest Hadoop Ecosystem? Metoda generowania prognoz (predictions) na podstawie danych. Metoda organizowania danych na platformie. Zbiór narzędzi do zasilania (ingesting) i przetwarzania (processing) danych. Zbiór narzędzi do bardziej efektywnego wykonywania Mapreduce. Które narzędzie Hadoop Ecosystem jest zwykle wykorzystywane do wczytywania plików logów do systemu Hadooop? Flume Oozie YARN Sqoop Które narzędzie Hadoop Ecosystem jest zwykle wykorzystywane do iteracyjnego przetwarzania danych? Pig Oozie HBase Spark Jaka funkcjonalność daje przewagę Apache Drill względem Apache Hive? Drill współpracuje z HDFS, podczas gdy Hive nie. Drill jest kompatybilne z ANSI-SQL, podczas gdy Hive nie. Drill wykorzystuje Mapreduce, podczas gdy Hive nie. Drill jest nowszą technologią, podczas gdy Hive nie jest już wspierane. Dlaczego Hadoop Ecosystem zawiera tak wiele komponentów? W celu zapewnienia obsługi wielką różnorodność (Variety) źródeł i typów danych. Żeby umożliwić sprawne przechowanie rozległych masywów danych (Volume). W celu zapewnienia wymaganej prędkości (Velocity) przetwarzania danych. Wszystkie, powyższe powody. Które narzędzie Hadoop Ecosystem jest wykorzystywane do organizacji i administrowania przepływem pracy (workflows) w Hadooop.? Apache Pig Apache Machout Apache Flume Apache Oozie Co daje przewagę Apache Spark w stosunku do standardowego szablonu MapReduce? Buforowanie danych w RAM jest szybsze niż odczyt/zapis w HDFS. Przenoszenie danych pomiędzy zewnętrznymi magazynami (data stores). Posiadanie własnego języka skryptowego, który ułatwia pisanie zadań MapReduce. Jest łatwiejszy do nauki z powodu zgodności z ANSI-SQL.

Które z narzędzi Hadoop Ecosystem jest zgodne z ANSI-SQL? Apache Drill Apache Hive Apache HBase Apache Spark Hadoop Hurtowni Danych? Wczytuje i przechowuje dane źródłowe w ich oryginalnych -pierwotnych formatach. W krótkim czasie Hadoop całkowicie zastąpi repozytoria relacyjne, jako nowocześniejsza i tańsza alternatywa. Dzięki HDFS dostarcza większą i tańszą przestrzeń do przechowywania danych żródłowych. Umożliwia zachowanie do późniejszego wykorzystania danych źródłowych, po zakończeniu procesu ETL, zamiast ich niszczenia, które występuje w typowych systemach DWH. Jaka jest pozytywna cecha migracji danych z tradycyjnego środowiska DWH (relacyjnego - opartego na SQL), do klastra Hadoop Ecosystem? Hadoop automatycznie skonwertuje wszystkie dane do formatu SQL. Hadoop pozwoli analitykom i deweloperom, na wykorzystanie wcześniej stworzonego oprogramowania. Hadoop przechowa jedynie dane czyste (clean), wymuszając skasowanie starych plików. Hadoop zmniejszy koszty systemu, przez ograniczenie maksymalnego rozmiaru plików. Dlaczego Hadoop Ecosystem stanowi efektywną platformę do przechwytywania i analizowania danych z logów.? Hadoop umożliwia wczytywanie różnorodnych danych wejściowych. Hadoop umożliwia tanie składowanie surowych danych źródłowych (ang. raw data). Hadoop dostarcza wiele metod i algorytmów przetwarzania danych. Które narzędzia z Hadoop Ecosystem mogą być wykorzystane do zasilania systemu DWH.? Apache Zookeeper Apache pig Apache Flume Apache Mahout Które narzędzia z Hadoop Ecosystem mogą być wykorzystane do eksploracji nieznanych plików logów.? Apache ZooKeeper Apache Flume Apache Mahout Apache Drill Czy uważasz, że przedstawiony poniżej relacyjny system informacyjny (baza danych i oprogramowanie), kwalifikuje się do konwersji na Hadoop Ecosystem? Scenariusz: a) Posiadasz bazę danych o wielkości 500 GB b) Wielkość bazy nie wzrosła drastycznie w czasie minionych 6 miesięcy. c) Prognozy nie przewidują drastycznego wzrostu wielkości bazy w przyszłości. TAK NIE

Skoro Hadoop jest systemem o dostępie wsadowym (ang. batch), czy zasadna będzie zatem konwersja systemu i wsparcie relacyjnej bazy danych MySQL przy pomocy bazy typu NoSQL? Opis problemu: a) Z uwagi na szybko powiększającą się objętość bazy danych i drastyczne obniżenie wydajności przetwarzania informacji, poproszono Cię o wykonanie re-inżynierii systemu sklepu internetowego, który obecnie oparty jest na serwerze MySQL ( czyli system raczej nisko budżetowy). b) Portal sklepu internetowego nieprzerwanie pobiera dane z bazy MySQL i generuje w niej nowe rekordy informacyjne. c) Po przebudowie portalu, obsługa klientów powinna być sprawna i płynna, niezależnie od stale powiększającej się objętości bazy i rosnącej liczby jednoczesnych użytkowników. TAK NIE Czy zainstalowanie dodatkowych serwerów bazy danych rozwiąże problem? Opis problemu: a) Wykonanie zadania ETL, w systemie opartym na serwerze RDBMS Oracle, zajmuje 2 godziny. b) Użytkownicy biznesowi wymagają od Ciebie zmniejszenia czasu wykonania tego zadania do 1 godziny. TAK NIE Dlaczego w systemie plików HDFS nie używa się dysków stałych (SSD) w celu zmniejszenia czasu dostępu do danych? Dyski SSD są mało wiarygodne Dyski SSD są drogie Dyski SSD są niskiej jakości Jak zrealizujesz ochronę przed przed utratą danych w klastrze? Przy pomocy replikacji bloków danych w kilku różnych węzłach klastra. Nie jest możliwe zabezpieczenie przed utratą danych w klastrze. Co stanie sią z lokalnym systemem plików komputera, po zainstalowaniu HDFS? Lokalny system plików będzie współistniał z HDFS. Lokalny system plików zostanie zastąpiony przez HDFS. Jaka jest najlepsza metoda rozwiązania problemu? W sytuacji, gdy programy działające w wielu węzłach klastra żądają dostępu do zdalnych danych, następuje zablokowanie sieci i drastyczne spowolnienie transferu danych. Zwiększenie przepustowości sieci Przechowywanie danych w tych samych węzłach klastra, w których odbywa się ich przetwarzanie. Do czego potrzebny jest HDFS, jeżeli tradycyjne systemy plików są w stanie przechowywać pliki wielkości exabajtów? Tradycyjne systemy plików są zawodne. Tradycyjne systemy plików nie nadają się do rozproszonego przetwarzania danych. Które polecenie systemu HDFS służy do kontroli lokalizacji i prawidłowości przechowywania bloków danych? chmod fsck

Namenode aktualizuje mapę lokalizacji bloków danych na lokalnym dysku. PRAWDA KŁAMSTWO Który parametr służy do zmiany współczynnika replikacji bloków danych podczas zapisu pliku w HDFS? dfs.update.replica dfs.replication changereplicationfactor Który węzeł jest ważniejszy w klastrze HDFS? Namenode Datanode Zaznacz twierdzenia prawidłowe? HBase jest bazą typu kolumnowego. MongoDB jest wysoko skalowalną bazą typu klucz-wartość. Neo4J posiada format grafu. Redis jest bazą typu kolumnowego. Szablon (framework) Akka jest: Szablonem opartym na metodzie agentowej. Szablonem bazującym na aktorach. Szablonem silnie rozproszonym. API języka Java W HDFS plik jest dzielony na bloki o stałym rozmiarze plik jest dzielony na bloki o różnych rozmiarach bloki są replikowane przynajmniej trzy razy bloki są replikowane przynajmniej jeden raz SPARK Resilient Distributed Datasets (RDDs) są przechowywane w HDFS są przechowywane lokalnie w pamięciach RAM węzłów klastra pozwalają aplikacjom na przechowywanie rozproszonych zbiorów danych w pamięciach RAM węzłów klastra automatycznie odtwarzają partycje utracone w wyniku awarii Zaznacz prawidłowe twierdzenia o HBase? HBase działa w oparciu o system plików HDFS HBase działa w oparciu o Resilient Distributed Datasets HBase umożliwia swobodny dostęp (random access) do zasobów Big Data HTable może dowolnie powiększać objętość, bowiem jest dzielona na wiele HRegions Systemy NoSQL Są wykorzystywane WYŁĄCZNIE do przetwarzania danych niestrukturalnych (unstructured). Nie obsługują funkcji Strukturalnego Języka Zapytań (SQL). Umożliwiają szybszy dostęp do informacji niż relacyjna baza danych (RDBMS). Są użyteczne do zarządzania rozległymi zbiorami rozproszonych danych.

Który system jest otwartą wersją (open-source) patentu MapReduce Google'a? Hive Cassandra Hadoop? MongoDB System Big Data może być zdefiniowany przy pomocy trzech kluczowych parametrów, których nazwy rozpoczynają się od litery 'V'. Która z przedstawionych poniżej nazw nie jest parametrem określającym system Big Data? Value Volume Velocity Variety Co to jest Hadoop? Rozproszony system plików. Platforma SaaS, udostępniająca dane typu Big Data w postaci serwisu. Kolekcja technologii, umożliwiających przetwarzanie informacji typu Big Data. Projekt Apache, dedykowany do danych o wysokiej dostępności i krytycznym znaczeniu. Co oznacza NoSQL? None or SQL No SQL Never Open SQL Not Only SQL Który system NIE JEST przykładem bazy NoSQL? Column Store Relational Document Store Key-Value Hadoop jest strukturą (framework), zbudowaną z wielu powiązanych narzędzi. Do podstawowego zestawu należą: MapReduce, Hive, HBase MapReduce, MySQL, Google Apps MapReduce, Hummer, Iguana MapReduce, Heron, Trumpet Jaka jest domniemana wielkość bloku w systemie plików HDFS? 512 bytes 64 MB 1024 KB Żadne z powyższych. Czym jest Mongo DB? document database graph database key-value store relational database

HBase jest bazą dokumentów. bazą o strukturze kolumnowej (column-oriented) składnicą typu klucz-wartość (key-value store). bazą relacyjną. Co oznacza pojęcie otwartych danych (Open Data)? Big Data Linked Data Dane RDF udostępniane przez instytucje administracji publicznej. Dane dostępne powszechnie I nieodpłatnie. W systemie plików HDFS dane są podzielone na Bloki o wielkości definiowanej przez użytkownika. Bloki o różnych wielkościach. Zbiór bloków zrównoważonych. Stałą liczbę bloków.