Informacje organizacyjne:

Transkrypt

1 Informacje organizacyjne: 1. Zaliczenie przedmiotu zostanie przeprowadzone w formie testu, z którego będzie można zdobyć maksymalnie 100 punktów. Skala ocen: punktów: punktów: punktów: 3, punktów: punktów: 4, punktów: 5 2. Symbol oznacza listę wyboru, w której należy zaznaczyć tylko JEDNĄ PRAWIDŁOWĄ odpowiedź. Zaznaczenie odpowiedzi prawidłowej = 1 punkt. Zaznaczenie odpowiedzi nieprawidłowej lub zaznaczenie kilku odpowiedzi = 0 punktów. 3. Symbol oznacza listę wyboru, w której należy zaznaczyć WSZYSTKIE PRAWIDŁOWE odpowiedzi. Punktacja jest obliczana na podstawie wzoru = MAX(0, 3*(liczba_zaznaczonych_odpowiedzi_prawidłowych - 2*liczba_zaznaczonych_odpowiedzi_nieprawidłowych ) / liczba_odpowiedzi_prawidłowych ). Za zadanie można otrzymać od 0 do 3 punktów. Przykładowe pytania (i listy odpowiedzi): Dokończyć zdanie: Problem Big data... dotyczy jedynie najniższego (systemowego)poziomu przetwarzania danych. dotyczy jedynie przetwarzania danych na poziomie aplikacji analitycznych. dotyczy wszystkich poziomów przetwarzania, od systemowego, do aplikacyjnego. dotyczy innych technologii informatycznych, niż przetwarzanie danych. Dlaczego rozwiązywanie problemu Big data stało się obecnie naglącą koniecznością? Ponieważ wcześniej nie było tak obszernych masywów danych. Ponieważ wcześniej nie było zaawansowanych technologii. Ponieważ wcześniej nie istniały tak bogate źródła interesujących informacji analitycznych o odpowiedniej objętości, płynności i różnorodnych postaciach. Ponieważ nikt wcześniej nie wpadł na ten pomysł. Dokończyć zdanie: Informacje typu Open data... są synonimem określenia Big Data. stanowią podzbiór danych Big Data. są danymi dostępnymi powszechne i bez ograniczeń. są zbiorem danych powiązanych w formacie RDF (Resource Description Framework) Co oznacza określenie Veracity : Dane, które jednocześnie spełniają trzy podstawowe kryteria wielkości ( Volume, Variety, Velocity ). Dane, generowane przez administracje miast city, które spełniają dwa podstawowe kryteria wielkości ( Velocity, Variety ). Poziom ufności - przekonania o prawidłowości danych. (tzn. że nie zawierają błędów) Żadne z powyższych.

2 Co oznacza określenie 3V : Vast, Velocity, Veracity Variable, Veracity, Velocity Volume, Variety, Velocity Volume Variety Veracity Dlaczego istniejące technologie relacyjnych baz danych nie sprawdzają się w przetwarzaniu zbiorów typu Big Data : Ponieważ mają różne typy danych Ponieważ dane nie są stale dostępne. Ponieważ nie są wystarczająco szybkie. Ponieważ nie radzą sobie z tak dużą różnorodnością objętości i zmiennością danych. Jaki podstawowy format danych jest odczytywany i generowany przez funkcje modelu przetwarzania MapReduce: Key/Value format. Text format. Graph format. XML format Jak wygląda typowy klaster HDFS: Jeden węzeł Namenode i zbiór węzłów Datanode. Jeden węzeł Namenode i jeden węzeł Datanode. Jeden węzeł JobTracker i jeden węzeł TaskTracker Jeden węzeł JobTracker i zbiór węzłów TaskTracker. Jaką funkcję w systemie MapReduce v2 (MR2) pełni węzeł YARN ResourceManager: JobTracker. TaskTracker. Datanode. namenode. Które stwierdzenia dotyczące Apache Spark są prawdziwe: Spark przechowuje i przetwarza dane w zbiorach rozproszonych, przechowywanych w pamięci operacyjnej komputerów klastra, nazywanych Resilient Distributed Datasets (RDD). Spark jest szybszy niż Hadoop Spark SQL wykorzystuje interfejs i bazę metadanych serwera Hive Biblioteka GraphX wykorzystuje Resilient Distributed Datasets (RDD) do przetwarzania danych graficznych Firma Krzak musi na bieżąco (online) obsługiwać zamówienia, które są przysyłane co kilka sekund. Chociaż zbiory zamówień są względnie małe i posiadają stałą strukturę, to jednak mamy tu do czynienia z problemem typu "Big Data". Dlaczego? Zamówienia charakteryzuje wysoka wartość Velocity -prędkości przyjmowania. Zamówienia charakteryzuje wysoka wartość Variety -różnorodności formatów. Zamówienia charakteryzuje wysoka wartość Volume -objętości danych. To nie jest problem typu Big Data, bo nie występują wszystkie trzy 'V' jednocześnie. Jakiego narzędzia używa Google do przechowywania danych podczas katalogowania Internetu? Bigtable Hadoop Distributed File System MapReduce

3 Jakiej wielkości jest typowy klaster Hadoop? Megabajty Gigabajty Terabajty Petabajty / exabajty Co jest akronimem nazwy grupy urządzeń, połączonych przez Internet, które automatycznie przesyłają dane, rejestrowane przez posiadane czujniki? SQL IoT ETL Co oznacza skrót 3V w przypadku systemów Big Data? Variation, Value, Visualization Volume, Value, Vertex Visualization, velocity, Virtual Velocity, Variety, Volume Administrujesz bazą danych w szpitalu. Twoja baza zawiera zbiory badań RTG pacjentów, roszczeń ubezpieczeniowych i danych płacowych. Każdy zbiór posiada odmienne struktury i formaty. Do której grupy zaliczysz swoją bazę? Wysoka wartość prędkości przepływu -Velocity Wysoka różnorodność -Variety Wysoka objętość -Volume Wysokie wartości -Value Jaka cecha systemu plików GFS (Google File System) umożliwia rozwiązywanie problemów klasy Big Data? Normalizuje dane do postaci wspólnego typu. Przyspiesza dane w celu skrócenia czasu zasilania bazy. Dzieli dane na fragmenty, umożliwiające sprawne przetwarzanie. Kompresuje dana do mniejszej objętości. Który typ danych jest niestrukturalny ( unstructured)? Plik Video Plik JSON Plik CSV Tabela Parquet Które typy danych są strukturalne (structured)? Plik Video Plik JSON Plik CSV Tabela Parquet Który typ danych jest semistrukturalny (semi-structured)? Plik Video Plik JSON Plik CSV Tabela Parquet

4 Co oznacza skrót ETL? Estimated Time to Load Escape Tabulate Log Extract Transform Load Explain Table Logs Które zadania wykonuje Administrator Systemu? Normalizacja danych dla algorytmów ML Instalowanie nowych programów dla potrzeb pracowników organizacji Tworzenie infografik i innych prezentacji Wdrażanie protokołów bezpieczeństwa baz danych Które zadania wykonuje Deweloper? Budowanie i testowanie nowych aplikacji zasilania danych. Instalowanie i konfigurowanie baz danych. Przeszukiwanie danych (Querying) w celu znajdowania korelacji. Utrzymanie i aktualizowanie bibliotek oprogramowania. Które zadania wykonuje Analityk Danych? Pisze skrypty do automatyzacji procesu ETL. Przewiduje zachowanie klientów przy pomocy algorytmów ML. Prezentuje złożone informacje przy pomocy wykresów kołowych. Nadaje uprawnienia systemowe dla nowych pracowników. Analiza różnorodności (Variety) danych, przed rozpoczęciem nowego projektu, służy do? planowania wielkości potrzebnej przestrzeni danych. planowania procesów ETL. podjęcia decyzji o potrzebie przetwarzanie w czasie rzeczywistym (real-time processing). podjęcia decyzji o potrzebie rozdzielania (split) lub próbkowania (sample) danych. Analiza prędkości (Velocity) danych, przed rozpoczęciem nowego projektu, służy do? podjęcia decyzji czy wymagane jest przetwarzanie w czasie rzeczywistym (real-time processing). planowania wielkości potrzebnej przestrzeni danych. planowania procesów ETL podjęcia decyzji o potrzebie rozdzielania (split) lub próbkowania (sample) danych. Kto jest odpowiedzialny za programowanie procesów zasilania i wstępnego przetwarzania danych? Deweloper/Programista Administrator Analityk danych Architekt danych Kto jest odpowiedzialny za planowanie odzyskiwania danych po awarii? Analityk danych Architekt danych Administrator Deweloper/Programista Kto jest odpowiedzialny za pozyskiwanie wiedzy biznesowej z danych? Architekt danych Administrator Analityk danych Deweloper/Programista

5 Rozproszone systemy plików typu HDFS różnią się od lokalnych systemów plików, takich jak FAT lub NTFS, bo? nie używają fizycznych nośników danych, bowiem znajdują się w chmurze. automatycznie replikują dane w celu uzyskania odporności na uszkodzenia. dzielą dane na małe fragmenty i rozpraszają w systemie. umożliwiają jedynie odczyt danych, w celu zabezpieczenia przed błędami popełnianymi przez użytkowników podczas zapisu. Jaka domyślna operacja jest wykonywana automatycznie podczas zapisu pliku w HDFS? Kompresja Kopia lustrzana (Mirroring) Replikacja Migawki (Snapshots) Jaka jest prawidłowa kolejność faz procesu MapReduce? Map, Split, Reduce Map, Shuffle, Reduce Split, Map, Reduce Shuffle, Map, Reduce W jakim celu tworzy sie lustrzane kopie danych w chmurze (cloud mirrors)? Dla ochrony przed kradzieżą lub zniszczeniem. W celu uzyskania mniejszego opóźnienia w sieci. W celu uzyskania krótszego czasu przetwarzania. W celu zapewnienia większej przestrzeni dyskowej. W jaki sposób najlepiej zabezpieczyć system przed skutkami takich błędów użytkowników, jak przypadkowe skasowanie danych? Regularnie wykonywać kopie przyrostowe (incremental backups). Zamontować dodatkowe dyski z macierzy RAID. Skonfigurować dyski do pracy lustrzanej (local mirror). Regularnie wykonywać kopię bieżącego obrazu dysku na zdalnym nośniku. Jaka domyślna liczba replikacji bloku danych w HDFS? 2 3 Nie ma wartości domniemanej, trzeba ją definiować każdorazowo podczas zapisu pliku. 5 Plan rozmieszczenia dysków komputerów, osprzętu i szaf serwerowych w klastrze jest przykładem? Topologii logicznej Topologii fizycznej Współczynnika replikacji Lokalnego systemu plików Drugim etapem szablonu MapReduce jest? Shuffle Split Reduce Partition

6 Jaka jest podstawowa korzyść z dzielenia plików na bloki danych(splitting) przez MapReduce.? Równoległe przetwarzanie rozległych masywów danych. Stosowanie wysokiego współczynnika replikacji zapewnia ochronę danych przed zniszczeniem. Agregacja mniejszych bloków danych generuje mniejsze opóźnienia (latency) Używanie małych bloków danych umożliwia uzyskanie wysokich wartości prędkości danych (Velocity). Co to jest Hadoop Ecosystem? Metoda generowania prognoz (predictions) na podstawie danych. Metoda organizowania danych na platformie. Zbiór narzędzi do zasilania (ingesting) i przetwarzania (processing) danych. Zbiór narzędzi do bardziej efektywnego wykonywania Mapreduce. Które narzędzie Hadoop Ecosystem jest zwykle wykorzystywane do wczytywania plików logów do systemu Hadooop? Flume Oozie YARN Sqoop Które narzędzie Hadoop Ecosystem jest zwykle wykorzystywane do iteracyjnego przetwarzania danych? Pig Oozie HBase Spark Jaka funkcjonalność daje przewagę Apache Drill względem Apache Hive? Drill współpracuje z HDFS, podczas gdy Hive nie. Drill jest kompatybilne z ANSI-SQL, podczas gdy Hive nie. Drill wykorzystuje Mapreduce, podczas gdy Hive nie. Drill jest nowszą technologią, podczas gdy Hive nie jest już wspierane. Dlaczego Hadoop Ecosystem zawiera tak wiele komponentów? W celu zapewnienia obsługi wielką różnorodność (Variety) źródeł i typów danych. Żeby umożliwić sprawne przechowanie rozległych masywów danych (Volume). W celu zapewnienia wymaganej prędkości (Velocity) przetwarzania danych. Wszystkie, powyższe powody. Które narzędzie Hadoop Ecosystem jest wykorzystywane do organizacji i administrowania przepływem pracy (workflows) w Hadooop.? Apache Pig Apache Machout Apache Flume Apache Oozie Co daje przewagę Apache Spark w stosunku do standardowego szablonu MapReduce? Buforowanie danych w RAM jest szybsze niż odczyt/zapis w HDFS. Przenoszenie danych pomiędzy zewnętrznymi magazynami (data stores). Posiadanie własnego języka skryptowego, który ułatwia pisanie zadań MapReduce. Jest łatwiejszy do nauki z powodu zgodności z ANSI-SQL.

7 Które z narzędzi Hadoop Ecosystem jest zgodne z ANSI-SQL? Apache Drill Apache Hive Apache HBase Apache Spark Hadoop Hurtowni Danych? Wczytuje i przechowuje dane źródłowe w ich oryginalnych -pierwotnych formatach. W krótkim czasie Hadoop całkowicie zastąpi repozytoria relacyjne, jako nowocześniejsza i tańsza alternatywa. Dzięki HDFS dostarcza większą i tańszą przestrzeń do przechowywania danych żródłowych. Umożliwia zachowanie do późniejszego wykorzystania danych źródłowych, po zakończeniu procesu ETL, zamiast ich niszczenia, które występuje w typowych systemach DWH. Jaka jest pozytywna cecha migracji danych z tradycyjnego środowiska DWH (relacyjnego - opartego na SQL), do klastra Hadoop Ecosystem? Hadoop automatycznie skonwertuje wszystkie dane do formatu SQL. Hadoop pozwoli analitykom i deweloperom, na wykorzystanie wcześniej stworzonego oprogramowania. Hadoop przechowa jedynie dane czyste (clean), wymuszając skasowanie starych plików. Hadoop zmniejszy koszty systemu, przez ograniczenie maksymalnego rozmiaru plików. Dlaczego Hadoop Ecosystem stanowi efektywną platformę do przechwytywania i analizowania danych z logów.? Hadoop umożliwia wczytywanie różnorodnych danych wejściowych. Hadoop umożliwia tanie składowanie surowych danych źródłowych (ang. raw data). Hadoop dostarcza wiele metod i algorytmów przetwarzania danych. Które narzędzia z Hadoop Ecosystem mogą być wykorzystane do zasilania systemu DWH.? Apache Zookeeper Apache pig Apache Flume Apache Mahout Które narzędzia z Hadoop Ecosystem mogą być wykorzystane do eksploracji nieznanych plików logów.? Apache ZooKeeper Apache Flume Apache Mahout Apache Drill Czy uważasz, że przedstawiony poniżej relacyjny system informacyjny (baza danych i oprogramowanie), kwalifikuje się do konwersji na Hadoop Ecosystem? Scenariusz: a) Posiadasz bazę danych o wielkości 500 GB b) Wielkość bazy nie wzrosła drastycznie w czasie minionych 6 miesięcy. c) Prognozy nie przewidują drastycznego wzrostu wielkości bazy w przyszłości. TAK NIE

8 Skoro Hadoop jest systemem o dostępie wsadowym (ang. batch), czy zasadna będzie zatem konwersja systemu i wsparcie relacyjnej bazy danych MySQL przy pomocy bazy typu NoSQL? Opis problemu: a) Z uwagi na szybko powiększającą się objętość bazy danych i drastyczne obniżenie wydajności przetwarzania informacji, poproszono Cię o wykonanie re-inżynierii systemu sklepu internetowego, który obecnie oparty jest na serwerze MySQL ( czyli system raczej nisko budżetowy). b) Portal sklepu internetowego nieprzerwanie pobiera dane z bazy MySQL i generuje w niej nowe rekordy informacyjne. c) Po przebudowie portalu, obsługa klientów powinna być sprawna i płynna, niezależnie od stale powiększającej się objętości bazy i rosnącej liczby jednoczesnych użytkowników. TAK NIE Czy zainstalowanie dodatkowych serwerów bazy danych rozwiąże problem? Opis problemu: a) Wykonanie zadania ETL, w systemie opartym na serwerze RDBMS Oracle, zajmuje 2 godziny. b) Użytkownicy biznesowi wymagają od Ciebie zmniejszenia czasu wykonania tego zadania do 1 godziny. TAK NIE Dlaczego w systemie plików HDFS nie używa się dysków stałych (SSD) w celu zmniejszenia czasu dostępu do danych? Dyski SSD są mało wiarygodne Dyski SSD są drogie Dyski SSD są niskiej jakości Jak zrealizujesz ochronę przed przed utratą danych w klastrze? Przy pomocy replikacji bloków danych w kilku różnych węzłach klastra. Nie jest możliwe zabezpieczenie przed utratą danych w klastrze. Co stanie sią z lokalnym systemem plików komputera, po zainstalowaniu HDFS? Lokalny system plików będzie współistniał z HDFS. Lokalny system plików zostanie zastąpiony przez HDFS. Jaka jest najlepsza metoda rozwiązania problemu? W sytuacji, gdy programy działające w wielu węzłach klastra żądają dostępu do zdalnych danych, następuje zablokowanie sieci i drastyczne spowolnienie transferu danych. Zwiększenie przepustowości sieci Przechowywanie danych w tych samych węzłach klastra, w których odbywa się ich przetwarzanie. Do czego potrzebny jest HDFS, jeżeli tradycyjne systemy plików są w stanie przechowywać pliki wielkości exabajtów? Tradycyjne systemy plików są zawodne. Tradycyjne systemy plików nie nadają się do rozproszonego przetwarzania danych. Które polecenie systemu HDFS służy do kontroli lokalizacji i prawidłowości przechowywania bloków danych? chmod fsck

9 Namenode aktualizuje mapę lokalizacji bloków danych na lokalnym dysku. PRAWDA KŁAMSTWO Który parametr służy do zmiany współczynnika replikacji bloków danych podczas zapisu pliku w HDFS? dfs.update.replica dfs.replication changereplicationfactor Który węzeł jest ważniejszy w klastrze HDFS? Namenode Datanode Zaznacz twierdzenia prawidłowe? HBase jest bazą typu kolumnowego. MongoDB jest wysoko skalowalną bazą typu klucz-wartość. Neo4J posiada format grafu. Redis jest bazą typu kolumnowego. Szablon (framework) Akka jest: Szablonem opartym na metodzie agentowej. Szablonem bazującym na aktorach. Szablonem silnie rozproszonym. API języka Java W HDFS plik jest dzielony na bloki o stałym rozmiarze plik jest dzielony na bloki o różnych rozmiarach bloki są replikowane przynajmniej trzy razy bloki są replikowane przynajmniej jeden raz SPARK Resilient Distributed Datasets (RDDs) są przechowywane w HDFS są przechowywane lokalnie w pamięciach RAM węzłów klastra pozwalają aplikacjom na przechowywanie rozproszonych zbiorów danych w pamięciach RAM węzłów klastra automatycznie odtwarzają partycje utracone w wyniku awarii Zaznacz prawidłowe twierdzenia o HBase? HBase działa w oparciu o system plików HDFS HBase działa w oparciu o Resilient Distributed Datasets HBase umożliwia swobodny dostęp (random access) do zasobów Big Data HTable może dowolnie powiększać objętość, bowiem jest dzielona na wiele HRegions Systemy NoSQL Są wykorzystywane WYŁĄCZNIE do przetwarzania danych niestrukturalnych (unstructured). Nie obsługują funkcji Strukturalnego Języka Zapytań (SQL). Umożliwiają szybszy dostęp do informacji niż relacyjna baza danych (RDBMS). Są użyteczne do zarządzania rozległymi zbiorami rozproszonych danych.

10 Który system jest otwartą wersją (open-source) patentu MapReduce Google'a? Hive Cassandra Hadoop? MongoDB System Big Data może być zdefiniowany przy pomocy trzech kluczowych parametrów, których nazwy rozpoczynają się od litery 'V'. Która z przedstawionych poniżej nazw nie jest parametrem określającym system Big Data? Value Volume Velocity Variety Co to jest Hadoop? Rozproszony system plików. Platforma SaaS, udostępniająca dane typu Big Data w postaci serwisu. Kolekcja technologii, umożliwiających przetwarzanie informacji typu Big Data. Projekt Apache, dedykowany do danych o wysokiej dostępności i krytycznym znaczeniu. Co oznacza NoSQL? None or SQL No SQL Never Open SQL Not Only SQL Który system NIE JEST przykładem bazy NoSQL? Column Store Relational Document Store Key-Value Hadoop jest strukturą (framework), zbudowaną z wielu powiązanych narzędzi. Do podstawowego zestawu należą: MapReduce, Hive, HBase MapReduce, MySQL, Google Apps MapReduce, Hummer, Iguana MapReduce, Heron, Trumpet Jaka jest domniemana wielkość bloku w systemie plików HDFS? 512 bytes 64 MB 1024 KB Żadne z powyższych. Czym jest Mongo DB? document database graph database key-value store relational database

11 HBase jest bazą dokumentów. bazą o strukturze kolumnowej (column-oriented) składnicą typu klucz-wartość (key-value store). bazą relacyjną. Co oznacza pojęcie otwartych danych (Open Data)? Big Data Linked Data Dane RDF udostępniane przez instytucje administracji publicznej. Dane dostępne powszechnie I nieodpłatnie. W systemie plików HDFS dane są podzielone na Bloki o wielkości definiowanej przez użytkownika. Bloki o różnych wielkościach. Zbiór bloków zrównoważonych. Stałą liczbę bloków.