Map Reduce Wprowadzenie do Apache Hadoop

Podobne dokumenty
Map Reduce Proste zliczanie słów i zapytania SQL

Stosowanie poleceń związanych z zarządzaniem plikami oraz katalogami: nazwa_polecenia -argumenty ścieżka/ścieżki do katalogu/pliku

Wprowadzenie do Apache Spark. Jakub Toczek

Ćwiczenie Nr 7 Instalacja oraz konfiguracja wskazanego systemu operacyjnego

Język JAVA podstawy. wykład 1, część 2. Jacek Rumiński. Politechnika Gdańska, Inżynieria Biomedyczna

Pracownia Komputerowa wyk ad II

Maple i wykresy. 1.1 Najpierw należy się zalogować. Jak to zrobić zostało opisane w moim poprzednim tutorialu.

Wstęp do systemów wielozadaniowych laboratorium 03 Praca w powłoce UNIX-owej

OnLine Analytical Processing (OLAP) Zapytania SQL

ArchTour Documentation

host name: protokół SSH System plików - wprowadzenie Ścieżki dostępu

Ćwiczenie 9 Linux - operacje systemu plików

Zaawansowane aplikacje internetowe - laboratorium

Pracownia Komputerowa wykład II

Rys. 1. Widok uruchomienia polecenia apt-get install build-essential. Rys. 2. Widok uruchomienia polecenia apt-get install apache2

Opis instalacji programu Scratch

Sprawozdanie. (notatki) Sieci komputerowe i bazy danych. Laboratorium nr.3 Temat: Zastosowanie protokołów przesyłania plików

Java Podstawy. Michał Bereta

Java jako język programowania

Generatory pomocy multimedialnych

WPROWADZENIE DO JĘZYKA JAVA

Dokumentacja programu TT-Manager. Wersja 2.1 Copyright 2012 Top-Team TT Sp. z o.o.

tworzenie katalogów Aby utworzyć nowy katalog wpisz: mkdir katalog1 Ta komenda utworzy katalog o nazwie katalog1.

PSK. Jak przygotować maszynę wirtualną? 1. Utworzenie maszyny wirtualnej

Ćwiczenie 1. Przygotowanie środowiska JAVA

System plików - wprowadzenie. Ścieżki dostępu. Informatyka ćw 1

1. Znajdź za pomocą programu locate wszystkie pliki które zawierają w nazwie słowo netscape locate netscape

Systemy zarządzania produkcją - MES

Niektóre katalogi są standardowymi katalogami zarezerwowanymi do użytku przez system. Znaczenie wybranych katalogów systemowych jest następujące:

Dodatki. Dodatek A Octave. Język maszyn

JDK 7u25 NetBeans Zajęcia 1 strona - 1

Kostki OLAP i język MDX

INSTRUKCJA INSTALACJI APLIKACJI SEPI W SYSTEMIE LINUX. Dokumentacja zasilania aplikacji SEPI dla systemu Linux

Windows XP Wiersz polecenia

Programowanie Urządzeń Mobilnych. Laboratorium nr 7, 8

System operacyjny Linux wybrane zagadnienia. Magda Mielczarek Katedra Genetyki Uniwersytet Przyrodniczy we Wrocławiu

Wstęp do systemu Linux

Instalacja i opis podstawowych funkcji programu Dev-C++

Chemiateoretyczna. Monika Musiał. Ćwiczenia

BASH - LINIA POLECEŃ. Bioinformatyka 2018/2019

Migracja z programu Symfonia Kadry i Płace wer 3.x do Kadr i Płac Forte

System kontroli dostępu ACCO NET Instrukcja instalacji

PRACOWNIA INFORMATYCZNA BASH - PODSTAWOWE INFORMACJE

ZAJĘCIA Komendy Linux WB -> w konsoli tty2 finger exit man pwd pwd finger ls man ls. -> po 2 minusach interpretacja słowa

Mirror Tool.

Systemy operacyjne. Instrukcja laboratoryjna. Ćwiczenie 1: Polecenia systemu UNIX/LINUX. Opracował: dr inż. Piotr Szpryngier

Instrukcja użytkownika aplikacji npodpis r.

Instrukcja uruchomienia egzaminu z użyciem Wirtualnego Serwera Egzaminacyjnego

Ćwiczenie 1. Podstawowe wiadomości

IBM SPSS Statistics dla systemu Linux Instrukcje instalacji (licencja sieciowa)

Trochę o plikach wsadowych (Windows)

Windows Serwer 2008 R2. Moduł 8. Mechanizmy kopii zapasowych

IBM SPSS Statistics Wersja 22. Linux - Instrukcja instalacji (licencja wielokrotna)

Kalipso wywiady środowiskowe

Ćwiczenie 1.1. Korzystając z internetu dowiedz się, czym jest system uniksopodobny (*NIX) oraz jak rozwijały się systemy z tej rodziny.

CitiDirect Online Banking - portal CitiDirect EB

IBM SPSS Statistics Wersja 23. Konfigurowanie ułatwień dostępu

Wstęp do systemu Linux

Pracownia Informatyczna I ORGANIZACJA ZAJĘĆ, ZASADY ZALICZENIA

System operacyjny UNIX system plików. mgr Michał Popławski, WFAiIS

Egzamin pisemny z przedmiotu: Systemy operacyjne Semestr I

Kancelaria instalacja programu

Instalacja serwera baz danych PostgreSQL ze źródeł i pierwsze uruchomienie

Qmail radość listonosza. Autorzy: Bartosz Krupowski, Marcin Landoch IVFDS

Architektura rozproszonych magazynów danych

Wstęp do systemów wielozadaniowych laboratorium 02 Praca w systemie plików

Linux: System Plików

7 Business Ship Control dla Wf-Mag Prestiż i Prestiż Plus

Instalacja środowiska MPI w systemie operacyjnym Linux

Programowanie obiektowe

Apache Hadoop framework do pisania aplikacji rozproszonych

PLNOG#10 Hadoop w akcji: analiza logów 1

Java pierwszy program w Eclipse «Grzegorz Góralski strona własna

Joomla! Instalacja. Pobierz pakiet instalacyjny. instalacji XAMPP

Sieci i systemy operacyjne I Ćwiczenie 1. Podstawowe polecenia systemu Unix

Instalacja programu na systemie vista/win7/win8/win10. Instrukcja dotyczy instalacji wszystkich programów ( na przykładzie Helios ).

Wprowadzenie. Organizacja pracy i środowisko programistyczne. Mirosław Ochodek

Architektura systemów informatycznych WPROWADZENIE DO SYSTEMU LINUX

Pracownia Komputerowa wykład III

Instrukcja instalacji środowiska testowego na TestingCup wersja 1.0

Instrukcja użytkownika Platforma transakcyjna mforex Trader dla systemu Linux

Instrukcja instalacji oprogramowania dla środowiska Linux

Lab3 - Zastosowania protokołów przesyłania plików

Instrukcja obsługi Multiconverter 2.0

plansoft.org Zmiany w Plansoft.org Błyskawiczny eksport danych PLANOWANIE ZAJĘĆ, REZERWOWANIE SAL I ZASOBÓW

Konsola Linux. autor: Mariusz Barnaś

AKTYWNY SAMORZĄD. Instrukcja instalacji, aktualizacji i konfiguracji.

Operatory zmiany sposobu przypisania standardowych strumieni >,<,>> Jeżeli pierwsze polecenie powiodło się to wykona drugie

26.X.2004 VNC. Dawid Materna

Aktualizowanie systemów operacyjnych

Wdrożenie do projektu

Aktyn - W Płace-Kadry Pro SQL E-DEKLARACJE

Katedra Architektury Systemów Komputerowych Wydział Elektroniki, Telekomunikacji i Informatyki Politechniki Gdańskiej

Skrypty powłoki Skrypty Najcz ciej u ywane polecenia w skryptach:

Dokumentacja programu TT-Manager. Wersja 2.2 Copyright 2016 Top-Team TT Sp. z o.o.

Zawartość. Wstęp. Moduł Rozbiórki. Wstęp Instalacja Konfiguracja Uruchomienie i praca z raportem... 6

Instrukcja generowania żądania CSR SOW WERSJA 1.6

Laboratorium 2: Portfolio zdjęciowe, p.2

SIP Studia Podyplomowe Ćwiczenie laboratoryjne Instrukcja

Transkrypt:

Map Reduce Wprowadzenie do Apache Hadoop 8 maja 2014 Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików PDF sformatowanych jak ten. Będą się na nie składały różne roadzje zadań, ale za każdym razem będą odpowiednio oznaczone: Zadania do wykonania na zajęciach oznaczone są symbolem nie są one punktowane, ale należy je wykonać w czasie zajęć. Punktowane zadania do wykonania na zajęciach oznaczone są symbolem należy je wykonać na zajęciach i zaprezentować prowadzącemu. Zadania do wykonania w domu oznaczone są symbolem - są one punktowane, należy je dostarczyć w sposób podany przez prowadzącego i w wyznaczonym terminie (zwykle do dwóch dni przed kolejnymi zajęciami). Po zakończeniu zajęć proszę o udzielenie odpowiedzi na kilka pytań zebranych w ankietę dostępną pod adresem http://goo.gl/x75obw 1

Wstęp Na zajęciach będziemy wykorzystywać implementację paradygmatu Map Reduce Apache Hadoop w stabilnej wersji 1.2.1. Jak zainstalować Hadoop w domu? 1. Zaleca się instalację w środowisku unixowym (np. Linux Ubuntu, Mac OS X). Użytkownikom Windows proponuje się instalację środowiska Hadoop na wirtualnej maszynie z Linuxem. 2. Należy pamiętać o zainstalowanej Javie! 3. Paczkę instalacyjną pobieramy np. stąd: http://ftp.piotrkosoft.net/pub/mirrors/ftp.apache.org/hadoop/common/hadoop- 1.2.1/. 4. Przykładowo dla Ubuntu pobieramy paczkę.deb i instalujemy za pomocą np. Ubuntu Software Center. Można pobrać również wersję portable w archiwum.tar, której nie musimy instalować. 5. Po instalacji należy pamiętać o wpisaniu odpowiedniej ścieżki do Javy w pliku konfiguracyjnym hadoop-env.sh w linijce rozpoczynającej się od export JAVA HOME=... Przy instalacji w Ubuntu paczki.deb plik znajduje się w /etc/hadoop/hadoop-env.sh, natomiast przy pobraniu archiwum w katalogu conf. 6. Gotowe! Aby uruchomić zainstalowany Hadoop wpisujemy po prostu hadoop w wierszu poleceń. Binarka Hadoopa portable znajduje się w katalogu bin. Można również pobrać wirtualną maszynę (VMware lub VirtualBox) z portalu Cloudera z preinstalowanym i skonfigurowanym Hadoopem: http://www.cloudera.com/content/support/en/downloads/download-components/downloadproducts.html?productid=f6mo278rvo 2

1 Hadoop Distributed File System Hadoop wykorzystuje rozproszony system plików HDFS (Hadoop Distributed File System). Programy uruchamiane przy pomocy frameworka Hadoop muszą odwoływać się do tego systemu plików, a nie do lokalnego systemu plików. Poruszanie się po systemie plików HDFS jest analogiczne do lokalnego systemu plików w środowisku unixowym, z tą różnicą, że wykonujemy je przez polecenie hadoop dfs z odpowiednim parametrem poprzedzonym myślnikiem -. Przykładowe polecenie kopiowania plików znajdujących się w HDFS: hadoop dfs -cp /tmp/folder1/file.txt /tmp/folder2/file.txt gdzie -cp to parametr odpowiadający poleceniu kopiowania. Żeby poćwiczyć poruszanie się w HDFS wykonaj następujące zadania (dla ułatwienia w nawiasie podano nazwę polecenia): 1. Stwórz katalog /tmp/infxxxxxx, gdzie XXXXXX to Twój numer indeksu (polecenie mkdir). 2. Stwórz katalogi /tmp/infxxxxxx/a, /tmp/infxxxxxx/b, /tmp/infxxxxxx/c (polecenia mkdir). 3. Umieść w katalogu /tmp/infxxxxxx pusty plik inf.txt (polecenie put). 4. Wyświetl zawartość katalogu /tmp/infxxxxxx (polecenie ls). 5. Wyświetl zawartość katalogu /tmp/infxxxxxx i wszystkich jego podkatalogów (polecenie lsr). 6. Usuń plik inf.txt (polecenie rm). 7. Utwórz plik tekstowy o dowolnej zawartości i wgraj go do katalogu /tmp/infxxxxxx/a, a następnie skopiuj go również do podkatalogów B i C (polecenie cp). 8. Wyświetl zawartość dodanego przed chwilą pliku (polecenie cat). 9. Pobierz plik do Twojego katalogu domowego (polecenie get). 3

2 Przykładowe programy w Hadoop W katalogu głownym Hadoop znajdziesz plik hadoop-examples-1.2.1.jar. Wykonaj polecenie hadoop jar podając ten plik jako arguemnt. Co widzisz? Wykonaj program odpowiadający za wyliczenie liczby Pi. Zapoznaj się z pomocą do tego programu. Spróbuj wykorzystać inne z przykładowych programów. Może Ci się przydać plik all-bible.txt dostępny na stronie przedmiotu. 4

3 Hello World w Hadoop 2p. Ze strony przedmiotu pobierz przykładowy projekt wykorzystujący Hadoop. Zapoznaj się z klasą DWDriver oraz klasą WordCount. uzupełnij kod klasy WordCount tak, aby liczyła wystąpienia wyrazów w podanym tekście. Przetestuj swój kod na swoim pliku tekstowym (dowolne zdanie) oraz na zbiorze all-bible.txt. 5

4 N-gram 2p. Zadanie realizujemy jeżeli wystarczy czasu. N-gramem nazywamy ciąg n kolejnych znaków pobranych z pewnej frazy. Na przyklad dla zdania Ala ma kota otrzymamy następujące 3-gramy wraz z ich licznościami: " ko" : 1 " ma" : 1 "Ala" : 1 "a k" : 1 "a m" : 1 "kot" : 1 "la " : 1 "ma " : 1 "ota" : 1 Twoim zadaniem jest napisać program wykorzystujący framework Hadoop, który dla dowolnego zbioru dokumentów tekstowych (korpusu) wygeneruje N-gramy dla każdej z linijek i policzy ich liczności w całym korpusie. Niech liczba n będzie dowolna, wybierana podczas uruchomienia programu. Możesz skorzystać z przygotowanego szablonu projektu (klasa NGramCount). Zadanie niedokończone podczas zajęć można dokończyć w domu i najpóźniej do wtorku do północy należy przesłać implementację klasy NGram- Count prowadzącemu. Uwaga: jeżeli zadania nie zdążymy rozpocząć na zajęciach to ono nie obowiązuje! 6