Big Data i 5V Nowe wyzwania w świecie danych Krzysztof Goczyła



Podobne dokumenty
Hurtownie danych wykład 5

MongoDB. wprowadzenie. dr inż. Paweł Boiński, Politechnika Poznańska

Przetwarzanie danych w chmurze

Bazy danych NoSQL. wprowadzenie. Szymon Francuzik Poznań,

Mateusz Kurleto NEOTERIC. Analiza projektu B2B Kielce, 18 października 2012

NoSQL & relax with CouchDB

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

BAZY DANYCH. NIERELACYJNE BAZY DANYCH NoSQL I ASOCJACYJNE STRUKTURY DANYCH. Adrian Horzyk. Akademia Górniczo-Hutnicza

*Grafomania z. Neo4j. Praktyczne wprowadzenie do grafowej bazy danych.

Dane bezpieczne w chmurze

NoSQL: Riak. dr inż. Sebastian Ernst Katedra Informatyki Stosowanej

Narzędzia i trendy Big Data

Chmura nad Smart City. dr hab. Prof. US Aleksandra Monarcha - Matlak

Przetwarzanie danych w chmurze

Wprowadzenie do NoSql. Maksymilian Wiesiołek

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Bazy danych NoSQL. Szymon Francuzik Poznań,

Wprowadzenie do Hurtowni Danych

Chmura obliczeniowa. Sieci komputerowe laboratorium A1 (praca grupowa w chmurze)

Problemy niezawodnego przetwarzania w systemach zorientowanych na usługi

Wprowadzenie do Hurtowni Danych

"System CC1 jak zbudować prywatną chmurę obliczeniową w jedno popołudnie. M. Witek, M. Zdybał w imieniu CC1

USŁUGI HIGH PERFORMANCE COMPUTING (HPC) DLA FIRM. Juliusz Pukacki,PCSS

Definicja. Not Only SQL

CSA STAR czy można ufać dostawcy

Spis treści. Wstęp... 11

Technologie Informacyjne

Searching for SNPs with cloud computing

Hbase, Hive i BigSQL

BAZY DANYCH WYKŁAD 5 NO-SQL DATABASE

(Apache) CouchDB. Krzysztof Kulewski 2008

CLOUD COMPUTING CHMURA OBLICZENIOWA I PLATFORMA WINDOWS AZURE

Big Data to skalowalność i prostota obsługi wielkich ilości danych!

Zapewnienie dostępu do Chmury

Cloud Computing wpływ na konkurencyjność przedsiębiorstw i gospodarkę Polski Bohdan Wyżnikiewicz

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

Arkadiusz Rajs Agnieszka Goździewska-Nowicka Agnieszka Banaszak-Piechowska Mariusz Aleksiewicz. Nałęczów, 20lutego 2014

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO

011 ASPEKTY BAZ NOSQL. Prof. dr hab. Marek Wisła

Przetwarzanie i zabezpieczenie danych w zewnętrznym DATA CENTER

Bazy danych - wykład wstępny

Oracle Log Analytics Cloud Service

Hadoop i Spark. Mariusz Rafało

Definicja, rodzaje chmur obliczeniowych oraz poziomy usług

Bezpieczeństwo IT z Open Source na nowo

WPROWADZENIE DO BAZ DANYCH

010 NOSQL. Prof. dr hab. Marek Wisła

Zaawansowany kurs języka Python

Warszawa, 6 lutego Case Study: Chmura prywatna HyperOne dla Platige Image dzięki Microsoft Hyper-V Server. Wyzwanie biznesowe

Czy cloud computing to sposób na rozwiązanie problemu piractwa?

OCHRONA SIECI DLA KAŻDEJ CHMURY

Definicja bazy danych TECHNOLOGIE BAZ DANYCH. System zarządzania bazą danych (SZBD) Oczekiwania wobec SZBD. Oczekiwania wobec SZBD c.d.

Tematy projektów Edycja 2014

CouchDB. Michał Nowikowski

Co to jest chmura (Cloud Computing)?

ADMINISTRACJA PUBLICZNA W CHMURZE OBLICZENIOWEJ

Archiwum Cyfrowe jako usługa w modelu Cloud Computing

Wirtualizacja sieci - VMware NSX

Wybrane działy Informatyki Stosowanej

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Prawne aspekty wykorzystania chmury obliczeniowej w administracji publicznej. Michał Kluska

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Tworzenie aplikacji bazodanowych

Pojęcie bazy danych. Funkcje i możliwości.

Cechy e-usługi i e-firmy. Elastyczność i niezawodność. Jak się przygotować na zmiany?

Bazy danych 12. Bazy NoSQL. P. F. Góra

CHMURA OBLICZENIOWA (CLOUD COMPUTING)

Model funkcjonowania MPTI

Rozwiązania kognitywne to nie tylko software...

Parametry wydajnościowe systemów internetowych. Tomasz Rak, KIA

Szkolenie wycofane z oferty. Apache Cassandra - modelowanie, wydajność, analiza danych

Prezentacja specjalności studiów II stopnia. Inteligentne Technologie Internetowe

PureSystems zautomatyzowane środowisko aplikacyjne. Emilia Smółko Software IT Architect

Nowe technologie baz danych

Laboratorium Chmur obliczeniowych. Paweł Świątek, Łukasz Falas, Patryk Schauer, Radosław Adamkiewicz

FUNKCJE SZBD. ZSE - Systemy baz danych 1

Cloud Computing - Wprowadzenie. Bogusław Kaczałek Kon-dor GIS Konsulting

Zastosowanie chmury obliczeniowej w diagnostyce dróg

Specjalizacja magisterska Bazy danych

na podstawie bazy Oracle NoSQL

W książce omówiono: SAP zostań ekspertem w 24 godziny!

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

MapReduce. Janina Mincer-Daszkiewicz Systemy rozproszone. MSUI, II rok

Projektowanie i implementacja wysokowydajnych aplikacji w języku

Programowanie aplikacji przetwarzających w chmurze. Bazy danych.

Bezpieczeństwo dla wszystkich środowisk wirtualnych

Piotr Majkowski. Politechnika Warszawska Wydział Elektroniki i Technik Informacyjnych Instytut Telekomunikacji

Architektura rozproszonych magazynów danych

Bezpieczeostwo chmury szansa czy zagrożenie dla Banków Spółdzielczych?

Zwiększanie bezpieczeństwa usług sieciowych poprzez wirtualizację systemu operacyjnego

Wprowadzenie do Apache Spark. Jakub Toczek

Informacje wstępne Autor Zofia Kruczkiewicz Wzorce oprogramowania 4

Obiektowość BD Powtórka Czas odpowiedzi. Bazy Danych i Systemy informacyjne Wykład 14. Piotr Syga

Wykład V. Rzut okiem na języki programowania. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

NoSQL Not Only SQL, CouchDB. I.Wojnicki, NoSQL. Apache CouchDB has started. Time to relax. Igor Wojnicki

Koncepcja wirtualnej pracowni GIS w oparciu o oprogramowanie open source

Zmiana sposobu dostarczania aplikacji wspierających funkcje państwa

Transkrypt:

Big Data i 5V Nowe wyzwania w świecie danych Krzysztof Goczyła Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska kris@eti.pg.gda.pl Sopot, 10.09.2014 1

O czym będzie? Co to jest Big Data? 5V Problemy i metody przetwarzania Big Data Istniejące rozwiązania Podsumowanie 2

Co to jest Big Data? Big Data (wielkie dane) Zbiory informacji o bardzo dużej objętości, dużej szybkości narastania i dużej różnorodności, które wymagają nowych, nieklasycznych metod i narzędzi do ich przechowywania, przetwarzania i analizowania dla potrzeb podejmowania decyzji, odkrywania nowych zjawisk i optymalizacji procesów. Szacowania: światowe zbiory cyfrowe osiągnęły 5 ZB (= 5 10 21 B) (International Data Corporation) światowy przepływ danych w 2014 r osiągnie 75 EB (= 75 10 18 B) (IBM) 3

Źródła Big Data Dane generowane przez użytkowników portali internetowych, w tym sieci społecznościowych Dane opisujące transakcje dokonywane poprzez Internet Dane naukowe (biologiczne, astronomiczne, pomiary fizyczne itp.) Dane generowane przez roboty przeszukujące Internet (Web mining, Web crawling) Dane grafowe obrazujące powiązania pomiędzy stronami WWW Dane pochodzące czujników i urządzeń podłączonych do Internetu (Internet of Things) 4

5 (=3+2) V olume ogromna objętość danych, liczona w tera- i petabajtach, wykraczająca poza normy spotykane w bazach danych elocity duża szybkość narastania danych, większa niż w tradycyjnych systemach ariety duża różnorodność struktury danych i ich treści eracity wiarygodność i dokładność (prawdziwość) danych alue rzeczywista wartość dla analiz i procesów podejmowania decyzji 5

Rozproszenie i replikacja (R+R) Rozproszenie danych Rozmieszczenie danych na wielu komunikujących się ze sobą serwerach danych (komputerach fizycznych lub wirtualnych). Zasady: serwery połączone są siecią serwery mogą funkcjonować autonomicznie (dopuszczamy możliwość izolowania fragmentów sieci) rozproszenie powinno być przezroczyste dla użytkownika 6

Rozproszenie i replikacja (R+R) Replikacja danych Sytuacja, w której w systemie rozproszonym te same dane znajdują się na wielu serwerach danych. Problemy: spójność (consistency) spójność a dostępność (consistency vs availability) ostateczna spójność (eventual consistency) 7

Rozproszenie i replikacja (R+R) Rozproszenie danych zwiększa dostępność (availability), efektywność przetwarzania (efficiency) i bezpieczeństwo dostępu do danych (security), a także zapewnia poziomą skalowalność (horizontal scalability), konieczną do obsługi Big Data. Replikacja danych zwiększa dostępność (availability) i efektywność dostępu do danych (efficiency), a także polepsza ogólną niezawodność (reliability) systemu rozproszonego. Problem: (twierdzenie CAP) W systemie rozproszonym nie można jednocześnie zapewnić spójności i dostępności w każdym momencie funkcjonowania systemu. 8

Systemy baz danych NoSQL Cechy charakterystyczne: brak schematu danych (zasada schema on read zamiast schema on write) złożone, zagnieżdżone struktury danych brak normalizacji danych efektywność przetwarzania dużych danych drogą rozproszenia i zrównoleglenia operacji łatwość w dokonywaniu replikacji danych duża dostępność (availability) wysoka skalowalność horyzontalna brak deklaratywnego języka dostępu (brak możliwości złączeń, ), zamiast tego interfejsy programistyczne (Java, JavaScript, Ruby, Gremlin, ) ograniczone zachowanie zasad ACID ograniczone możliwości indeksowania 9

Systemy typu klucz/wartość Dane przechowywane są w postaci par klucz/wartość. Wartość może być dowolnego typu, np. ciąg bajtów interpretowanych programowo. Klucz może być hierarchiczny. Klucze pomorskie pomorskie/gdańsk pomorskie/gdynia mazowieckie mazowieckie/warszawa mazowieckie/warszawa/mokotów Wartości jakieś informacje o woj. pomorskim jakieś informacje o Gdańsku jakieś informacje o Gdyni jakieś informacje o woj. mazowieckim jakieś informacje o Warszawie jakieś informacje o Mokotowie - dzielnicy Warszawy Przykłady baz open source tego typu: Riak, Redis, Voldemort 10

Systemy kolumnowe Dane przechowywane są kolumnami a nie wierszami, tj. dane z danej kolumny są przechowywane razem. Dodawanie kolumn jest bardzo łatwe. Każdy wiersz może mieć inny zestaw kolumn, bez konieczności przechowywania wartości pustych (NULL) lub nieznanych (UNKNOWN). klucze wierszy rodzina kolumn kolor rodzina kolumn kształt rodzina kolumn rozmiar 1 biały : #F00 zielony : #F0F żółty : #F00 kwadrat : 4 trójkąt : 3 2 prostokąt : 4 a : 12 b : 8 3 biały : #F00 czarny : #FFF wiersze, klucze, rodziny kolumn, kolumny, wartości Przykłady baz open source tego typu: HBase, Cassandra, Hypertable 11

Systemy dokumentowe Służą do przechowywania dokumentów. Dokument ma identyfikator i treść o dowolnie złożonej, elastycznej strukturze dopuszczającej zagnieżdżanie innych dokumentów. >printjson (db.towns.findone( { _id : ObjectId( a0454d06bf7704eaaff32129 )})) Dokument { } _id : ObjectId( a0454d06bf7704eaaff32129 ), country : { $ref : countries, $_id : ObjectId( a0454df740f340296ceaaf21 ) }, name : Portland, state : OR, last_census : Thu Sep 20 2007 00:00:00 GMT, population : 582000, mayor : { name : Sam Adams, party : D }, famous_for : [ beer, food ] Kolekcja dokumentów Baza danych Identyfikator dokumentu Wydruk dokumentu w formacie JSON Przykłady baz open source tego typu: MongoDB, CouchDB 12

Systemy grafowe Grafowa baza danych to zbiór węzłów i relacji pomiędzy węzłami (łuków). Węzły i łuki mogą mieć własności (atrybuty) postaci klucz/wartość. 3: Joanna Bator 0: Henryk Sienkiewicz 1: Trylogia 5: Powieść historyczna 3: Wiesław Myśliwski 2: Rodzina Połanieckich 6: Literatura piękna 4: Ostatnie rozdanie 9: Janek 8: Tomek zna 3: Henryk 7: Tomek 10: Ania Sieć społecznościowa w postaci grafowej bazy danych Przykłady baz open source tego typu: Neo4J 13

MapReduce model programistyczny Ogólna zasada: Obliczenia (wykonywane równolegle na wielu maszynach) pobierają wejściowe pary klucz/wartość i produkują inne pary wyjściowe klucz/wartość. Faza 1 Map: (k1, v1) k2, v2 Faza 2 Reduce: (k2, List(v2)) (k2, List(v3)) Potrzebna jest warstwa pośrednicząca, która zgrupuje wyniki fazy Map według tej samej wartości k2 i przekaże je do fazy Reduce. 14

MapReduce Przykład Dana jest duża kolekcja dokumentów. Oblicz liczbę wystąpień każdego słowa w tej kolekcji. Map (String key, String value): // key: nazwa dokumentu // value: zawartość dokumentu for each word w in value: Emit (w, 1); Wynik: List(słowo, 1) Reduce (String key, List values): // key: słowo // value: lista liczników int result = 0; for each v in values: result += ParseInt(v); Emit (key, AsString(result)); Wynik: List(słowo, n) 15

MapReduce Typowe zastosowania (1) Poszukiwanie tekstu wg zadanego wzorca: W kolekcji dokumentów znajdź wiersze tekstu, które odpowiadają zadanemu wzorcowi. Mierzenie popularności stron WWW: Dla każdej strony WWW z kolekcji adresów URL podaj liczbę dostępów do tej strony na podstawie logów. Budowa grafu powiązań stron WWW: Dla każdej strony WWW z kolekcji adresów URL podaj listę stron, do których dana strona się odwołuje. 16

MapReduce Typowe zastosowania (2) Budowa indeksu odwróconego: Dla każdego słowa występującego w kolekcji dokumentów podaj listę dokumentów, w których dana słowo występuje. Sortowanie: Posortuj listę rekordów według wartości podanego klucza. Analiza częstotliwości słów: Dla danego zbioru stron WWW danych adresami URL podaj częstotliwości słów występujących na danej stronie. 17

MapReduce - Realizacja 18

Cloud Computing Cloud Computing (przetwarzanie w chmurze) Paradygmat przetwarzania bazujący na wirtualizacji zasobów. Wirtualizacja Mechanizm dostępu do zasobów centrum przetwarzania (Data Center) poprzez oprogramowanie ukrywające fizyczne aspekty tych zasobów. Tworzy to wirtualną platformę przetwarzania, do której fizyczne zasoby mogą być przydzielane dynamicznie, zależnie od aktualnych potrzeb, bez wiedzy i ingerencji użytkownika. Wirtualizowane zasoby: procesory pamięć dyskowa pamięć operacyjna sieć komunikacyjna 19

Cloud Computing Modele dostarczania usług przetwarzania w chmurze: Infrastructure as a Service (IaaS) Użytkownik otrzymuje sprzęt (procesory, pamięć operacyjną i dyskową, sieć komunikacyjną, tak jakby miał to u siebie. Platform as a Service (PaaS) Użytkownik otrzymuje system operacyjny i narzędzia programistyczne, wszystko na skalowalnej platformie. Software as a Service (SaaS) Użytkownik ma dostęp do konkretnych aplikacji w ich najaktualniejszej wersji. 20

Cloud Computing Firma D Firma B Firma A Firma C Chmura prywatna Chmura wspólna Chmura hybrydowa Chmura publiczna Wirtualna chmura prywatna Amazon EC2 Google App Engine Windows Azure Dowolny użytkownik Modele biznesowe korzystania z usług w chmurze 21

Podsumowanie Big Data obszerne dane o zmiennej strukturze, napływające szybko i nieustannie z różnych źródeł Wymagają nowych narzędzi do przechowywania, zarządzania i przetwarzania Odpowiedzią są wysoce skalowalne bazy NoSQL i algorytmy przetwarzania o wysokim stopniu rozproszenia i zrównoleglenia Problem najpoważniejszy integracja, redukcja i interpretacja Big Data oraz wydobywanie z nich informacji i wiedzy 22

Dziękuję za uwagę! 23