Bigtable Rozproszony system pamięci
|
|
- Bartłomiej Sobczyk
- 8 lat temu
- Przeglądów:
Transkrypt
1 Bigtable Rozproszony system pamięci Janina Mincer-Daszkiewicz Systemy rozproszone MSUI, II rok
2 Materiały i rysunki zaczerpnięto z następujących źródeł Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A. Wallach, Mike Burrows, Tushar Chandra, Andrew Fikes, Rebert E. Gruber, Bigtable: A Distributed Storage System for Structured Data, firma Google, OSDI 2006 Artykuł: Prezentacja: slides.pdf 2
3 Inne źródła Kamil Anikiej, prezentacja na seminarium z Systemów Rozproszonych Praca magisterska Tomasza Wekseja, Niezawodność w rozproszonych systemach bazodanowych Apache Hadoop, HDFS, Hbase Gemius, MooseFS, Gemius Bigtable 3
4 Wprowadzenie Rozproszony system pamięci do przechowywania danych o zadanej strukturze, które mogą osiągać bardzo duże rozmiary (petabajty przechowywane na tysiącach serwerów typu off-the-shelf) Cele projektowe: do wielu różnych zastosowań (Google Earth, Google Finance, web indexing), skalowalność, wysoka wydajność, wysoka dostępność Przypomina bazę danych, ale nie wspiera w pełni modelu relacyjnego 4
5 Model danych Bigtable to wielowymiarowy słownik, rzadki, rozproszony, trwały, posortowany Słownik jest indeksowany za pomocą klucza wiersza, klucza kolumny i stempla czasowego; każda wartość w słowniku jest nieinterpretowaną tablicą bajtową. (row: string, column: string, time: int64) string 5
6 Model danych Webtable przechowuje strony webowe (nazwa wiersza to odwrócony URL) Rodzina kolumn contents przechowuje zawartość strony (trzy wersje, ze stemplami t 3, t 5 i t 6 ), anchor teksty odsyłaczy do strony (po jednej wersji) z dwóch serwisów (więc dwie rodziny); inny przykład: language: ID (zawartość to język strony) 6
7 Model danych Webtable Klucze wierszy są dowolnymi napisami (do 64 KB) Każdy odczyt lub zapis z kluczem pojedynczego wiersza jest atomowy Zakres wierszy w tablicy jest dzielony dynamicznie Każdy zakres wierszy nosi nazwę tabletu, jest jednostką 7 rozpraszania i równoważenia obciążenia
8 Model danych Webtable Klucze w kolumnach są grupowane w zbiory zwane rodzinami kolumn, które stanowią podstawową jednostkę kontroli dostępu Trzeba utworzyć rodzinę kolumn nim zacznie się zapisywać dane Klucz kolumny jest tworzony zgodnie ze składnią: family: qualifier Kontrola dostępu oraz liczenie obciążenia dysku i pamięci są wykonywane na poziomie rodzin kolumn 8
9 Model danych Webtable Każda komórka w Bigtable może zawierać wiele wersji tych samych danych Stemple czasowe (64-bitowe liczby całkowite) są przydzielane przez Bigtable lub aplikacje klienta Wspiera dwa zestawy ustawień na rodzinę kolumn, żeby automatycznie odśmiecać wersje, ostatnie n wersji lub najnowsze wersje 9
10 API - Pisanie Kod w C++, operacje w ramach Apply są realizowane atomowo 10
11 API - Czytanie Obiekt scanner umożliwia iterację po wszystkich odsyłaczach w wierszu 11
12 API - inne Wsparcie dla transakcji dotyczących jednego wiersza (czytanie aktualizacja pisanie); aktualnie brak wsparcia dla transakcji obejmujących wiele wierszy Wsparcie dla skryptów dostarczanych przez użytkownika (pisanych w języku Sawzall) wykonywanych w przestrzeni adresowej serwera Wsparcie dla współpracy z MapReduce Bigtable może być używane jako źródło danych wejściowych i jako miejsce na dane wynikowe 12
13 Związek Bigtable z innymi usługami Bigtable korzysta z GoogleFS do przechowywania logów i plików z danymi Dane Bigtable są przechowywane w google owym formacie plików SSTable. SSTable zawiera ciąg bloków (zwykle wielkości 64 KB) oraz blok indeksowy (za ostatnim blokiem danych). Bigtable korzysta z Chubby (rozproszony zarządca blokad) m.in. do zapewnienia, że jest tylko jeden aktywny zarządca, do odszukiwania serwerów tabletów, do przechowywania schematu danych i list kontroli dostępu 13
14 Implementacja Bigtable ma trzy główne składowe: biblioteka dołączana do każdego klienta jeden zarządca wiele serwerów tabletów Serwery tabletów mogą być dynamicznie dodawane lub usuwane z klastra Zadania zarządcy: przydział tabletów do serwerów, monitorowanie dostępności serwerów, równoważenie obciążenia, odśmiecanie plików w GoogleFS Zadania serwera tabletów: zarządzanie zbiorem tabletów (od 10 do tysiąca tabletów), obsługa żądań odczytu i zapisu tabletów, rozbijanie za dużych tabletów na mniejsze (rozmiaru MB) Większość klientów w ogóle nie komunikuje się z zarządcą tabletów (informację o położeniu tabletów dostarcza Chubby) 14
15 Implementacja położenie tabletu Trzy-poziomowa hierarchia analogiczna do tej z B + - drzew do przechowywania informacji o położeniu tabletów 15
16 Implementacja położenie tabletu 2 Każdy wiersz tabletu METADATA przechowuje ok. 1 KB danych, przy założeniu, że jego rozmiar to 128 MB, mamy 2 17 pozycji w bloku indeksowym,czyli łącznie można zaadresować 2 34 tabletów, czyli łącznie 2 34 *2 7 *2 20 bajtów w 128 MB tabletach Biblioteka po stronie klienta buforuje położenie tabletów. Jeśli brak informacji w schowku, to potrzebne są trzy odczytu po sieci (więcej w sytuacji niepoprawnych danych). Biblioteka czyta pozycje z wyprzedzeniem W tablicach METADATA są także trzymane logi zdarzeń dotyczących tabletów 16
17 Implementacja przypisanie tabletu Każdy tablet jest przypisany w danej chwili do jednego serwera tabletu, informację o nim przechowuje zarządca Serwer tabletu podczas startu pobiera blokadę do unikatowego pliku w katalogu Chubby ego; utrata tej blokady oznacza, że serwer przestał działać. Gdy ten plik ginie, serwer wyłącza się, dopóki jest, serwer próbuje odzyskać blokadę Zarządca jest odpowiedzialny za wykrywanie sytuacji, gdy serwer tabletu przestaje działać; cyklicznie odpytuje serwer o status blokady; jeśli nie może się połączyć lub dowiaduje się o utracie blokady, to sam próbuje założyć blokadę i jeśli się uda, to ją usuwa, a tablety z tego serwera oznacza jako nieprzypisane 17
18 Implementacja przypisanie tabletu 2 Gdy zarządca rozpoczyna pracę, musi rozpoznać bieżące przypisanie tabletu nim może je zmienić: zakłada unikatową blokadę zarządcy przegląda katalog z informacją o serwerach komunikuje się z żyjącymi serwerami, żeby odtworzyć listę przypisanych tabletów przegląda tabelę METADATA by poznać pełną listę tabletów i odtworzyć listę tych nieprzypisanych Zbiór istniejących tabletów z zmienia się tylko wtedy, gdy tabela jest tworzona lub usuwana (to inicjuje zarządca) oraz podczas rozbijania dużego tabletu na mniejsze (to inicjuje serwer tabletu podczas commit informacja trafia do tabeli METADATA, zawiadamiany jest zarządca) 18
19 Reprezentacja tabletu Obsługa tabletu 19
20 Obsługa tabletu 2 Zakomitowane zmiany trafiają do logu (rekordy redo), ostatnie są przechowywane w buforze w pamięci, starsze w kolejnych plikach SSTable. Żeby odtworzyć tablet, serwer czyta metadane (listę plików SSTable i zbiór punktów redo, które są wskaźnikami do logów zawierających dane); czyta indeksy plików SSTable, rekonstruuje bufor w pamięci wykonując wszystkie zakomitowane zmiany od punktów redo Operacja zapisu: sprawdzenie uprawnień (Chubby), zapis do logu, zakomitowany zapis do bufora w pamięci Operacja odczytu: sprawdzenie uprawnień (Chubby), wykonanie na połączonym widoku plików SSTable i bufora w pamięci (tworzenie widoku jest efektywne, bo oba zbiory są posortowane leksykograficznie) 20
21 Scalanie Mniejsze scalanie (ang. minor compaction) gdy bufor w pamięci przekroczy ustalony rozmiar, jest konwertowany do formatu SSTable i zapisywany do GoogleFS cel: zmniejsza zużycie pamięci, zmniejsza ilość danych, które trzeba odczytać z logu podczas odtwarzania po awarii efekt: powstaje nowy plik SSTable Scalanie (ang. merging compaction) odczytuje się zawartość kilku plików SSTable oraz bufora z pamięci i tworzy nowy plik SSTable cel: zmniejszenie liczby plików SSTable Większe scalanie (ang. major compaction) scalanie polegające na tym, że wszystkie SSTablice są przepisywane do jednej dane usunięte ostatecznie znikają z systemu 21
22 Grupy lokalności Ulepszenia Kompresja Buforowanie dla poprawienia wydajności odczytów Filtry Blooma Implementacja logu Przyspieszenie odtwarzania tabletu Zbadanie odporności na zmiany 22
23 Wydajność Klaster Bigtable z N serwerami tabletów Serwery tabletów skonfigurowano do użycia 1 GB pamięci i zapisu do komórek GoogleFS składających się z 1786 maszyn z 400 dyskami GD IDE N maszyn klienckich generowało obciążenie BigTable użyte w tych testach. Każda maszyna ma dwurdzeniowy procesor Opteron 2GH, dość pamięci do przechowania zbioru roboczego wszystkich wykonywanych procesów i jedno połączenie Ethernetowe Zarządca, serwery tabletów, testowi klienci i serwery GoogleFS wykonują się na tym samym zbiorze maszyn R to liczba kluczy wierszy Bigtable biorących udział w teście R dobrano tak, że każdy benchmark odczytywał lub zapisywał około 1 GB danych z serwera tabletu 23
24 Wydajność Rate per tablet server Aggregate rate Liczba 1000-bajtowych wartości czytanych/zapisywanych na sekundę 24
25 Atrybuty tabel stosowanych w praktyce 25
26 Wnioski Dlaczego zawsze relacyjna baza danych? Projekt sprawdził się w praktyce, gdyż Bigtable jest używane przez wiele produktów Google a Opłaca się czasem zbudować własne rozwiązanie problemu przechowywania danych 26
Seminarium Bazy Danych I. BigTable. Piotr Świgoń Uniwersytet Warszawski
Seminarium Bazy Danych I BigTable Piotr Świgoń Uniwersytet Warszawski Rzędy wielkości Miliardy URL'i i linków, wiele wersji stron Setki milionów użytkowników Tysiące zapytań na sekundę 2.7 3.3 GB rozmiar
Wstęp Bigtable - opis Wydajność. SZBD Bigtable. Kamil Anikiej. Uniwersytet Warszawski 9 X 2008
Kamil Anikiej Uniwersytet Warszawski 9 X 2008 Rzędy wielkości Trochę historii Konwencjonalne bazy danych Plan prezentacji 1 Wstęp Rzędy wielkości Trochę historii Konwencjonalne bazy danych 2 3 Rzędy wielkości
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Map-Reduce system Single-node architektura 3 Przykład Googla 4 10 miliardów stron internetowych Średnia
MapReduce. Janina Mincer-Daszkiewicz Systemy rozproszone. MSUI, II rok
MapReduce Janina Mincer-Daszkiewicz Systemy rozproszone MSUI, II rok Materiały i rysunki zaczerpnięto z następujących źródeł 1. Jeffrey Dean,Sanjay Ghemawat, MapReduce: Simplified Data Processing on Large
MongoDB. wprowadzenie. dr inż. Paweł Boiński, Politechnika Poznańska
MongoDB wprowadzenie dr inż. Paweł Boiński, Politechnika Poznańska Plan Historia Podstawowe pojęcia: Dokument Kolekcja Generowanie identyfikatora Model danych Dokumenty zagnieżdżone Dokumenty z referencjami
ang. file) Pojęcie pliku (ang( Typy plików Atrybuty pliku Fragmentacja wewnętrzna w systemie plików Struktura pliku
System plików 1. Pojęcie pliku 2. Typy i struktury plików 3. etody dostępu do plików 4. Katalogi 5. Budowa systemu plików Pojęcie pliku (ang( ang. file)! Plik jest abstrakcyjnym obrazem informacji gromadzonej
WPROWADZENIE DO BAZ DANYCH
WPROWADZENIE DO BAZ DANYCH Pojęcie danych i baz danych Dane to wszystkie informacje jakie przechowujemy, aby w każdej chwili mieć do nich dostęp. Baza danych (data base) to uporządkowany zbiór danych z
Tworzenie pliku Zapisywanie pliku Czytanie pliku Zmiana pozycji w pliku Usuwanie pliku Skracanie pliku
System plików Definicje: Plik jest logiczną jednostką magazynowania informacji w pamięci nieulotnej Plik jest nazwanym zbiorem powiązanych ze sobą informacji, zapisanym w pamięci pomocniczej Plik jest
Jarosław Kuchta Administrowanie Systemami Komputerowymi. Internetowe Usługi Informacyjne
Jarosław Kuchta Internetowe Usługi Informacyjne Komponenty IIS HTTP.SYS serwer HTTP zarządzanie połączeniami TCP/IP buforowanie odpowiedzi obsługa QoS (Quality of Service) obsługa plików dziennika IIS
Przykłady DFS z lotu ptaka :) NFS AFS Coda GoogleFS ZFS
Przykłady DFS z lotu ptaka :) NFS AFS Coda GoogleFS ZFS NFS Network File System sieciowy system plików Stworzony przez Sun Microsystems Dostępny dla, m.in.: Unix, Windows, OS/2, Mac OS Pracuje w środowisku
Tabela wewnętrzna - definicja
ABAP/4 Tabela wewnętrzna - definicja Temporalna tabela przechowywana w pamięci operacyjnej serwera aplikacji Tworzona, wypełniana i modyfikowana jest przez program podczas jego wykonywania i usuwana, gdy
System kontroli wersji - wprowadzenie. Rzeszów,2 XII 2010
System kontroli wersji - wprowadzenie Rzeszów,2 XII 2010 System kontroli wersji System kontroli wersji (ang. version/revision control system) służy do śledzenia zmian głównie w kodzie źródłowym oraz pomocy
Windows Serwer 2008 R2. Moduł 5. Zarządzanie plikami
Windows Serwer 2008 R2 Moduł 5. Zarządzanie plikami Sprawdzamy konfigurację kart sieciowych 172.16.x.0 x nr w dzienniku Na serwerze musi działać Internet! Statyczny adres IP jest potrzebny komputerom,
Indeksowanie w bazach danych
w bazach Katedra Informatyki Stosowanej AGH 5grudnia2013 Outline 1 2 3 4 Czym jest indeks? Indeks to struktura, która ma przyspieszyć wyszukiwanie. Indeks definiowany jest dla atrybutów, które nazywamy
Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24
Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24 Agenda Serp24 NoSQL Integracja z CMS Drupal Przetwarzanie danych Podsumowanie Serp24 Darmowe narzędzie Ułatwia planowanie
Problemy niezawodnego przetwarzania w systemach zorientowanych na usługi
Problemy niezawodnego przetwarzania w systemach zorientowanych na usługi Jerzy Brzeziński, Anna Kobusińska, Dariusz Wawrzyniak Instytut Informatyki Politechnika Poznańska Plan prezentacji 1 Architektura
Jarosław Kuchta. Administrowanie Systemami Komputerowymi. System plików
Jarosław Kuchta System plików Partycja a wolumin Partycja część dysku podstawowego (fizycznego) Wolumin część dysku dynamicznego (wirtualnego) System plików 2 Rodzaje dysków Dyski podstawowe partycjonowane
System plików warstwa fizyczna
System plików warstwa fizyczna Dariusz Wawrzyniak Plan wykładu Przydział miejsca na dysku Zarządzanie wolną przestrzenią Implementacja katalogu Przechowywanie podręczne Integralność systemu plików Semantyka
System plików warstwa fizyczna
System plików warstwa fizyczna Dariusz Wawrzyniak Przydział miejsca na dysku Zarządzanie wolną przestrzenią Implementacja katalogu Przechowywanie podręczne Integralność systemu plików Semantyka spójności
System plików warstwa fizyczna
System plików warstwa fizyczna Dariusz Wawrzyniak Przydział miejsca na dysku Przydział ciągły (ang. contiguous allocation) cały plik zajmuje ciąg kolejnych bloków Przydział listowy (łańcuchowy, ang. linked
Cele RAID. RAID z ang. Redundant Array of Independent Disks, Nadmiarowa macierz niezależnych dysków.
Macierze RAID Cele RAID RAID z ang. Redundant Array of Independent Disks, Nadmiarowa macierz niezależnych dysków. - zwiększenie niezawodności (odporność na awarie), - zwiększenie wydajności transmisji
Sektor. Systemy Operacyjne
Sektor Sektor najmniejsza jednostka zapisu danych na dyskach twardych, dyskietkach i itp. Sektor jest zapisywany i czytany zawsze w całości. Ze względów historycznych wielkość sektora wynosi 512 bajtów.
Hurtownie danych wykład 5
Hurtownie danych wykład 5 dr Sebastian Zając SGH Warszawa 7 lutego 2017 1 Współbieżność i integracja Niezgodność impedancji 2 bazy danych Współbieżność i integracja Niezgodność impedancji Bazy relacyjne
Hbase, Hive i BigSQL
Hbase, Hive i BigSQL str. 1 Agenda 1. NOSQL a HBase 2. Architektura HBase 3. Demo HBase 4. Po co Hive? 5. Apache Hive 6. Demo hive 7. BigSQL 1 HBase Jest to rozproszona trwała posortowana wielowymiarowa
Administracja i programowanie pod Microsoft SQL Server 2000
Administracja i programowanie pod Paweł Rajba pawel@ii.uni.wroc.pl http://www.kursy24.eu/ Zawartość modułu 9 Optymalizacja zapytań Pobieranie planu wykonania Indeksy i wydajność - 1 - Zadania optymalizatora
System plików przykłady. implementacji
Dariusz Wawrzyniak Plan wykładu CP/M MS DOS ISO 9660 UNIX NTFS System plików (2) 1 Przykłady systemu plików (1) CP/M katalog zawiera blok kontrolny pliku (FCB), identyfikujący 16 jednostek alokacji (zawierający
IBM DCE/DFS. Mikołaj Gierulski. 17 stycznia 2003
IBM DCE/DFS Mikołaj Gierulski 17 stycznia 2003 1 Spis treści 1 IBM DCE 3 2 DCE/Distributed File Service 3 2.1 Rozwiązanie podstawowych problemów rozproszonych systemów plików.... 3 2.1.1 Nazewnictwo................................
Zapewnienie wysokiej dostępności baz danych. Marcin Szeliga MVP SQL Server MCT
Zapewnienie wysokiej dostępności baz Marcin Szeliga MVP SQL Server MCT Agenda Techniki zapewniania wysokiej dostępności baz Zasada działania mirroringu baz Wdrożenie mirroringu Planowanie Konfiguracja
STROJENIE BAZ DANYCH: INDEKSY. Cezary Ołtuszyk coltuszyk.wordpress.com
STROJENIE BAZ DANYCH: INDEKSY Cezary Ołtuszyk coltuszyk.wordpress.com Plan spotkania I. Wprowadzenie do strojenia baz danych II. III. IV. Mierzenie wydajności Jak SQL Server przechowuje i czyta dane? Budowa
Strojenie systemu Linux pod k¹tem serwera bazy danych Oracle 9i
VI Seminarium PLOUG Warszawa Styczeñ 2003 Strojenie systemu Linux pod k¹tem serwera bazy danych Oracle 9i Marcin Przepiórowski Strojenie systemu Linux pod kątem serwera bazy danych Oracle 9i 7 1. Wstęp
Galileo - encyklopedia internetowa Plan testów
Galileo - encyklopedia internetowa Plan testów Sławomir Pawlewicz Alan Pilawa Joanna Sobczyk Matek Sobierajski 5 czerwca 2006 1 Spis treści 1 Wprowadzenie 3 1.1 Cel..........................................
CouchDB. Michał Nowikowski
CouchDB Michał Nowikowski Agenda Wprowadzenie do CouchDB Mój przypadek Wyniki i wnioski Dokumenty CouchDB Format JSON Pary nazwa wartość Możliwe tablice i struktury Załączniki Brak limitów na liczbę i
Projekt Fstorage. www.fstorage.pl. Łukasz Podkalicki Bartosz Kropiewnicki
Projekt Fstorage www.fstorage.pl Łukasz Podkalicki Bartosz Kropiewnicki Konspekt 1. Problemy związane ze składowaniem plików 2. Dostępne darmowe technologie 3. Opis najczęściej stosowanej technologii 4.
Podstawy teoretyczne baz danych. Recovery Transakcyjne odtwarzanie bazy danych po awarii
Podstawy teoretyczne baz danych Recovery Transakcyjne odtwarzanie bazy danych po awarii Cel odtwarzania Podstawowym celem mechanizmów transakcyjnego odtwarzania bazy danych po awarii jest odtworzenie spójnego
Dokumentacja wstępna TIN. Rozproszone repozytorium oparte o WebDAV
Piotr Jarosik, Kamil Jaworski, Dominik Olędzki, Anna Stępień Dokumentacja wstępna TIN Rozproszone repozytorium oparte o WebDAV 1. Wstęp Celem projektu jest zaimplementowanie rozproszonego repozytorium
Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)
Big Data Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG) Automatyzacja Automatyzacja przetwarzania: Apache NiFi Źródło: nifi.apache.org 4 Automatyzacja
Bazy danych. Dr inż. Paweł Kasprowski
Plan wykładu Bazy danych Architektura systemów zarządzania bazami danych Realizacja zapytań algebra relacji Wielodostęp do danych - transakcje Dr inż. Paweł Kasprowski pawel@kasprowski.pl Aplkacja przechowująca
Klient-Serwer Komunikacja przy pomocy gniazd
II Klient-Serwer Komunikacja przy pomocy gniazd Gniazda pozwalają na efektywną wymianę danych pomiędzy procesami w systemie rozproszonym. Proces klienta Proces serwera gniazdko gniazdko protokół transportu
Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family
Kod szkolenia: Tytuł szkolenia: HADOOP Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family Dni: 5 Opis: Adresaci szkolenia: Szkolenie jest adresowane do programistów, architektów oraz
e-off f i f ce: :Sekr k e r tari r at t w chm h urz r e Marcin Pytel
e-office: Sekretariat w chmurze Marcin Pytel Plan prezentacji 1. Wprowadzenie do systemu e-office. 2. Architektura systemu. 3. Doświadczenia praktyczne z pracy z Azure. 4. Plany dotyczące rozwoju systemu.
Letnia Akademia SUSE. Implementacja nowych rozwiązań open source wszystko, co musisz wiedzieć!
Letnia Akademia SUSE Implementacja nowych rozwiązań open source wszystko, co musisz wiedzieć! Każdy kolejny czwartek do 7 września w godz. 10:00-12:00. Omawiane tematy: Dzisiaj: Budowa Software Defined
Kurs Wizualizacja z WinCC SCADA - Zaawansowany. Spis treści. Dzień 1. I VBS w WinCC podstawy programowania (zmienne, instrukcje, pętle) (wersja 1410)
Spis treści Dzień 1 I VBS w WinCC podstawy programowania (zmienne, instrukcje, pętle) (wersja 1410) I-3 VBS w WinCC - Informacje ogólne I-4 Zastosowanie VBS w WinCC Runtime I-5 Wykorzystanie i wydajność
Apache Hadoop. Wolna implementacja GFS, MapReduce oraz Big Table. Michał Jaszczyk
Co to jest Hadoop? Trochę historii Wolna implementacja GFS, oraz Big Table Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki Seminarium Systemów Rozproszonych 6 listopada 2008 Co to jest
System plików warstwa logiczna
Dariusz Wawrzyniak Pojęcie u Plik jest abstrakcyjnym obrazem informacji gromadzonej i udostępnianej przez system komputerowy. Plik jest podstawową jednostką logiczną magazynowania informacji w systemie
Autor: inż. Wojciech Zatorski Opiekun pracy: dr inż. Krzysztof Małecki
Autor: inż. Wojciech Zatorski Opiekun pracy: dr inż. Krzysztof Małecki Cel Konfiguracja i testowanie serwera WWW Apache w celu optymalizacji wydajności. 2/25 Zakres Konfigurowanie serwera Apache jako wydajnego
AE/ZP-27-16/14. Oprogramowanie do wykonywania kopii zapasowych oraz zarządzania maszynami wirtualnymi
AE/ZP-27-16/14 Załącznik B Oprogramowanie do wykonywania kopii zapasowych oraz zarządzania maszynami wirtualnymi Wykonywanie kopii zapasowych Oprogramowanie do archiwizacji musi współpracować z infrastrukturą
Zarządzanie transakcjami
Zarządzanie transakcjami Właściwości ACID Przyjmuje się, że transakcje i protokoły zarządzania transakcjami powinny posiadać właściwości ACID: Atomowość (atomicity) każda transakcja stanowi pojedynczą
Część I Tworzenie baz danych SQL Server na potrzeby przechowywania danych
Spis treści Wprowadzenie... ix Organizacja ksiąŝki... ix Od czego zacząć?... x Konwencje przyjęte w ksiąŝce... x Wymagania systemowe... xi Przykłady kodu... xii Konfiguracja SQL Server 2005 Express Edition...
Algorytmy i struktury danych. Wykład 4 Tablice nieporządkowane i uporządkowane
Algorytmy i struktury danych Wykład 4 Tablice nieporządkowane i uporządkowane Tablice uporządkowane Szukanie binarne Szukanie interpolacyjne Tablice uporządkowane Szukanie binarne O(log N) Szukanie interpolacyjne
Fizyczna struktura bazy danych w SQL Serwerze
Sposób przechowywania danych na dysku twardym komputera ma zasadnicze znaczenie dla wydajności całej bazy i jest powodem tworzenia między innymi indeksów. Fizyczna struktura bazy danych w SQL Serwerze
Apache Hadoop framework do pisania aplikacji rozproszonych
Apache Hadoop framework do pisania aplikacji rozproszonych Piotr Praczyk Wprowadzenie Istnieje wiele rodzajów obliczeń, których wykonywanie na pojedynczej maszynie, nawet najpotężniejszej, jest zbyt czasochłonne.
Nowe technologie baz danych
Nowe technologie baz danych Partycjonowanie Partycjonowanie jest fizycznym podziałem danych pomiędzy różne pliki bazy danych Partycjonować można tabele i indeksy bazy danych Użytkownik bazy danych nie
Krzysztof Kadowski. PL-E3579, PL-EA0312,
Krzysztof Kadowski PL-E3579, PL-EA0312, kadowski@jkk.edu.pl Bazą danych nazywamy zbiór informacji w postaci tabel oraz narzędzi stosowanych do gromadzenia, przekształcania oraz wyszukiwania danych. Baza
Replikacja bazy danych polega na kopiowaniu i przesyłaniu danych lub obiektów bazodanowych między serwerami oraz na zsynchronizowaniu tych danych w
J. Karwowska Replikacja bazy danych polega na kopiowaniu i przesyłaniu danych lub obiektów bazodanowych między serwerami oraz na zsynchronizowaniu tych danych w celu utrzymania ich spójności. Dane kopiowane
Kompresja tablic obliczeń wstępnych alternatywa dla tęczowych tablic. Michał Trojnara.
Kompresja tablic obliczeń wstępnych alternatywa dla tęczowych tablic Michał Trojnara Michal.Trojnara@pl.abnamro.com Cel prezentacji Zaproponowanie rozwiązania alternatywnego wobec popularnych ataków na
77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego.
77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego. Przy modelowaniu bazy danych możemy wyróżnić następujące typy połączeń relacyjnych: jeden do wielu, jeden do jednego, wiele
Logiczny model komputera i działanie procesora. Część 1.
Logiczny model komputera i działanie procesora. Część 1. Klasyczny komputer o architekturze podanej przez von Neumana składa się z trzech podstawowych bloków: procesora pamięci operacyjnej urządzeń wejścia/wyjścia.
Technologie Informacyjne
Bazy danych Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności November 28, 2016 1 Płaskie pliki 2 Hierarchiczne bazy danych 3 Sieciowe bazy danych 4 Relacyjne bazy danych 5 Kolumnowe Bazy
Wydajność systemów a organizacja pamięci. Krzysztof Banaś, Obliczenia wysokiej wydajności. 1
Wydajność systemów a organizacja pamięci Krzysztof Banaś, Obliczenia wysokiej wydajności. 1 Motywacja - memory wall Krzysztof Banaś, Obliczenia wysokiej wydajności. 2 Organizacja pamięci Organizacja pamięci:
Analiza i pomiar wydajności rozproszonego systemu bazodanowego Gemius BigTable
Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki Jarosław Wódka Nr albumu: 262583 Analiza i pomiar wydajności rozproszonego systemu bazodanowego Gemius BigTable Praca magisterska na kierunku
Programowanie współbieżne Wykład 2. Iwona Kochańska
Programowanie współbieżne Wykład 2 Iwona Kochańska Miary skalowalności algorytmu równoległego Przyspieszenie Stały rozmiar danych N T(1) - czas obliczeń dla najlepszego algorytmu sekwencyjnego T(p) - czas
Architektura ADO.NET Dostawcy danych Modele dostępu do danych model połączeniowy Model bezpołączeniowy
Architektura ADO.NET Dostawcy danych Modele dostępu do danych model połączeniowy Model bezpołączeniowy 2015-12-18 1 Języki i paradygmaty - 9 Architektura ADO.NET - zestaw abstrakcyjnych klas, które udostępniają
Tworzenie aplikacji bazodanowych
Tworzenie aplikacji bazodanowych wykład Joanna Kołodziejczyk 2016 Joanna Kołodziejczyk Tworzenie aplikacji bazodanowych 2016 1 / 36 Klasyfikacja baz danych Plan wykładu 1 Klasyfikacja baz danych 2 Architektura
System plików. Warstwowy model systemu plików
System plików System plików struktura danych organizująca i porządkująca zasoby pamięci masowych w SO. Struktura ta ma charakter hierarchiczny: urządzenia fizyczne strefy (partycje) woluminy (w UNIXie:
LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS
UNIWERSYTET ZIELONOGÓRSKI INSTYTUT INFORMATYKI I ELEKTROTECHNIKI ZAKŁAD INŻYNIERII KOMPUTEROWEJ Przygotowali: mgr inż. Arkadiusz Bukowiec mgr inż. Remigiusz Wiśniewski LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS
Dziennik Urzędowy Unii Europejskiej L 274/9
20.10.2009 Dziennik Urzędowy Unii Europejskiej L 274/9 ROZPORZĄDZENIE KOMISJI (WE) NR 976/2009 z dnia 19 października 2009 r. w sprawie wykonania dyrektywy 2007/2/WE Parlamentu Europejskiego i Rady w zakresie
Zaawansowane funkcje systemów plików. Ewa Przybyłowicz
Zaawansowane funkcje systemów plików. Ewa Przybyłowicz Agenda: 1. Idea journalingu. 2. NTFS. 3. ext4. 4. exfat. 5. Porównanie systemów. Idea journalingu. Dziennik systemu plików zapewnia możliwość odzyskiwania
System plików przykłady implementacji
System plików przykłady implementacji Dariusz Wawrzyniak CP/M MS DOS ISO 9660 UNIX NTFS Plan wykładu System plików (2) Przykłady implementacji systemu plików (1) Przykłady implementacji systemu plików
Metody dostępu do danych
Metody dostępu do danych dr inż. Grzegorz Michalski Na podstawie materiałów dra inż. Juliusza Mikody Jak działa JDO Podstawowym zadaniem JDO jest umożliwienie aplikacjom Javy transparentnego umieszczenia
Architektura komputerów
Architektura komputerów Tydzień 12 Wspomaganie systemu operacyjnego: pamięć wirtualna Partycjonowanie Pamięć jest dzielona, aby mogło korzystać z niej wiele procesów. Dla jednego procesu przydzielana jest
Fizyczna organizacja danych w bazie danych
Fizyczna organizacja danych w bazie danych PJWSTK, SZB, Lech Banachowski Spis treści 1. Model fizyczny bazy danych 2. Zarządzanie miejscem na dysku 3. Zarządzanie buforami (w RAM) 4. Organizacja zapisu
Wdrożenie modułu płatności eservice. dla systemu Magento 1.4 1.9
Wdrożenie modułu płatności eservice dla systemu Magento 1.4 1.9 - dokumentacja techniczna Wer. 01 Warszawa, styczeń 2014 1 Spis treści: 1 Wstęp... 3 1.1 Przeznaczenie dokumentu... 3 1.2 Przygotowanie do
Specyfikacja API Runtime BAS 3.0
Specyfikacja API Runtime BAS 3.0 Spis treści Wstęp... 4 Informacja o dokumencie... 4 Opis usługi... 4 Typowy sposób wywołania usługi... 5 Udostępniane funkcje... 6 Funkcje liczące... 6 Execute... 6 SafeExecute...
Projektowanie bazy danych. Jarosław Kuchta Projektowanie Aplikacji Internetowych
Projektowanie bazy danych Jarosław Kuchta Projektowanie Aplikacji Internetowych Możliwości projektowe Relacyjna baza danych Obiektowa baza danych Relacyjno-obiektowa baza danych Inne rozwiązanie (np. XML)
Informatyka I. Standard JDBC Programowanie aplikacji bazodanowych w języku Java
Informatyka I Standard JDBC Programowanie aplikacji bazodanowych w języku Java dr inż. Andrzej Czerepicki Politechnika Warszawska Wydział Transportu 2017 Standard JDBC Java DataBase Connectivity uniwersalny
program TRX
Program TRX służy do odczytywania zdarzeń z zainstalowanych - rejestratorów czasu pracy DS-2430 - kontrolerów DS-2410 i DS2440 - depozytorów kluczy Odczytane zdarzenia są zapisywane w plikach tekstowych
Wprowadzenie do hurtowni danych
Wprowadzenie do hurtowni danych przygotował: Paweł Kasprowski Kostka Kostka (cube) to podstawowy element hurtowni Kostka jest wielowymiarowa (od 1 do N wymiarów) Kostka składa się z: faktów wektora wartości
Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik
Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik Technologia Przykłady praktycznych zastosowań wyzwalaczy będą omawiane na bazie systemu MS SQL Server 2005 Wprowadzenie
INFRA. System Connector. Opis systemu
INFRA System Connector Opis systemu Spis treści Opis składników systemu... 3 Bezpieczeństwo systemu... 4 Bezpieczeństwo komunikacji... 4 Zabezpieczenie dostępu do serwisów... 4 Autoryzacja użytkowników...
Normalizacja relacyjnych baz danych. Sebastian Ernst
Normalizacja relacyjnych baz danych Sebastian Ernst Zależności funkcyjne Zależność funkcyjna pomiędzy zbiorami atrybutów X oraz Y oznacza, że każdemu zestawowi wartości atrybutów X odpowiada dokładnie
Zarządzanie pamięcią operacyjną
Dariusz Wawrzyniak Plan wykładu Pamięć jako zasób systemu komputerowego hierarchia pamięci przestrzeń owa Wsparcie dla zarządzania pamięcią na poziomie architektury komputera Podział i przydział pamięci
CZĘŚĆ I. WARSTWA PRZETWARZANIA WSADOWEGO
Spis treści Przedmowa Podziękowania O książce Rozdział 1. Nowy paradygmat dla Big Data 1.1. Zawartość książki 1.2. Skalowanie tradycyjnej bazy danych 1.2.1. Skalowanie za pomocą kolejki 1.2.2. Skalowanie
Data wykonania Część praktyczna
Grupa ćwicz. IIIb Nr ćwicz./ wersja 4 Imiona i nazwiska. Grupa lab. 7 Grzegorz Gliński Rok 3 IS Temat ćwiczenia. Internet Radio Broadcasting Data wykonania. 19.11.09 Data odbioru Ocena i uwagi Część praktyczna
Strumienie, pliki. Sortowanie. Wyjątki.
Strumienie, pliki. Sortowanie. Wyjątki. Operacje I/O w Javie Serializacja Zapisuje całą klasę Plik binarny Delimiter nieokreślony Nie da się podglądać Pliki tekstowe Zapisuje wybrane informacje Plik tekstowy
Bazy danych. Plan wykładu. Model logiczny i fizyczny. Operacje na pliku. Dyski. Mechanizmy składowania
Plan wykładu Bazy danych Wykład 10: Fizyczna organizacja danych w bazie danych Model logiczny i model fizyczny Mechanizmy składowania plików Moduł zarządzania miejscem na dysku i moduł zarządzania buforami
Hadoop i Spark. Mariusz Rafało
Hadoop i Spark Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl WPROWADZENIE DO EKOSYSTEMU APACHE HADOOP Czym jest Hadoop Platforma służąca przetwarzaniu rozproszonemu dużych zbiorów danych. Jest
Jarosław Kuchta Projektowanie Aplikacji Internetowych. Projektowanie warstwy danych
Jarosław Kuchta Projektowanie Aplikacji Internetowych Projektowanie warstwy danych Zagadnienia Sposoby zapisu danych zewnętrznych Odwzorowanie dziedziny problemu w dziedzinę danych Normalizacja relacyjnej
Wykład XII. optymalizacja w relacyjnych bazach danych
Optymalizacja wyznaczenie spośród dopuszczalnych rozwiązań danego problemu, rozwiązania najlepszego ze względu na przyjęte kryterium jakości ( np. koszt, zysk, niezawodność ) optymalizacja w relacyjnych
PODSTAWY BAZ DANYCH Wykład 6 4. Metody Implementacji Baz Danych
PODSTAWY BAZ DANYCH Wykład 6 4. Metody Implementacji Baz Danych 2005/2006 Wykład "Podstawy baz danych" 1 Statyczny model pamiętania bazy danych 1. Dane przechowywane są w pamięci zewnętrznej podzielonej
Zmiana treści Specyfikacji Istotnych Warunków Zamówienia.
Projekt współfinansowany przez Unię Europejską z Europejskiego Funduszu Rozwoju Regionalnego w ramach Regionalnego Programu Operacyjnego Województwa Śląskiego na lata 2007-2013 ZP.271.1.2013 Czerwionka-Leszczyny
Wprowadzenie do Hurtowni Danych
Wprowadzenie do Hurtowni Danych BIG DATA Definicja Big Data Big Data definiowane jest jako składowanie zbiorów danych o tak dużej złożoności i ilości danych, że jest to niemożliwe przy zastosowaniu podejścia
Rozproszony system plików do obsługi serwisów internetowych
Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki Konrad Witkowski Nr albumu: 189454 Rozproszony system plików do obsługi serwisów internetowych Praca magisterska na kierunku INFORMATYKA
PLAN WYNIKOWY PROGRAMOWANIE APLIKACJI INTERNETOWYCH. KL IV TI 6 godziny tygodniowo (6x15 tygodni =90 godzin ),
PLAN WYNIKOWY PROGRAMOWANIE APLIKACJI INTERNETOWYCH KL IV TI 6 godziny tygodniowo (6x15 tygodni =90 godzin ), Program 351203 Opracowanie: Grzegorz Majda Tematyka zajęć 2. Przygotowanie środowiska pracy
Architektura komputerów
Architektura komputerów Tydzień 4 Tryby adresowania i formaty Tryby adresowania Natychmiastowy Bezpośredni Pośredni Rejestrowy Rejestrowy pośredni Z przesunięciem stosowy Argument natychmiastowy Op Rozkaz
Telesprzedaż by CTI Instrukcja
Telesprzedaż by CTI Instrukcja 1 Spis treści 1. Opis programu...4 2. Konfiguracja...5 2.1. Połączenie z serwerem MS SQL...6 2.2. Połączenie z serwerem MS SQL systemu Call Center...7 2.3. Nawiązanie połączenia
Wprowadzenie. Dariusz Wawrzyniak 1
Dariusz Wawrzyniak Politechnika Poznańska Instytut Informatyki ul. Piotrowo 2 (CW, pok. 5) 60-965 Poznań Dariusz.Wawrzyniak@cs.put.poznan.pl Dariusz.Wawrzyniak@put.edu.pl www.cs.put.poznan.pl/dwawrzyniak
Google File System II. Marek Dzikiewicz
Google File System II Marek Dzikiewicz Plan prezentacji 1. GFS 2. Problemy z GFS 3. GFS2 i Caffeine Google File System rozproszony system plików dla aplikacji przetwarzających duże ilości danych powstał
Referat pracy dyplomowej
Referat pracy dyplomowej Temat pracy: Wdrożenie intranetowej platformy zapewniającej organizację danych w dużej firmie na bazie oprogramowania Microsoft SharePoint Autor: Bartosz Lipiec Promotor: dr inż.
P o d s t a w y j ę z y k a S Q L
P o d s t a w y j ę z y k a S Q L Adam Cakudis IFP UAM Użytkownicy System informatyczny Aplikacja Aplikacja Aplikacja System bazy danych System zarządzania baz ą danych Schemat Baza danych K o n c e p