Jakub Pilecki Szymon Wojciechowski

Podobne dokumenty
Indeksy w hurtowniach danych

INDEKSY. Biologiczne Aplikacje Baz Danych. dr inż. Anna Leśniewska

Optymalizacja poleceń SQL Indeksy

77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego.

Indeksy. Rozdział 18. Indeksy. Struktura indeksu. Adres rekordu

Bazy danych - BD. Indeksy. Wykład przygotował: Robert Wrembel. BD wykład 7 (1)

Plan wykładu. Klucz wyszukiwania. Pojęcie indeksu BAZY DANYCH. Pojęcie indeksu - rodzaje indeksów Metody implementacji indeksów.

Optymalizacja poleceń SQL Metody dostępu do danych

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii

Tadeusz Pankowski

Optymalizacja poleceń SQL

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

"Kilka słów" o strojeniu poleceń SQL w kontekście Hurtowni Danych wprowadzenie. Krzysztof Jankiewicz

Przykładowe B+ drzewo

Run-Length Huffman - alternatywny algorytm kompresji map bitowych

Bazy danych. Andrzej Łachwa, UJ, /15

PLAN WYKŁADU BAZY DANYCH INDEKSY - DEFINICJE. Indeksy jednopoziomowe Indeksy wielopoziomowe Indeksy z użyciem B-drzew i B + -drzew

Definicja pliku kratowego

Indeksowanie w bazach danych

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

PODSTAWY BAZ DANYCH Wykład 6 4. Metody Implementacji Baz Danych

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Indeksy. Wprowadzenie. Indeksy jednopoziomowe indeks podstawowy indeks zgrupowany indeks wtórny. Indeksy wielopoziomowe

Indeksy. Indeks typu B drzewo

Modelowanie hierarchicznych struktur w relacyjnych bazach danych

Podstawy Informatyki. Metody dostępu do danych

STROJENIE BAZ DANYCH: INDEKSY. Cezary Ołtuszyk coltuszyk.wordpress.com

Spis tre±ci. Przedmowa... Cz ± I

Fizyczna struktura bazy danych w SQL Serwerze

Algorytmy i. Wykład 5: Drzewa. Dr inż. Paweł Kasprowski

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

Rozwiązania wspomagające przetwarzanie wielkich zbiorów danych (VLDB) we współczesnych systemach zarządzania bazami danych

WPROWADZENIE DO BAZ DANYCH

Porównanie systemów zarządzania relacyjnymi bazami danych

ang. file) Pojęcie pliku (ang( Typy plików Atrybuty pliku Fragmentacja wewnętrzna w systemie plików Struktura pliku

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Alicja Marszałek Różne rodzaje baz danych

Bazy danych wykład ósmy Indeksy

Statystyki (1) Optymalizacja poleceń SQL Część 2. Statystyki (2) Statystyki (3) Informacje, opisujące dane i struktury obiektów bazy danych.

Haszowanie (adresowanie rozpraszające, mieszające)

Adam Cankudis IFP UAM

Wydajność hurtowni danych opartej o Oracle10g Database

Pojęcie bazy danych funkcje i możliwości Charakterystyka baz danych:

Technologia informacyjna

Seminarium Bazy Danych I. BigTable. Piotr Świgoń Uniwersytet Warszawski

wykład Organizacja plików Opracował: dr inż. Janusz DUDCZYK

Optymalizacja wydajności SZBD

Bazy Danych. C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000

Baza danych. Modele danych

Optymalizacja poleceń SQL

Pojęcie bazy danych funkcje i możliwości

060 SQL FIZYCZNA STRUKTURA BAZY DANYCH. Prof. dr hab. Marek Wisła

System plików warstwa fizyczna

System plików warstwa fizyczna

System plików warstwa fizyczna

Indeksy. Schematyczne ujęcie organizacji pamięci i wymiany danych systemu pamiętania.

Hurtownie danych. 31 stycznia 2017

Tematy projektów Edycja 2014

RELACYJNE BAZY DANYCH

(duzo, przeczytac raz i zrozumiec powinno wystarczyc. To jest proste.)

Krzysztof Kadowski. PL-E3579, PL-EA0312,

Teoretyczne podstawy informatyki

Python: JPEG. Zadanie. 1. Wczytanie obrazka

Informatyka I BAZY DANYCH. dr inż. Andrzej Czerepicki. Politechnika Warszawska Wydział Transportu 2017

Transformacja modelu ER do modelu relacyjnego

Bazy danych. Plan wykładu. Przetwarzanie zapytań. Etapy przetwarzania zapytania. Translacja zapytań języka SQL do postaci wyrażeń algebry relacji

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Perspektywy Stosowanie perspektyw, tworzenie perspektyw prostych i złożonych, perspektywy modyfikowalne i niemodyfikowalne, perspektywy wbudowane.

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

Bazy danych. Plan wykładu. Model logiczny i fizyczny. Operacje na pliku. Dyski. Mechanizmy składowania

Wpływ wybranych struktur pomocniczych na rozmiar bazy danych Oracle

Struktury danych i optymalizacja

Oracle11g: Wprowadzenie do SQL

Tabela wewnętrzna - definicja

sprowadza się od razu kilka stron!

Spis treści. 1 Modelowanie logiczne. Plan wykładu. 1 Modelowanie logiczne 1

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

System plików. Warstwowy model systemu plików

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

Wykład 2. Relacyjny model danych

Bazy danych Wykład zerowy. P. F. Góra

Systemy baz danych. mgr inż. Sylwia Glińska

Jarosław Kuchta Projektowanie Aplikacji Internetowych. Projektowanie warstwy danych

PODSTAWY BAZ DANYCH. 7. Metody Implementacji Baz Danych. 2009/ Notatki do wykładu "Podstawy baz danych" 1

Bazy danych i usługi sieciowe

Program wykładu. zastosowanie w aplikacjach i PL/SQL;

Transformacja modelu pojęciowego. do logicznego

Monitoring procesów z wykorzystaniem systemu ADONIS

Bazy danych. wprowadzenie teoretyczne. Piotr Prekurat 1

Wstęp BTRFS Podsumowanie. System plików BTRFS. Maciej Łaszcz

Zad. 1. Systemy Baz Danych przykładowe zadania egzaminacyjne

Transformacja wiedzy w budowie i eksploatacji maszyn

Zastosowanie relacyjnych baz danych w Systemach Informacji Geograficznej

INFORMATYKA GEODEZYJNO- KARTOGRAFICZNA Relacyjny model danych. Relacyjny model danych Struktury danych Operacje Oganiczenia integralnościowe

BAZY DANYCH NORMALIZACJA BAZ DANYCH. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza

Transkrypt:

Indeksy w hurtowniach danych Jakub Pilecki Szymon Wojciechowski

Plan prezentacji 1. Czym są indeksy? 2. Cel stosowania indeksó w 3. Co należy indeksować? 4. Rodzaje indeksó w 5. B-drzewa (drzewa zró wnoważone) 6. Indeksy bitmapowe 7. Indeksy połą czeniowe 8. Bitmapowe indeksy połą czeniowe 9. Kompresja indeksó w 10. Inne struktury indeksowe 11. Podsumowanie 12. Źró dło

Czym są indeksy? Indeks jest ogó lną nazwą struktury wspomagają cej wyszukiwanie danych Są one niezależne fizycznie i logicznie od danych System zarzą dzania bazą danych decyduje o ich użyciu oraz zajmuje się ich utrzymaniem

Cel stosowania indeksó w Zastosowanie indeksó w ma za zadanie optymalizować czas wykonywania zapytań Z powodu olbrzymich rozmiaró w danych poddawanych procesowi OLAP, zapytania mogą wykonywać się godzinami

Co należy indeksować? Zaleca się stosowanie indeksó w, na atrybutach, któ re: Są czę sto używane w klauzulach WHERE zapytań Są czę sto używane w warunkach połą czeniowych Są rzadko modyfikowane Są kluczami obcymi relacji

Rodzaje indeksó w Podział indeksó w, ze wzglę du na: Strukturę : B-drzewa bitmapowe Liczbę atrybutó w indeksowanych w kluczu: zwykłe złożone Unikalność wartości klucza: unikalne nieunikalne Kolejność wartości klucza: zwykłe odwró cone Sposó b składowania: nieskompresowane skompresowane Zastosowanie: funkcyjne Bitmapowe indeksy połą czeniowe

B-drzewa B-drzewa (ang. balanced trees) służą do indeksowania danych w systemach bazodanowych wspierają cych OLTP. Rzadko stosowane dla baz danych OLAPowskich. Są zbudowane z trzech rodzajó w wę złó w: korzenia, warstwy pośredniej i liści

B-drzewa B-drzewa charakteryzuje: Budowa z tylu poziomó w, ile wymaga tego plik o określonej wielkości Organizacja przestrzeni blokó w na dysku, tak by każdy był zapełniony w co najmniej połowie Rzę dem drzewa jest taka wartość p, któ ra jest maksymalną liczbą kluczy w węźle.

B-drzewa

B-drzewa zalety Mała liczba odczytó w dysku dla operacji wyszukiwania, wstawiania i usuwania elementó w Czasochłonne scalanie i podział wę złó w wystę puje bardzo rzadko Łatwe odnajdowanie wartości z zadanego przedziału (oraz zależności mniejszy od ) Trzypoziomowe drzewo efektywnie obsługuje 17 milionowy zbió r danych

B-drzewa zalety Nie zapewniają szybkiego dostę pu do danych Duży rozmiar drzewa sprawia trudności z utrzymywaniem i eksploatacją

Indeksy bitmapowe Indeksy bitmapowe są bardzo efektywną strukturą, szczegó lnie w przypadku atrybutó w posiadają cych wą skie dziedziny Pojedyncza bitmapa jest relacją, w któ rej kolumna reprezentuje jedną z możliwych wartości atrybutu, wiersze są krotkami danych, natomiast na przecię ciu wystę pują wartości 0 i 1 Indeks bitmapowy jest zbiorem wielu bitmap

Indeksy bitmapowe

Indeksy bitmapowe Indeks bitmapowy może być zaimplementowany w postaci B-drzewa, gdzie kluczami są wartości atrybutu, a liść mi bitmapy

Indeksy bitmapowe

Indeksy bitmapowe Załóżmy, że relacja R posiada milion krotek, a atrybut A 4 wartości, wtedy: dla indeksu bitmapowego 1 000 000 bitó w relacji = 125 kb 4 wartości x 125 kb = 500 kb (rozmiar indeksu)

Indeksy bitmapowe Załóżmy, że relacja R posiada milion krotek, a atrybut A 4 wartości, wtedy: dla indeksu w postaci B-drzewa, zakładają c że adres krotki ma długość 4B 1 000 000 bitó w relacji * 4 B = 4 MB (rozmiar indeksu)

Indeksy bitmapowe Załóżmy, że relacja R posiada milion krotek, a atrybut A 64 wartości, wtedy: dla indeksu bitmapowego 1 000 000 bitó w relacji = 125 kb 64 wartości x 125 kb = 8 MB (rozmiar indeksu) Należy zauważyć, iż istnieją metody kompresji macierzy rzadkich

Indeksy bitmapowe zalety Efektywność wykonywania operacji logicznych oraz łatwość zliczania wystą pień (zapytań wykorzystują cych te operacje) Jeżeli relacja posiada dużą liczbę krotek, a wartości atrybutu A jest niewiele to użycie indeksó w bitmapowych powoduje mniejszą eksploatację pamię ci niż wykorzystanie B- drzewa Mała liczba odczytó w danych z dysku wynikają ca z braku konieczności operowania na rekordach

Indeksy bitmapowe wady Długi czas operacji modyfikują cych dane aktualizacja wszystkich map bitowych zdefiniowanych dla tej relacji (AKCEPTOWALNE DLA HURTOWNI DANYCH) Mała efektywność poszukiwania wartości z zadanego zakresu Rozmiar indeksu zależy od dziedziny atrybutu Utrzymywanie dodatkowej mapy krotek usunię tych

Indeksy połą czeniowe Indeks połą czeniowy (ang. join index) łą czy ze sobą krotki z różnych relacji mają cych tą samą wartość atrybutu połą czeniowego Indeks połą czeniowy ma strukturę B- drzewa Liście indeksu zawierają wspó lne wartości atrybutu połą czeniowego każdy liść zawiera adres rekordu z jednej relacji oraz listę adresó w rekordó w z drugiej relacji

Indeksy połą czeniowe

Bitmapowe indeksy połą czeniowe Bitmapowy indeks połą czeniowy (ang. bitmap join index) posiada w swojej strukturze B-drzewa liście, bę dą ce mapami bitowymi opisują cymi połą czone rekordy Ta zawartość liścia jest istotną różnicą mię dzy bitmapowym indeksem połą czeniowym a indeksem połą czeniowym

Bitmapowe indeksy połą czeniowe

Kompresja indeksó w Kompresja indeksó w ma służyć zmniejszeniu zaję tości dysku przez indeks Wię ksza liczba kluczy indeksu zostaje składowana w bloku Wadą tej metody jest zwię kszenie użycia CPU w celu dekompresji kluczy Problemem kompresji jest zatem maksymalizacja kompresji danych, przy jednoczesnej minimalizacji czasu dekompresji

Algorytmy kompresji indeksó w BBC (ang. Byte-aligned Bitmap Code) WAH (ang. Word-Aligned Hybrid) Algorytmy te są rozbudowanymi rozwią zaniami opartymi o kodowanie Huffmana i RLE (ang. Run-length encoding)

Inne struktury indeksowe Przykłady struktur indeksowych wykorzystywanych w zaawansowanym przetwarzaniu analitycznym: Indeksy sygnaturowe Grupowy indeks bitmapowy S-drzewa Indeksy hierarchiczne k-d-b-drzewa R-drzewa (ang. Region tree) Drzewa ć wiartek RD-drzewa (ang. Russian doll tree) Hierarchiczny indeks bitmapowy

Podsumowanie Stosowanie indeksó w ma na celu optymalizację zapytań Zależnie od rozmiaru danych, dziedziny atrybutu i procesu wykorzystuje się różne rodzaje indeksó w Indeksy mogą przyspieszać odnajdowanie danych i zwię kszyć współbieżność operacji Indeksy mogą spowalniać operacje modyfikacji danych oraz zajmują przestrzeń dyskową

Źró dło Kró likowski, Zbyszko. Hurtownie danych, logiczne i fizyczne struktury danych. Poznań 2007 Wrembel, Robert. Materiały dydaktyczne do przedmiotu hurtownie danych. [online] [dostę p 04.06.2010, http://www.cs.put.poznan.pl/rwrembel/d ws.html] Wikipedia [online] [dostę p 04.06.2010, http://wikipedia.org]