Drzewa ćwiartek (ang. Quadtree) i R-drzewa (ang. R-tree)
|
|
- Aleksandra Dąbrowska
- 7 lat temu
- Przeglądów:
Transkrypt
1 Drzewa ćwiartek (ang. Quadtree) i R-drzewa (ang. R-tree)
2 Drzewa ćwiartek Quadtree Drzewa ćwiartek rozległa klasa hierarchicznych struktur danych, których wspólną cechą jest rekurencyjna dekompozycja przestrzeni wielowymiarowej na 2 d podregionów. NW NE SW SE Klasyfikacje drzew ćwiartek ze względu na: zastosowanie metody dekompozycji rozdzielczość
3 Quadtree Zastosowanie quadtree do reprezentacji danych przestrzennych. Drzewa jest konstruowane poprzez algorytm split and merge J L B F H N G G I O Q region tablica binarna dekompozycja przestrzeni A NW NE SE SW B C D E Struktura drzewa K L F G H I J L M N O Q
4 Quadtree Zastosowanie quadtree do wyszukiwania danych przestrzennych. Zadany poziom dopasowywania.
5 R-drzewa R-drzewa są dynamicznymi strukturami danych służącymi do wyszukiwania obiektów wielowymiarowych (niepunktowych!!!) w przestrzeni wielowymiarowej. W R-drzewach obiekty wielowymiarowe są aproksymowane za pomocą minimalnych regionów pokrywających (MBR minimum bounding rectangle). Realizowane funkcje: Zapytania punktowe: Znajdź identyfikatory obiektów przestrzennych, których MBR zawiera punkt P Zapytania regionowe: Znajdź identyfikatory obiektów przestrzennych, których MBR ma część wspólną z regionem R Najbliższy sąsiad: Znajdź identyfikatory obiektów przestrzennych, które są najbliżej punktu P Struktura węzłów R-drzewa struktura węzłów pośrednich: ((MBR 1, p 1 ), (MBR 2, p 2 ),..., (MBR n, p n )), MBR jest specyfikacją regionu o k wymiarach postaci: [x 1,min : x 1,max ] X X [x k,min : x k,max ] n (m, M), M jest maksymalnym, a m jest minimalnym wypełnieniem węzłów i m = c * M/2, gzie c jest pewną stałą; z wyjątkiem korzenia, dla którego m = 2; struktura liści: ((MBR 1, oid 1 ), (MBR 2, oid 2 ),..., (MBR n, p n )), gdzie oid jest wskaźnikiem na indeksowany obiekt.
6 Charakterystyka R-drzewa 1. Wszystkie liście znajdują się na tym samym poziomie drzewa jest to drzewo zrównoważone. 2. Regiony znajdujące się w liściach są najmniejszymi z regionów obejmujących przestrzennie indeksowane obiekty. 3. Regiony znajdujące się w węzłach wewnętrznych są najmniejszymi z regionów obejmujących przestrzennie wszystkie regiony węzłów potomnych. 4. Regiony znajdujące się w tym samym węźle R-drzewa mogą siępokrywać. R x R y... R A... R x R y R z R A R z 5. Suma wszystkich regionów znajdujących się w danym węźle nie musi tworzyć regionu i w konsekwencji nie musi być równa zawierającemu je regionowi w węźle rodzicielskim. 6. Minimalna wysokość drzewa wynosi log m N 1 gdzie N jest liczbą indeksowanych obiektów przestrzennych Dwie ostatnie własności są konsekwencją faktu, że podział przepełnionych węzłów nie polega na podziale regionu, lecz na pogrupowaniu regionów składowych i wyznaczeniu dla nich MBR.
7 Przykład Aproksymacja obiektów przestrzennych obiekt_1 -> MBR X B kształt X obiektu 1 Z obiekt 3 M K Y obiekt 2 A L punkt P A B... K L M... X Y Z... obiekt_1 obiekt_2 obiekt_3
8 Wyszukiwanie danych za pomocą R-drzew Procedura Search (T, R s ) (gdzie T jest korzeniem drzewa, a R s jest regionem zapytania) (S1) Jeżeli T nie jest liściem, sprawdź dla każdej pary (R i, P i ), czy region R i pokrywa się częściowo z regionem R s. Jeżeli tak, to dla takiego regionu wywołaj rekurencyjnie funkcję Search (P i, R s ). Jeżeli region R s nie ma części wspólnej z żadnym z regionów zakończ poszukiwanie wzdłuż danej ścieżki. (S2) Jeżeli T jest liściem, sprawdź dla każdej pary (R i, oid i ), czy region R i pokrywa się częściowo z regionem R s. Jeżeli tak, to umieść oid i w zbiorze wynikowy procedury. Efektywność operacji punktowych zapytań wykonywanych za pomocą R-drzew będzie obniżona w przypadku, gdy poszukiwany region znajdują się w obszarze należącym do kilku regionów tego samego poziomu szukanie może przebiegać wzdłuż wielu równoległych ścieżek. Z drugiej strony ścieżki wyszukiwania mogą zanikać przed osiągnięciem poziomu liści drzewa. Przykład: znajdź obiekt zawierający punkt P. A B K L M... P Q R
9 Utrzymywanie R-drzew Procedura Insert (r) Brak jednoznaczności wyboru ścieżki wstawiania Wstaw do R-drzewa rekord indeksu r(r, oid). (I1) Znajdź właściwa pozycję dla nowego rekordu indeksu: (I1.1) Pod L podstaw identyfikator strony dyskowej zawierającej korzeń drzewa. (I1.2) Jeżeli L jest liściem, to przejdź do kroku (I2). (I1.3) Jeżeli L nie jest liściem, przeszukaj go w celu znalezienia pozycji (R i, P i ), której region R i wymaga najmniejszego powiększenia dla całkowitego pokrycia regionu R. Jeżeli wynik poszukiwania nie jest jednoznaczny, wybierz najmniejszy region R i. (I1.4) Pod L podstaw P i i wróć do kroku (I1.2). R i R R j
10 Procedura Insert (r) - cd (I2) Dodaj rekord (R, oid) do L. Jeżeli w L jest wystarczająca ilość wolnego miejsca, przejdź do kroku (I3). Jeżeli nie, podziel L za pomocą procedury SplitNode, która utworzy nowy liść L i rozmieści rekordy liścia L i wstawiany rekord r w liściach L i L. (I3) Zmodyfikuj regiony R-drzewa: (I3.1) Jeżeli L jest korzeniem i L jest puste zakończ procedurę. (I3.2) Jeżeli nie, pod P podstaw identyfikator węzła rodzicielskiego dla węzła L. Jeżeli L jest korzeniem utwórz nowy węzeł, który będzie pełnił rolę korzenia i podstaw jego identyfikator pod P. Zmodyfikuj region R L, tak, aby był to MBR dla regionów składowych węzła L. (I3.3) Jeżeli węzeł L był dzielony, dodaj do P nową parę (R L, L ), gdzie R L jest MBR regionów składowych węzła L. Jeżeli w P jest wystarczająca ilość wolnego miejsca, przejdź do kroku (I3.4). Jeżeli nie, podziel węzeł P za pomocą procedury SplitNode, która utworzy nowy liść P i rozmieści równomiernie pozycje węzła P i parę (R L, L ) w węzłach P i P. (I3.4) Pod L podstaw P i jeżeli P wymagało podziału pod, pod L podstaw P. Wróć do kroku (I3.1).
11 Procedura podziału węzła Kryterium jakości podziału Równomierne wypełnienie węzłów Minimalizacja wspólnej części MBR Minimalizacja sumy objętości MBR Regularne kształty MBR przypadek (1) A X 3 X 6 B 7 A 8 X4 X 2 X 5 B X 1 przypadek (2) A X 3 X 6 B 7 A 8 X4 B X 2 X 5 X 1 W R-drzewach jako kryterium podziału węzłów przyjęto minimalizację sumarycznego pokrycia w połączeniu z optymalizacją równomiernego wypełnienia węzłów
12 Algorytm SplitNode Złożoność algorytmu, gwarantującego równomierny podział zbioru regionów składowych należących do dzielonego węzła na dwa podzbiory przy równoczesnej minimalizacji sumarycznego wolumenu pokrywających te zbiory MBR, jest ekspotencjalna. Guttman zaproponował wydajny algorytm o rzędzie złożoności O(n 2 ). Algorytm QuadraticSplitNode // podziel M+1 regionów na dwie grupy QS1 Wywołaj PickSeeds dla wyboru pierwszych elementów grup QS2 Repeat DistributeEntry until wszystkie regiony są rozproszone lub jedna z grup zawiera M-m+1 elementów QS3 Pozostałe elementy dodaj do drugiej grupy Eksperymentalnie ustalono, że optymalna wartość m wynosi 0,4*M.
13 Algorytm SplitNode Algorytm PickSeeds // Znajdź dwa najbardziej oddalone regiony PS1 Dla każdej pary regionów składowych (R i, R j ) wyznacz region R, który jest ich MBR; Oblicz wolumen v = vol(r) - vol(r i ) - vol(r j ); PS2 Wybierz parę z największym v; Algorytm DistibuteEntry DE1 Wywołaj PickNext dla wyboru następnego regionu składowego; DE2 Dodaj go do grupy, której MBR będzie wymagał mniejszego powiększenia; jeżeli powiększenie będzie równe to do grupy o mniejszym MBR; dla równych MBR do mniej licznej grupy; Algorytm PickNext PN1 Dla każdego nieprzydzielonego jeszcze regionu składowego R i, oblicz wolumeny v 1 i v 2, o które trzeba by powiększyć MBR pierwszej i drugiej grupy w wyniku dodania tego regionu; PN2 Wybierz region o największej różnicy v 1 - v 2 ;
14 Własności R-drzew Indeksowanie dowolnych typów danych przestrzennych w przestrzeni wielowymiarowej Aproksymacja indeksowanych danych W wypadku przepełnienia węzłów indeksu następuje podział zbioru regionów, nie przestrzeni Unikanie pokrywania pustej przestrzeni Wysoki stopień wypełnienia węzłów indeksu (> 50%) Proste algorytmy utrzymania Zależność efektywności wyszukiwania od rozkładu indeksowanych danych Zależność rzędu drzewa od liczby wymiarów Silna zależność efektywności wyszukiwania od liczby wymiarów
15 Modyfikacje R-drzew Dla małej liczby wymiarów: R + -drzewa R -drzewa R-drzewa Hilberta Dla dużej liczby wymiarów: TV-drzewa (Telescope-Vectors) X-drzewa (extended nodes) SS-drzewa (Similarity Search) SR-drzewa (Similarity search R-tree)
16 R + -drzewa Cel: Zwiększenie efektywności operacji wyszukiwania w wyniku eliminacji wzajemnego pokrywania się regionów tego samego poziomu indeksu liczba operacji dyskowych R-drzewo R + -drzewo gęstość danych
17 Struktura R + - drzew Trudne regiony zapytań X B D F A C G Region zapytania E H Y I J Z K R-drzewo
18 Struktura R + - drzew Nowe cechy struktury: regiony każdego poziomu R + -drzewa są rozłączne regiony pokrywające obiekty mogą należeć do kilku regionów wyższego poziomu indeksu X B D F A C G Region zapytania V E H Y I J Z K R + -drzewo X Y Z V D A B C E F H I J K D G
19 Operacje na R + - drzewach Algorytm zapytania analogiczny jak dla R-drzew; charakteryzuje się jednak większą wydajnością - punktowe zapytania są wykonywane pojedynczą ścieżką nawigacji Algorytm wstawiania może być wielościeżkowy - wstawiane obiekty mogą być dodane do więcej niż jednego liścia Podział węzłów w wypadku ich przepełnienia może pociągnąć za sobą podział węzłów niższych poziomów analogicznie jak w kdb-drzewach Stopień wypełnienia węzłów jest niższy niż w R- drzewach Okresowa reorganizacja struktury X Y Z linia podziału
20 R - drzewa Modyfikacja algorytmów utrzymania R-drzewa przy niezmienionej strukturze dla optymalizacji podstawowych kryteriów efektywności drzewa: Minimalizacja objętości regionów Minimalizacja pokrywania się regionów Minimalizacja powierzchni regionów Maksymalizacja wypełnienia węzłów drzewa Występują złożone zależności między powyższymi kryteriami. Eksperymentalnie wyznaczone modyfikacje algorytmów utrzymania drzewa. 1. Modyfikacja algorytmu wyboru ścieżki wstawiania; minimalizacja wzajemnego pokrywania się regionów na poziomie liści i minimalizacja sumarycznego pokrycia dla węzłów pośrednich. 2. Modyfikacja algorytmu podziału optymalizowane są równolegle: sumaryczne pokrycie, wzajemne pokrycie i obszar powierzchni dla różnych proporcji wypełnienia węzłów 3. Wymuszone powtórne wstawianie elementów do węzła dane są porządkowane według odległości środka regionu składowego od regionu pokrywającego
21 Wybór ścieżki wstawiania Niech R 1,,R n będą regionami składowanymi w węźle. Wtedy sumaryczne pokrycie danego regionu R k z pozostałymi regionami przechowywanymi w węźle jest równe: overlap ( R k ) = n i = 1, i k vol( R k R ) Algorytm ChooseSubtree(R) CS1 Zmiennej N przypisz korzeń drzewa CS2 If N jest liściem return N elseif wskaźniki w N wskazują na liście then // minimalizacja overlap Dla każdego regionu składowego R i wyznacz Δoverlap(R i )=overlap(r i )-overlap(r i ) gdzie R i jest regionem R i zmodyfikowanym tak by obejmował również region R; wybierz region, dla którego Δoverlap jest najmniejsze; w wypadku niejednoznacznego wyboru wybierz rekord, którego region zostanie najmniej powiększony; w dalszej kolejności region najmniejszy; // O(n 2 ) else // minimalizacja obszaru regionów wybierz region, który wymaga najmniejszego powiększenia dla całkowitego pokrycia regionu R; w wypadku niejednoznacznego wyboru, wybierz region najmniejszy; // O(n) endif CS3 Zmiennej N przypisz węzeł wskazywany przez wskaźnik powiązany z wybranym regionem i
22 Wybór ścieżki wstawiania Overlap(R 1 ) = vol(r 1 R 2 ) = 0 Overlap(R 1 ) = vol(r 1 R 2 ) R 1 R R 2 Overlap(R 2 ) = vol(r 1 R 2 ) R 1 R R 2
23 Algorytm podziału węzła Algorytm SplitNode SN1 SN2 SN3 Wywołaj ChooseSplitAxis dla wyznaczenia osi względem, której zostanie wykonany podział; Wywołaj ChooseSplitIndex dla określenia najlepszego podziału regionów na dwie grupy względem wybranej osi; Rozprosz regiony między dwie wybrane grupy; ChooseSplitAxis - heurystyczne ograniczenie dziedziny rozwiązania y A B C D Poszczególne wymiary w różny sposób różnicują zbiór MBR. Algorytm SplitNode szuka najbardziej różnicującego wymiaru. x
24 Ograniczenie dziedziny wyszukiwania Dla danej osi porządkujemy regiony składowe węzła względem kolejno najmniejszych i największych wartości granic regionów. Dla każdego z tych dwóch porządków wykonujemy M- 2m+2 1 (gdzie 2 m M/2 ) podziałów M+1 regionów na dwie grupy, gdzie m jest minimalną liczbą rekordów w węźle indeksu. K-ty podział (k <1; M-2m+2>) jest zdefiniowany następująco: Pierwsza grupa obejmuje pierwszych (m-1)+k regionów, a druga - pozostałe regiony. Badania eksperymentalne wykazały, że optymalna wartość m wynosi 40%. Dziedzina rozwiązania zostanie ograniczona do wyznaczonych w tym kroku podziałów. W kolejnych krokach algorytmu zostaną zastosowane trzy miary jakości grupowania regionów: obszar: vol(mbr(grupy I)) + vol(mbr(grupy II)) powierzchnia: margin(mbr(grupy I)) + margin(mbr(grupy II)) wzajemne pokrycie: vol(mbr(grupy I)) vol(mbr(grupy II)) 1 Dla M parzystych. Dla M nieparzystych: (M-2m+1) podziałów.
25 y A B Przykład C D E Niech: M=4, m=2 Oś X: X min (A)=1, X min (B)=10, X min (C)=22, X min (D)=29, X min (E)=35 X max (A)=6, X max (B)=18, X max (C)=27, X max (D)=34, X max (E)=39 Podział 1 (k=1, min, (m-1)+k=2): {A, B}; {C, D, E} Podział 2 (k=2, min, (m-1)+k=3): {A, B, C}; {D, E} Podział 3 (k=1, max, (m-1)+k=2): {A, B}; {C, D, E} Podział 4 (k=2, max, (m-1)+k=3): {A, B, C}; {D, E} Oś Y: Y min (B)=1, Y min (D)=2, Y min (E)=3, Y min (A)=5, Y min (C)=5 Y max (B)=18, Y max (D)=18, Y max (E)=19, Y min (A)=19, Y max (C)=20 Podział 1 (k=1, min, (m-1)+k=2): {B, D}; {E, A, C} Podział 2 (k=2, min, (m-1)+k=3): { B, D, E}; {A, C} Podział 3 (k=1, max, (m-1)+k=2): {B, D}; {E, A, C} Podział 4 (k=2, max, (m-1)+k=3): {B, D, E}; {A, C} x
26 Algorytm ChooseSplitAxis CSA1 For each wymiaru x Posortuj regiony względem dolnej i górnej granicy regionu (x min, x max ) w danym wymiarze i określ wszystkie rozkłady regionów na dwie grupy gr i i gr i. Wyznacz sumę powierzchni MBR dla wszystkich rozkładów: 1 2 S= margin(mbr( gr i )) + margin(mbr( gr i )) 1 2 i end CSA2 Jako oś podziału wybierz wymiar z najmniejszą wartością S; Oceniamy sumaryczną jakość podziałów dla poszczególnych osi: Oś X: gr 1, 3: margin(mbr{a, B}) = 70; margin(mbr {C, D, E}) = 70; gr 2, 4: margin(mbr{a, B, C}) = 90; margin(mbr {D, E}) = 54; =284 Oś Y: gr 1, 3: margin(mbr{b, D}) = 82; margin(mbr {E, A, C}) = 112; gr 2, 4: margin(mbr{b, D, E}) = 96; margin(mbr {A, C}) = 80; =370
27 Algorytm ChooseSplitIndex CSI1 Dla wybranego wymiaru wybierz podział z minimalną wartością pokrywania się regionów; w wypadku niejednoznacznego wyboru, wybierz podział z minimalnym obszarem; 1) 2) MBR{A, B} MBR {C, D, E} = MBR{A, B, C} MBR {D, E} = vol(mbr{a, B}) + vol(mbr{c, D, E}) = = 612 vol(mbr{a, B, C}) + vol(mbr{d, E}) = = 664 Wynik: {A, B} i {C, D, E} Utrzymanie R*-drzewa dla operacji Delete Węzły, których wypełnienie spada poniżej wartości m są usuwane, a składowane w nich rekordy są powtórnie wstawiane do R*-drzewa.
28 Linearyzacja przestrzeni Podstawowa różnica między drzewami jedno- i wielowymiarowymi polega na braku globalnego porządku elementów indeksów wielowymiarowych odpowiadającego lokalizacji danych w przestrzeni wielowymiarowej. Heurystyczne rozwiązanie problemu: Przypisanie elementom wielowymiarowym - jednowymiarowych wartości numerycznych, spełniających następujące wymaganie: jeżeli dwa obiekty znajdują się blisko siebie w przestrzeni wielowymiarowej, to istnieje duże prawdopodobieństwo, że mają bliskie sobie wartości jednowymiarowe. Dane oddalone od siebie w przestrzeni wielowymiarowej muszą mieć przypisane odległe wartości jednowymiarowe. Sposobem na przypisanie poszczególnym lokalizacjom wielowymiarowym wartości jednowymiarowych odzwierciedlających charakterystykę wielowymiarową, jest tzw. linearyzacja przestrzeni.
29 Linearyzacja przestrzeni Przestrzeń jest dzielona na elementarne komórki, którym przypisane są unikalne etykiety zgodnie z lokalizacją w globalnym porządku określonym przez krzywą wypełniającą przestrzeń (ang. spacefilling curve). Krzywa taka musi przechodzić przez wszystkie komórki nigdy się nie przecinając. Przykładowe krzywe: Hilberta, Peano, Z-ordering, itp Krzywe Hilberta rzędu 1 i 2
30 Generowanie krzywej Hilberta Rząd 2 na Rząd 3 na podstawie rzędu 3: podstawie rzędu 2:
31 Linearyzacja przes strzeni Krzywe Hilberta rzędu 1, 2, 3, 4, 5 i 6: Krzywa Z-ordering rzędu 1, 2, 3 i 4: Krzywe wypełniające przestrzeń są samopodobne.
32 R-drzewo Hilberta R-drzewo Hilberta jest odmianą klasycznego R-drzewa. Dzięki wprowadzeniu miary charakteryzującej się globalnym porządkiem, w R-drzewie Hilberta można zastosować proste algorytmy utrzymania drzewa wzorowane na indeksach jednowymiarowych. Do generowania etykiet komórek przestrzeni zastosowano krzywą Hilberta. Wartością Hilberta danego MBR jest wartość Hilberta środka regionu. Regiony składowe przepełnionych węzłów są dzielone na podstawie ich wartości Hilberta. Struktura indeksu: liście zawierają rekordy postaci: (R, oid) gdzie: R jest regionem MBR obiektu wielowymiarowego, a oid wskaźnikiem na blok zawierający ten obiekt; węzły pośrednie zawierają rekordy postaci: (LHV, R, ptr) gdzie: R jest regionem MBR regionów zdefiniowanych w węźle potomnym, ptr wskaźnikiem na ten węzeł, a LHV jest największą wartością Hilberta regionów zawartych w R;
33 Przykład R-drzewa Hilberta Organizacja przestrzeni za pomocą krzywej Hilberta (100,100) (55,75) [98] [92] [107] [107] (20,38) [206] [33] (0,0) Struktura indeksu [33] (3;35)(5;40) 33 [107] (20;55)(38;75) [206] 107 (20;30)(60;75) (35;55)(65;75) (45;55)(35;50)
34 Algorytm wstawiania Algorytm Insert(node Root, Region R) I1 Znajdź właściwy liść: Wyznacz wartość Hilberta h dla R; L := ChooseLeaf(R, h); I2 Wstaw R do liścia L: if (wolne miejsce w L) then wstaw R do L zgodnie z porządkiem Hilberta else HandleOverflow(L, R) I3 I4 Propaguj modyfikacje: Utwórz zbiór S, który zawiera L, sąsiednie węzły i ewentualnie nowy węzeł; AdjustTree(S); Zwiększ wysokość drzewa: if (podział korzenia); then utwórz nowy korzeń, adresujący dwa uzyskane węzły;
35 Wybór ścieżki wstawiania Algorytm ChooseLeaf(Region R, int h) CL1 Zmiennej N przypisz korzeń drzewa CL2 if (N jest liściem) then return N CL3 if (N nie jest liściem) Znajdź rekord (R i, ptr i, LHV i ) z najmniejszą wartością LHV większą od h; CL4 Pod N podstaw węzeł wskazywany przez ptr i ; Wróć do CL2; Algorytm wyszukiwania węzła do wstawienia nie ma nic wspólnego z algorytmem wyszukiwania danych. Wyszukiwanie danych za pomocą R-drzewa Hilberta jest analogiczny jak w innych R-drzewach!
36 Podział węzła Algorytm HandleOverflow(node N,Region R) /* jeżeli wystąpi podział zwróć nowy węzeł */ H1 Utwórz zbiór E, który będzie zawierał wszystkie rekordy węzła N i jego sąsiadów; H2 H3 H4 dodaj region R do zbioru E uwzględniając porządek wartości Hilberta; if co najmniej jeden z sąsiadów N nie jest pełny then rozprosz zbiór E między przepełnionym węzłem i jego sąsiadami zgodnie z porządkiem Hilberta; if wszyscy sąsiedzi N są pełni then utwórz nowy węzeł N ; rozprosz zbiór E między wszystkie węzły zgodnie z porządkiem Hilberta; return N ;
37 Wyrównywanie drzewa Algorytm AdjustTree(set S) /* S zawiera zmodyfikowany węzeł, jego sąsiadów i ewentualnie nowo utworzony węzeł N Algorytm przebiega w górę drzewa modyfikując kształty regionów i wartości LHV węzłów, których regiony obejmują regiony węzłów ze zbioru S */ A1 if osiągnięto korzeń indeksu then zakończ; A2 /* propagacja podziału lub modyfikacji węzłów */ NP := parent(n); if wystąpił podział węzła N; then wstaw rekord opisujący nowy węzeł N do NP w miejscu odpowiednim dla jego wartości Hilberta; if wystąpiło przepełnienie węzła NP then HandleOverflow(NP, N ); if wystąpił podział węzła NP then PP nowy węzeł; A3 /* wyrównywanie MBR i LHV */ P := parent(s); Zmodyfikuj MBR i LHV w węzłach ze zbioru P; A4 /* przejście o poziom wyżej */ S := P; if wystąpił podział węzła NP then N := PP; wróc do kroku A1;
38 Pakowanie R-drzew Wszystkie algorytmy utrzymywania R-drzew są niedeterministyczne. Kształty R-drzew są zależne od historii operacji ich modyfikowania. Optymalizacja wyboru ścieżki wstawienia nowego rekordu oraz optymalizacja podziału węzła są realizowane lokalnie - dla ograniczonego zbioru MBR. Dla części zastosowań struktur wielowymiarowych zbiór danych wielowymiarowych jest statyczny. Na przykład: dane geograficzne; dane OLAP przechowywane w tabelach zagregowanych. Dla takich zastosowań jest sensowne stosowanie algorytmów pakowania indeksu, to jest konstruowania indeksu dla istniejącego zbioru danych. Pakowany indeks powinien się charakteryzować lepszymi parametrami, niż indeks powstały w wyniku dynamicznego utrzymania związanego z historią operacji: insert, delete i update.
39 Algorytm Pakowania R-drzewa Algorytm pakowania R-drzewa PACK jest funkcją rekurencyjną, której argumentem jest lista MBR. Funkcja zwraca wskaźnik na korzeń R-drzewa indeksującego dane z listy DLIST. Dany jest rząd R-drzewa p. PACK(DLIST) if count(dlist)<p then przydziel nowy węzeł i wstaw do niego wszystkie elementy z DLIST; zwróć wskaźnik węzła; else uporządkuj elementy DLIST ze względu na ich charakterystykę przestrzenną; utwórz listę NLIST = ( ); // // first zwraca i usuwa pierwszy element listy while (DLIST niepusta) Przydziel nowy węzeł indeksu N; Element = first(dlist); Dodaj Element do N; for (i=1; i<=p; i++) // NN zwraca element listy najbliższy danemu Element= NN(DLIST, Element); Dodaj Element do N; end loop; NLIST = append(nlist, N); Return (PACK(NLIST)); end loop; else if; end PACK;
40 Wyniki eksperymentu GUTTMAN'S INSERT PACK ALGORITHM J C O D N A C O D N A Oznaczenia: J = Liczba obiektów w bazie danych C = Globalna objętość R-drzewa O = Globalne pokrywanie się R-drzewa D = Wysokość R-drzewa N = Liczba węzłów R-drzewa A = Średnia liczba odczytywanych węzłów dla stu losowych zapytań
41 Szukanie najbliższego sąsiada (NN) za pomocą indeksów wielowymiarowych Indeksy stosujące podział przestrzeni (pliki kratowe, kddrzewa, kdb-drzewa, hb-drzewa, quad-drzewa) charakteryzują się znacznym pokryciem pustej przestrzeni. Kształt regionów nie odzwierciedla rozkładu danych. Region zawierający punkt zapytania nie musi zawierać najbliższego sąsiada. Δy NN punkt zapytania Δx NN Po znalezieniu NN w regionie zawierającym punkt zapytania należy zweryfikować dla każdego wymiaru, czy odległość punktu zapytania od NN w regionie, jest większa niż odległość punktu zapytania od odpowiednich powierzchni regionu. Jeżeli tak, należy przejrzeć regiony przylegające do każdej takiej powierzchni. Operacja jest w całości wykonywana w indeksie.
42 Szukanie najbliższego sąsiada (NN) za pomocą R-drzew Złe wiadomości: 1. Ponieważ w R-drzewach regiony MBR mogą się pokrywać, więc może istnieć wiele regionów zawierających punkt zapytania. 2. Nie istnieje relacja przylegania regionów. Dobre wiadomości: W R-drzewach kształt regionów MBR lepiej odzwierciedla rozkład zawartych w nim danych. Własność regionów MBR R-drzew Każda powierzchnia (odcinki w 2-d, prostokąty w 3- d, prostopadłościany k-1 wymiarowe w k-d) regionu MBR, na dowolnym poziomie R-drzewa, zawiera, co najmniej jeden punkt indeksowanych obiektów przestrzennych bazy danych. Własność tę można wykorzystać dla optymalizacji wyszukiwania NN.
43 Metryki regionów MBR Dla danego punktu P=(p 1, p 2,, p n ) i regionu R=(S,T), gdzie: S=(s 1,, s n ) i T=(t 1,, t n ) i s i t i dla 1 i n. MinDist(P,R) metryka optymistyczna (najlepszy przypadek) - reprezentuje najmniejszą możliwą odległość punktu P od obiektów przestrzennych pokrytych przez MBR - R. Dla dowolnego punktu P i regionu MBR R, który pokrywa zbiór obiektów O={o i }: o i O MinDist(P,R) (P,o i ), gdzie: (P,o i ) jest odległością między punktem P i obiektem przestrzennym o i. MinDist(P,R) * = n i= 1 p i r i 2 gdzie: { s i jeżeli p i < s i ; // mniejsze od min r i = t i jeżeli p i > t i ; // większe od max p i // w pozostałych przypadkach. R???? MinDist(P,R) P * dla uproszczenia odległości euklidesowe zostały zamienione na ich kwadraty
44 Metryki regionów MBR MinMaxDist(P,R) metryka pesymistyczna (najgorszy przypadek, który może zajść) - reprezentuje największą możliwą odległość punktu P do najbliższego z obiektów przestrzennych pokrytych przez region R. Dla dowolnego punktu P i regionu MBR R, który pokrywa zbiór obiektów O={o i }: o i O MinMaxDist(P,R) (P,o i ). MinMaxDist(P,R)= min ( p k rm k 2 + gdzie: rm k = rm i = { { 1 k n s k jeżeli p k (s k +t k )/2; t k w przeciwnym wypadku. s i jeżeli p i (s i +t i )/2; t i w przeciwnym wypadku. n i = 1;i k p i rm i 2 ) Dla każdego wymiaru k najdalszy punkt rm i, na bliższej ścianie rm k R??? P? MinMaxDist(P,R)
45 Optymalizacja szukania NN Metryki MinDist i MinMaxDist są używane do porządkowania i ograniczania zbioru regionów MBR i skojarzonych z nimi węzłów indeksu w celu minimalizacji liczby odczytywanych bloków indeksu. Porządkowanie Węzły indeksu są odczytywane w kolejności odpowiadającej ich porządkowi utworzonemu ze względu na jedną ze zdefiniowanych metryk. M 11 M 1 P M 21 M 2 M 22 MinDist(P,M 1 ) < MinDist(P,M 2 ) M 12 Ograniczanie 1. Ze zbioru regionów MBR, które mogą zawierać NN, należy usunąć takie regiony M, dla których istnieje region M taki, że MinDist(P,M) > MinMaxDist(P,M ). One nie mogą zawierać NN. 2. Usuń znaleziony obiekt o, dla którego odległość od punktu P jest większa od MinMaxDist(P,M), ponieważ region M musi zawierać obiekty, który są bliższe punktowi P. 3. Ze zbioru regionów MBR należy usunąć takie regiony M, dla których MinDist(P,M) jest większy od odległości między P i znalezionym już punktem o. Regiony takie nie mogą zawierać NN.
46 Algorytm szukania NN w R-drzewach Procedure NNSearch(Node, Point, Nearest) if Node.type=LEAF then for i=l to Node.count // Na poziomie liści wyznacz odległości do obiektów dist=objectdist(point,node.abl[i].rect) if dist<nearest.dist Nearest.dist = dist Nearest.rect = Node.ABL[i].rect endif endfor else // Na poziomach pośrednich - porządkuj, eliminuj i czytaj węzły // Generuj listę aktywnych gałęzi ABL ABL = genbranchlist() // Sortuj ABL odpowiednio do wartości metryk sortbranchlist(abl) // Eliminuj gałęzie za pomocą reguł 1 i 3 (może wszystkie) last = prunebranchlist(node,point,nearest, ABL) // Wyzeruj NN za pomocą reguły 2 if arenear(dist, ABL) dist = null // Wykonaj iterację po liście ABL for i=l to last newnode = Node.branch[ABL[i]] // Rekurencyjnie odczytuj węzły potomne NNSearch(newNode,Point,Nearest) // Eliminuj za pomocą reguły 3 last=prunebranchlist(node,point,nearest, ABL) endfor endif End procedure Łatwa adaptacja do znajdowania k-nn
47 Połączeniee przestrzenne (ang. Spatial Join) Ze względu na brak globalnego porządku dlaa danych prze- strzennych (linearyzacja przestrzeni jest w tym wypadku niestosowalna), niedostępne sąą szybsze metody łączenia, takie jak: sort-merge i hash-joinpozwalaa przyśpieszyćć operację łą-- czenia przestrzennego poprzez ograniczenie zbioru po- równywanych obiektów. Przyspieszenie łączenie jest uzy- skiwane w wyniku unikania porównywania obiektów po- krywanych przez MBR, dla których nie jest spełniona za- danaa relacjaa przestrzenna. Algorytmy wykorzystujące R-drzewa sąą wieloprzebiegowe. Inne algorytmy przestrzennych połącze eń: Zastosowanie R-drzew Seededd trees Hash join na pliku kratowym Sort-merge w pamięci operacyjnejj Dla dwóch zbiorów obiektów przestrzennychh A i B, ope- racjaa przestrzennego połączenia wyznaczaa zbiór par {<a, b> a A i b B takich, że między a i b zachodzi da- na relacja przestrzenna, np. a b ) }. Wynik zapytania: (x2, y1) ), (x2, y2)
48 Zastosowanie R-drzew Algorytm łączenia przestrzennego klasy depth-first: SpatialJoin(Node: R, Node: S) for(all E s S) do for(all E R R with MBR(E R ) MBR(E s ) )do // jeżeli MBR się nie pokrywają dalsze schodzenie // w głąb drzewa jest zbędne if (R and S are leaf pages) then output(e R,E s ); elseif (R is a leaf page) then SpatialJoin(E R,E s.ref); elseif (R is a leaf page) then SpatialJoin(E R.ref,E s ); else SpatialJoin(E R.ref,E s.ref); end end end end Ulepszenia poprawiające złożoność obliczeniową: Sortowanie elementów w węzłach Wstępne odfiltrowywanie elementów w węzłach do elementów, które mają część wspólną z przecięciem rodzicielskich regionów MBR
49 Optymalizacja czasu procesora Modyfikacja algorytmu połączenia przestrzennego w celu ograniczenia liczby porównywanych MBR. SpatialJoin(Node: R, Node: S, Rect: I) M 11 M 1 M 12 M 13 M 14 M 15 M 21 M 22 M 23 M 16 Rect: I M 24 M 25 M 26 M 2 Dla obniżenia złożoności obliczeniowej porównywane są tylko te składowe regiony, które mają część wspólną z przecięciem regionów nadrzędnych. Na rysunku powyżej są to regiony M 15 oraz M 21 i M 22.
50 Przykłady komercyjnych zastosowań R-drzew Indeksowanie danych geograficznych Opcja Spatial w systemie Oracle obejmuje możliwość przyśpieszenia wykonywania zapytań za pomocą Quad-Tree z funkcją linearyzacji przestrzeni opartej na krzywej Peano (Z-ordering) oraz R*-drzew. Przetwarzanie OLAP W systemie Informix pakowane R-drzewa są używane dla przyśpieszenia operacji utrzymywania tabel agregacji oraz przyśpieszenia analiz danych. Zamiast zbioru zagregowanych tabel system oferuje rozszerzony model kostki wielowymiarowej Cubetree, która modeluje dane magazynu danych jako punkty w przestrzeni wielowymiarowej. Zbiór tabel agregacji jest zastąpiony pojedynczym zapakowanym R- drzewem.
R-drzewa. Realizowane funkcje: Struktura węzłów R-drzewa
R-drzewa R-drzewa są dynamicznymi strukturami danych służącymi do wyszukiwania obiektów wielowymiarowych (niepunktowych!!!) w przestrzeni wielowymiarowej. W R-drzewach obiekty wielowymiarowe są aproksymowane
Definicja pliku kratowego
Pliki kratowe Definicja pliku kratowego Plik kratowy (ang grid file) jest strukturą wspierająca realizację zapytań wielowymiarowych Uporządkowanie rekordów, zawierających dane wielowymiarowe w pliku kratowym,
Przykładowe B+ drzewo
Przykładowe B+ drzewo 3 8 1 3 7 8 12 Jak obliczyć rząd indeksu p Dane: rozmiar klucza V, rozmiar wskaźnika do bloku P, rozmiar bloku B, liczba rekordów w indeksowanym pliku danych r i liczba bloków pliku
PRZYSPIESZENIE KNN. Ulepszone metody indeksowania przestrzeni danych: R-drzewo, R*-drzewo, SS-drzewo, SR-drzewo.
PRZYSPIESZENIE KNN Ulepszone metody indeksowania przestrzeni danych: R-drzewo, R*-drzewo, SS-drzewo, SR-drzewo. Plan wykładu Klasyfikacja w oparciu o przykładach Problem indeksowania przestrzeni obiektów
< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >
Typy indeksów Indeks jest zakładany na atrybucie relacji atrybucie indeksowym (ang. indexing field). Indeks zawiera wartości atrybutu indeksowego wraz ze wskaźnikami do wszystkich bloków dyskowych zawierających
Drzewa binarne. Drzewo binarne to dowolny obiekt powstały zgodnie z regułami: jest drzewem binarnym Jeśli T 0. jest drzewem binarnym Np.
Drzewa binarne Drzewo binarne to dowolny obiekt powstały zgodnie z regułami: jest drzewem binarnym Jeśli T 0 i T 1 są drzewami binarnymi to T 0 T 1 jest drzewem binarnym Np. ( ) ( ( )) Wielkość drzewa
Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski
: idea Indeksowanie: Drzewo decyzyjne, przeszukiwania binarnego: F = {5, 7, 10, 12, 13, 15, 17, 30, 34, 35, 37, 40, 45, 50, 60} 30 12 40 7 15 35 50 Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski
Kompresja danych Streszczenie Studia Dzienne Wykład 10,
1 Kwantyzacja wektorowa Kompresja danych Streszczenie Studia Dzienne Wykład 10, 28.04.2006 Kwantyzacja wektorowa: dane dzielone na bloki (wektory), każdy blok kwantyzowany jako jeden element danych. Ogólny
Algorytmy i Struktury Danych
Algorytmy i Struktury Danych Kopce Bożena Woźna-Szcześniak bwozna@gmail.com Jan Długosz University, Poland Wykład 11 Bożena Woźna-Szcześniak (AJD) Algorytmy i Struktury Danych Wykład 11 1 / 69 Plan wykładu
Wysokość drzewa Głębokość węzła
Drzewa Drzewa Drzewo (ang. tree) zbiór węzłów powiązanych wskaźnikami, spójny i bez cykli. Drzewo posiada wyróżniony węzeł początkowy nazywany korzeniem (ang. root). Drzewo ukorzenione jest strukturą hierarchiczną.
Podstawy Informatyki. Metody dostępu do danych
Podstawy Informatyki c.d. alina.momot@polsl.pl http://zti.polsl.pl/amomot/pi Plan wykładu 1 Bazy danych Struktury danych Średni czas odszukania rekordu Drzewa binarne w pamięci dyskowej 2 Sformułowanie
Porządek symetryczny: right(x)
Porządek symetryczny: x lef t(x) right(x) Własność drzewa BST: W drzewach BST mamy porządek symetryczny. Dla każdego węzła x spełniony jest warunek: jeżeli węzeł y leży w lewym poddrzewie x, to key(y)
Drzewa poszukiwań binarnych
1 Drzewa poszukiwań binarnych Kacper Pawłowski Streszczenie W tej pracy przedstawię zagadnienia związane z drzewami poszukiwań binarnych. Przytoczę poszczególne operacje na tej strukturze danych oraz ich
prowadzący dr ADRIAN HORZYK /~horzyk e-mail: horzyk@agh tel.: 012-617 Konsultacje paw. D-13/325
PODSTAWY INFORMATYKI WYKŁAD 8. prowadzący dr ADRIAN HORZYK http://home home.agh.edu.pl/~ /~horzyk e-mail: horzyk@agh agh.edu.pl tel.: 012-617 617-4319 Konsultacje paw. D-13/325 DRZEWA Drzewa to rodzaj
Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych
Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2013/14 Znajdowanie maksimum w zbiorze
Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych
Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2014/15 Znajdowanie maksimum w zbiorze
Drzewo. Drzewo uporządkowane ma ponumerowanych (oznaczonych) następników. Drzewo uporządkowane składa się z węzłów, które zawierają następujące pola:
Drzewa Drzewa Drzewo (ang. tree) zbiór węzłów powiązanych wskaźnikami, spójny i bez cykli. Drzewo posiada wyróżniony węzeł początkowy nazywany korzeniem (ang. root). Drzewo ukorzenione jest strukturą hierarchiczną.
Bazy danych - BD. Indeksy. Wykład przygotował: Robert Wrembel. BD wykład 7 (1)
Indeksy Wykład przygotował: Robert Wrembel BD wykład 7 (1) 1 Plan wykładu Problematyka indeksowania Podział indeksów i ich charakterystyka indeks podstawowy, zgrupowany, wtórny indeks rzadki, gęsty Indeks
Algorytmy i struktury danych. Co dziś? Tytułem przypomnienia metoda dziel i zwyciężaj. Wykład VIII Elementarne techniki algorytmiczne
Algorytmy i struktury danych Wykład VIII Elementarne techniki algorytmiczne Co dziś? Algorytmy zachłanne (greedyalgorithms) 2 Tytułem przypomnienia metoda dziel i zwyciężaj. Problem można podzielić na
2012-01-16 PLAN WYKŁADU BAZY DANYCH INDEKSY - DEFINICJE. Indeksy jednopoziomowe Indeksy wielopoziomowe Indeksy z użyciem B-drzew i B + -drzew
0-0-6 PLAN WYKŁADU Indeksy jednopoziomowe Indeksy wielopoziomowe Indeksy z użyciem B-drzew i B + -drzew BAZY DANYCH Wykład 9 dr inż. Agnieszka Bołtuć INDEKSY - DEFINICJE Indeksy to pomocnicze struktury
Podstawy programowania 2. Temat: Drzewa binarne. Przygotował: mgr inż. Tomasz Michno
Instrukcja laboratoryjna 5 Podstawy programowania 2 Temat: Drzewa binarne Przygotował: mgr inż. Tomasz Michno 1 Wstęp teoretyczny Drzewa są jedną z częściej wykorzystywanych struktur danych. Reprezentują
Algorytmy równoległe. Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2010
Algorytmy równoległe Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka Znajdowanie maksimum w zbiorze n liczb węzły - maksimum liczb głębokość = 3 praca = 4++ = 7 (operacji) n - liczność
Uniwersytet Zielonogórski Instytut Sterowania i Systemów Informatycznych. Algorytmy i struktury danych Laboratorium 7. 2 Drzewa poszukiwań binarnych
Uniwersytet Zielonogórski Instytut Sterowania i Systemów Informatycznych Algorytmy i struktury danych Laboratorium Drzewa poszukiwań binarnych 1 Cel ćwiczenia Ćwiczenie ma na celu zapoznanie studentów
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska
SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania
ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 2014/2015. Drzewa BST c.d., równoważenie drzew, kopce.
POLITECHNIKA WARSZAWSKA Instytut Automatyki i Robotyki ZASADY PROGRAMOWANIA KOMPUTERÓW ZAP zima 204/205 Język programowania: Środowisko programistyczne: C/C++ Qt Wykład 2 : Drzewa BST c.d., równoważenie
Wstęp do programowania
Wstęp do programowania Algorytmy na tablicach Paweł Daniluk Wydział Fizyki Jesień 2013 P. Daniluk (Wydział Fizyki) WP w. III Jesień 2013 1 / 23 Dwadzieścia pytań Zasady 1 Osoba 1 wymyśla hasło z ustalonej
Indeksy. Wprowadzenie. Indeksy jednopoziomowe indeks podstawowy indeks zgrupowany indeks wtórny. Indeksy wielopoziomowe
1 Plan rozdziału 2 Indeksy Indeksy jednopoziomowe indeks podstawowy indeks zgrupowany indeks wtórny Indeksy wielopoziomowe Indeksy typu B-drzewo B-drzewo B+ drzewo B* drzewo Wprowadzenie 3 Indeks podstawowy
Programowanie w VB Proste algorytmy sortowania
Programowanie w VB Proste algorytmy sortowania Sortowanie bąbelkowe Algorytm sortowania bąbelkowego polega na porównywaniu par elementów leżących obok siebie i, jeśli jest to potrzebne, zmienianiu ich
Algorytmy i Struktury Danych, 2. ćwiczenia
Algorytmy i Struktury Danych, 2. ćwiczenia 2017-10-13 Spis treści 1 Optymalne sortowanie 5 ciu elementów 1 2 Sortowanie metodą Shella 2 3 Przesunięcie cykliczne tablicy 3 4 Scalanie w miejscu dla ciągów
Kolejka priorytetowa. Często rozważa się kolejki priorytetowe, w których poszukuje się elementu minimalnego zamiast maksymalnego.
Kolejki Kolejka priorytetowa Kolejka priorytetowa (ang. priority queue) to struktura danych pozwalająca efektywnie realizować następujące operacje na zbiorze dynamicznym, którego elementy pochodzą z określonego
Modelowanie hierarchicznych struktur w relacyjnych bazach danych
Modelowanie hierarchicznych struktur w relacyjnych bazach danych Wiktor Warmus (wiktorwarmus@gmail.com) Kamil Witecki (kamil@witecki.net.pl) 5 maja 2010 Motywacje Teoria relacyjnych baz danych Do czego
Drzewa poszukiwań binarnych
1 Cel ćwiczenia Algorytmy i struktury danych Instytut Sterowania i Systemów Informatycznych Wydział Elektrotechniki, Informatyki i Telekomunikacji Uniwersytet ielonogórski Drzewa poszukiwań binarnych Ćwiczenie
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
ALGORYTMY I STRUKTURY DANYCH
ALGORYTMY I STRUKTURY DANYCH Temat : Drzewa zrównoważone, sortowanie drzewiaste Wykładowca: dr inż. Zbigniew TARAPATA e-mail: Zbigniew.Tarapata@isi.wat.edu.pl http://www.tarapata.strefa.pl/p_algorytmy_i_struktury_danych/
Algorytmy równoległe: prezentacja i ocena efektywności prostych algorytmów dla systemów równoległych
Algorytmy równoległe: prezentacja i ocena efektywności prostych algorytmów dla systemów równoległych Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2018/19 Problem: znajdowanie
Definicja. Ciąg wejściowy: Funkcja uporządkowująca: Sortowanie polega na: a 1, a 2,, a n-1, a n. f(a 1 ) f(a 2 ) f(a n )
SORTOWANIE 1 SORTOWANIE Proces ustawiania zbioru elementów w określonym porządku. Stosuje się w celu ułatwienia późniejszego wyszukiwania elementów sortowanego zbioru. 2 Definicja Ciąg wejściowy: a 1,
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;
Algorytm LEM1 Oznaczenia i definicje: U - uniwersum, tj. zbiór obiektów; A - zbiór atrybutów warunkowych; d - atrybut decyzyjny; IND(B) = {(x, y) U U : a B a(x) = a(y)} - relacja nierozróżnialności, tj.
operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.
Problem porządkowania zwanego również sortowaniem jest jednym z najważniejszych i najpopularniejszych zagadnień informatycznych. Dane: Liczba naturalna n i ciąg n liczb x 1, x 2,, x n. Wynik: Uporządkowanie
Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska
Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr letni 2006/07 Plan wykładu Systemy baz
Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
wykład Organizacja plików Opracował: dr inż. Janusz DUDCZYK
wykład Organizacja plików Opracował: dr inż. Janusz DUDCZYK 1 2 3 Pamięć zewnętrzna Pamięć zewnętrzna organizacja plikowa. Pamięć operacyjna organizacja blokowa. 4 Bufory bazy danych. STRUKTURA PROSTA
SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego
Algorytmy i struktury danych
Algorytmy i struktury danych Zaawansowane algorytmy sortowania Witold Marańda maranda@dmcs.p.lodz.pl 1 Sortowanie za pomocą malejących przyrostów metoda Shella Metoda jest rozwinięciem metody sortowania
Podstawowe algorytmy i ich implementacje w C. Wykład 9
Wstęp do programowania 1 Podstawowe algorytmy i ich implementacje w C Bożena Woźna-Szcześniak bwozna@gmail.com Jan Długosz University, Poland Wykład 9 Element minimalny i maksymalny zbioru Element minimalny
Analiza algorytmów zadania podstawowe
Analiza algorytmów zadania podstawowe Zadanie 1 Zliczanie Zliczaj(n) 1 r 0 2 for i 1 to n 1 3 do for j i + 1 to n 4 do for k 1 to j 5 do r r + 1 6 return r 0 Jaka wartość zostanie zwrócona przez powyższą
Bazy danych. Andrzej Łachwa, UJ, /15
Bazy danych Andrzej Łachwa, UJ, 2013 andrzej.lachwa@uj.edu.pl www.uj.edu.pl/web/zpgk/materialy 15/15 PYTANIA NA EGZAMIN LICENCJACKI 84. B drzewa definicja, algorytm wyszukiwania w B drzewie. Zob. Elmasri:
Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II
Wykład 6. Drzewa cz. II 1 / 65 drzewa spinające Drzewa spinające Zliczanie drzew spinających Drzewo T nazywamy drzewem rozpinającym (spinającym) (lub dendrytem) spójnego grafu G, jeżeli jest podgrafem
CLUSTERING II. Efektywne metody grupowania danych
CLUSTERING II Efektywne metody grupowania danych Plan wykładu Wstęp: Motywacja i zastosowania Metody grupowania danych Algorytmy oparte na podziałach (partitioning algorithms) PAM Ulepszanie: CLARA, CLARANS
Algorytmy i struktury danych. Wykład 6 Tablice rozproszone cz. 2
Algorytmy i struktury danych Wykład 6 Tablice rozproszone cz. 2 Na poprzednim wykładzie Wiele problemów wymaga dynamicznych zbiorów danych, na których można wykonywać operacje: wstawiania (Insert) szukania
1. Nagłówek funkcji: int funkcja(void); wskazuje na to, że ta funkcja. 2. Schemat blokowy przedstawia algorytm obliczania
1. Nagłówek funkcji: int funkcja(void); wskazuje na to, że ta funkcja nie ma parametru i zwraca wartość na zewnątrz. nie ma parametru i nie zwraca wartości na zewnątrz. ma parametr o nazwie void i zwraca
Algorytm selekcji Hoare a. Łukasz Miemus
Algorytm selekcji Hoare a Łukasz Miemus 1 lutego 2006 Rozdział 1 O algorytmie 1.1 Problem Mamy tablicę A[N] różnych elementów i zmienną int K, takie że 1 K N. Oczekiwane rozwiązanie to określenie K-tego
Wykład 2. Drzewa zbalansowane AVL i 2-3-4
Wykład Drzewa zbalansowane AVL i -3-4 Drzewa AVL Wprowadzenie Drzewa AVL Definicja drzewa AVL Operacje wstawiania i usuwania Złożoność obliczeniowa Drzewa -3-4 Definicja drzewa -3-4 Operacje wstawiania
Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne
Algorytmy i struktury danych Drzewa: BST, kopce Letnie Warsztaty Matematyczno-Informatyczne Drzewa: BST, kopce Definicja drzewa Drzewo (ang. tree) to nieskierowany, acykliczny, spójny graf. Drzewo może
Sortowanie. Kolejki priorytetowe i algorytm Heapsort Dynamiczny problem sortowania:
Sortowanie Kolejki priorytetowe i algorytm Heapsort Dynamiczny problem sortowania: podać strukturę danych dla elementów dynamicznego skończonego multi-zbioru S, względem którego są wykonywane następujące
Luty 2001 Algorytmy (4) 2000/2001
Mając dany zbiór elementów, chcemy znaleźć w nim element największy (maksimum), bądź najmniejszy (minimum). We wszystkich naturalnych metodach znajdywania najmniejszego i największego elementu obecne jest
Teoretyczne podstawy informatyki
Teoretyczne podstawy informatyki Wykład 6a Model danych oparty na drzewach 1 Model danych oparty na drzewach Istnieje wiele sytuacji w których przetwarzane informacje mają strukturę hierarchiczną lub zagnieżdżoną,
Strategia "dziel i zwyciężaj"
Strategia "dziel i zwyciężaj" W tej metodzie problem dzielony jest na kilka mniejszych podproblemów podobnych do początkowego problemu. Problemy te rozwiązywane są rekurencyjnie, a następnie rozwiązania
6. Organizacja dostępu do danych przestrzennych
6. Organizacja dostępu do danych przestrzennych Duża liczba danych przestrzennych oraz ich specyficzny charakter sprawiają, że do sprawnego funkcjonowania systemu, przetwarzania zgromadzonych w nim danych,
Plan wykładu. Klucz wyszukiwania. Pojęcie indeksu BAZY DANYCH. Pojęcie indeksu - rodzaje indeksów Metody implementacji indeksów.
Plan wykładu 2 BAZY DANYCH Wykład 4: Indeksy. Pojęcie indeksu - rodzaje indeksów Metody implementacji indeksów struktury statyczne struktury dynamiczne Małgorzata Krętowska Wydział Informatyki PB Pojęcie
liniowa - elementy następują jeden za drugim. Graficznie możemy przedstawić to tak:
Sortowanie stogowe Drzewo binarne Binary Tree Dotychczas operowaliśmy na prostych strukturach danych, takich jak tablice. W tablicy elementy ułożone są zgodnie z ich numeracją, czyli indeksami. Jeśli za
Algorytmy sortujące i wyszukujące
Algorytmy sortujące i wyszukujące Zadaniem algorytmów sortujących jest ułożenie elementów danego zbioru w ściśle określonej kolejności. Najczęściej wykorzystywany jest porządek numeryczny lub leksykograficzny.
KODY SYMBOLI. Kod Shannona-Fano. Algorytm S-F. Przykład S-F
KODY SYMBOLI Kod Shannona-Fano KODOWANIE DANYCH, A.Przelaskowski Metoda S-F Kod Huffmana Adaptacyjne drzewo Huffmana Problemy implementacji Kod Golomba Podsumowanie Kod drzewa binarnego Na wejściu rozkład:
Algorytmy Równoległe i Rozproszone Część V - Model PRAM II
Algorytmy Równoległe i Rozproszone Część V - Model PRAM II Łukasz Kuszner pokój 209, WETI http://www.sphere.pl/ kuszner/ kuszner@sphere.pl Oficjalna strona wykładu http://www.sphere.pl/ kuszner/arir/ 2005/06
Drzewa BST i AVL. Drzewa poszukiwań binarnych (BST)
Drzewa ST i VL Drzewa poszukiwań binarnych (ST) Drzewo ST to dynamiczna struktura danych (w formie drzewa binarnego), która ma tą właściwość, że dla każdego elementu wszystkie elementy w jego prawym poddrzewie
Każdy węzeł w drzewie posiada 3 pola: klucz, adres prawego potomka i adres lewego potomka. Pola zawierające adresy mogą być puste.
Drzewa binarne Każdy węzeł w drzewie posiada pola: klucz, adres prawego potomka i adres lewego potomka. Pola zawierające adresy mogą być puste. Uporządkowanie. Zakładamy, że klucze są różne. Klucze leżące
Sortowanie bąbelkowe
1/98 Sortowanie bąbelkowe (Bubble sort) prosty i nieefektywny algorytm sortowania wielokrotnie przeglądamy listę elementów, porównując dwa sąsiadujące i zamieniając je miejscami, jeśli znajdują się w złym
Teoretyczne podstawy informatyki
Teoretyczne podstawy informatyki Wykład 6b: Model danych oparty na drzewach http://hibiscus.if.uj.edu.pl/~erichter/dydaktyka2010/tpi-2010 Prof. dr hab. Elżbieta Richter-Wąs 1 Model danych oparty na drzewach
Wstęp do programowania. Drzewa podstawowe techniki. Piotr Chrząstowski-Wachtel
Wstęp do programowania Drzewa podstawowe techniki Piotr Chrząstowski-Wachtel Drzewa wyszukiwań Drzewa często służą do przechowywania informacji. Jeśli uda sie nam stworzyć drzewo o niewielkiej wysokości
Algorytmy i struktury danych
Algorytmy i struktury danych ĆWICZENIE 2 - WYBRANE ZŁOŻONE STRUKTURY DANYCH - (12.3.212) Prowadząca: dr hab. inż. Małgorzata Sterna Informatyka i3, poniedziałek godz. 11:45 Adam Matuszewski, nr 1655 Oliver
Algorytmy i struktury danych. Wykład 4 Tablice nieporządkowane i uporządkowane
Algorytmy i struktury danych Wykład 4 Tablice nieporządkowane i uporządkowane Tablice uporządkowane Szukanie binarne Szukanie interpolacyjne Tablice uporządkowane Szukanie binarne O(log N) Szukanie interpolacyjne
Indeksowanie w bazach danych
w bazach Katedra Informatyki Stosowanej AGH 5grudnia2013 Outline 1 2 3 4 Czym jest indeks? Indeks to struktura, która ma przyspieszyć wyszukiwanie. Indeks definiowany jest dla atrybutów, które nazywamy
Podstawowe własności grafów. Wykład 3. Własności grafów
Wykład 3. Własności grafów 1 / 87 Suma grafów Niech będą dane grafy proste G 1 = (V 1, E 1) oraz G 2 = (V 2, E 2). 2 / 87 Suma grafów Niech będą dane grafy proste G 1 = (V 1, E 1) oraz G 2 = (V 2, E 2).
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Algorytmy i złożoności. Wykład 3. Listy jednokierunkowe
Algorytmy i złożoności Wykład 3. Listy jednokierunkowe Wstęp. Lista jednokierunkowa jest strukturą pozwalającą na pamiętanie danych w postaci uporzadkowanej, a także na bardzo szybkie wstawianie i usuwanie
E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne
E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne Przypominajka: 152 drzewo filogenetyczne to drzewo, którego liśćmi są istniejące gatunki, a węzły wewnętrzne mają stopień większy niż jeden i reprezentują
Metody getter https://www.python-course.eu/python3_object_oriented_programming.php 0_class http://interactivepython.org/runestone/static/pythonds/index.html https://www.cs.auckland.ac.nz/compsci105s1c/lectures/
Algorytmy i Struktury Danych. Co dziś? Drzewo decyzyjne. Wykład IV Sortowania cd. Elementarne struktury danych
Algorytmy i Struktury Danych Wykład IV Sortowania cd. Elementarne struktury danych 1 Co dziś? Dolna granica sortowań Mediany i statystyki pozycyjne Warstwa implementacji Warstwa abstrakcji #tablice #listy
Podstawy programowania. Wykład 7 Tablice wielowymiarowe, SOA, AOS, itp. Krzysztof Banaś Podstawy programowania 1
Podstawy programowania. Wykład 7 Tablice wielowymiarowe, SOA, AOS, itp. Krzysztof Banaś Podstawy programowania 1 Tablice wielowymiarowe C umożliwia definiowanie tablic wielowymiarowych najczęściej stosowane
INFORMATYKA SORTOWANIE DANYCH.
INFORMATYKA SORTOWANIE DANYCH http://www.infoceram.agh.edu.pl SORTOWANIE Jest to proces ustawiania zbioru obiektów w określonym porządku. Sortowanie stosowane jest w celu ułatwienia późniejszego wyszukania
77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego.
77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego. Przy modelowaniu bazy danych możemy wyróżnić następujące typy połączeń relacyjnych: jeden do wielu, jeden do jednego, wiele
Wykład 6. Drzewa poszukiwań binarnych (BST)
Wykład 6 Drzewa poszukiwań binarnych (BST) 1 O czym będziemy mówić Definicja Operacje na drzewach BST: Search Minimum, Maximum Predecessor, Successor Insert, Delete Struktura losowo budowanych drzew BST
Przypomnij sobie krótki wstęp do teorii grafów przedstawiony na początku semestru.
Spis treści 1 Drzewa 1.1 Drzewa binarne 1.1.1 Zadanie 1.1.2 Drzewo BST (Binary Search Tree) 1.1.2.1 Zadanie 1 1.1.2.2 Zadanie 2 1.1.2.3 Zadanie 3 1.1.2.4 Usuwanie węzła w drzewie BST 1.1.2.5 Zadanie 4
Laboratorium nr 7 Sortowanie
Laboratorium nr 7 Sortowanie 1. Sortowanie bąbelkowe (BbS) 2. Sortowanie przez wstawianie (IS) 3. Sortowanie przez wybieranie (SS) Materiały Wyróżniamy następujące metody sortowania: 1. Przez prostą zamianę
Wykład X. Programowanie. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2016 Janusz Słupik
Wykład X Wydział Matematyki Stosowanej Politechniki Śląskiej Gliwice, 2016 c Copyright 2016 Janusz Słupik Drzewa binarne Drzewa binarne Drzewo binarne - to drzewo (graf spójny bez cykli) z korzeniem (wyróżnionym
Algorytmy i Struktury Danych, 2. ćwiczenia
Algorytmy i Struktury Danych, 2. ćwiczenia 2015-10-09 Spis treści 1 Szybkie potęgowanie 1 2 Liczby Fibonacciego 2 3 Dowód, że n 1 porównań jest potrzebne do znajdowania minimum 2 4 Optymalny algorytm do
Sztuczna Inteligencja Projekt
Sztuczna Inteligencja Projekt Temat: Algorytm LEM2 Liczba osób realizujących projekt: 2 1. Zaimplementować algorytm LEM 2. 2. Zaimplementować klasyfikator Classif ier. 3. Za pomocą algorytmu LEM 2 wygenerować
Jeszcze o algorytmach
Jeszcze o algorytmach Przykłady różnych, podstawowych algorytmów 11.01.2018 M. Rad Plan Powtórka Znajdowanie najmniejszego elementu Segregowanie Poszukiwanie przez połowienie Wstawianie Inne algorytmy
Sortowanie - wybrane algorytmy
Sortowanie - wybrane algorytmy Aleksandra Wilkowska Wydział Matematyki - Katedra Matematyki Stosowanej Politechika Wrocławska 2 maja 2018 1 / 39 Plan prezentacji Złożoność obliczeniowa Sortowanie bąbelkowe
Algorytmy i. Wykład 5: Drzewa. Dr inż. Paweł Kasprowski
Algorytmy i struktury danych Wykład 5: Drzewa Dr inż. Paweł Kasprowski pawel@kasprowski.pl Drzewa Struktury przechowywania danych podobne do list ale z innymi zasadami wskazywania następników Szczególny
Drzewa wyszukiwań binarnych (BST)
Drzewa wyszukiwań binarnych (BST) Krzysztof Grządziel 12 czerwca 2007 roku 1 Drzewa Binarne Drzewa wyszukiwań binarnych, w skrócie BST (od ang. binary search trees), to szczególny przypadek drzew binarnych.
METODY INŻYNIERII WIEDZY
METODY INŻYNIERII WIEDZY Metoda K Najbliższych Sąsiadów K-Nearest Neighbours (KNN) ĆWICZENIA Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Algorytmy i struktury danych. wykład 5
Plan wykładu: Wskaźniki. : listy, drzewa, kopce. Wskaźniki - wskaźniki Wskaźnik jest to liczba lub symbol który w ogólności wskazuje adres komórki pamięci. W językach wysokiego poziomu wskaźniki mogą również
Podstawy Informatyki. Sprawność algorytmów
Podstawy Informatyki Sprawność algorytmów Sprawność algorytmów Kryteria oceny oszczędności Miara złożoności rozmiaru pamięci (złożoność pamięciowa): Liczba zmiennych + liczba i rozmiar struktur danych
Zadanie 1 Przygotuj algorytm programu - sortowanie przez wstawianie.
Sortowanie Dane wejściowe: ciąg n-liczb (kluczy) (a 1, a 2, a 3,..., a n 1, a n ) Dane wyjściowe: permutacja ciągu wejściowego (a 1, a 2, a 3,..., a n 1, a n) taka, że a 1 a 2 a 3... a n 1 a n. Będziemy
Optymalizacja poleceń SQL Metody dostępu do danych
Optymalizacja poleceń SQL Metody dostępu do danych 1 Metody dostępu do danych Określają, w jaki sposób dane polecenia SQL są odczytywane z miejsca ich fizycznej lokalizacji. Dostęp do tabeli: pełne przeglądnięcie,
Złożoność algorytmów. Wstęp do Informatyki
Złożoność algorytmów Złożoność pamięciowa - liczba i rozmiar struktur danych wykorzystywanych w algorytmie Złożoność czasowa - liczba operacji elementarnych wykonywanych w trakcie przebiegu algorytmu Złożoność
Indeksy. Schematyczne ujęcie organizacji pamięci i wymiany danych systemu pamiętania.
Indeksy Statyczny model pamiętania bazy danych Bazy danych są fizycznie przechowywane jako pliki rekordów, które zazwyczaj są składowane na twardych dyskach. Dane przechowywane są w pamięci zewnętrznej,