MODEL KOSZTOWY X-BR-DRZEWA W PRZESTRZENNYCH BAZACH DANYCH COST MODEL FOR X-BR-TREE IN SPATIAL DATABASES

Podobne dokumenty
Ćwiczenia rachunkowe TEST ZGODNOŚCI χ 2 PEARSONA ROZKŁAD GAUSSA

Wykład 7. Przestrzenie metryczne zwarte. x jest ciągiem Cauchy ego i posiada podciąg zbieżny. Na mocy

Metrologia: miary dokładności. dr inż. Paweł Zalewski Akademia Morska w Szczecinie

Dwumian Newtona. Agnieszka Dąbrowska i Maciej Nieszporski 8 stycznia 2011

LICZBY, RÓWNANIA, NIERÓWNOŚCI; DOWÓD INDUKCYJNY

PODSTAWY OPRACOWANIA WYNIKÓW POMIARÓW Z ELEMENTAMI ANALIZY NIEPEWNOŚCI POMIAROWYCH

Jarosław Wróblewski Analiza Matematyczna 1A, zima 2012/13. Ciągi.

N ( µ, σ ). Wyznacz estymatory parametrów µ i. Y które są niezależnymi zmiennymi losowymi.

KOMBINATORYKA. Oznaczenia. } oznacza zbiór o elementach a, a2,..., an. Kolejność wypisania elementów zbioru nie odgrywa roli.

WYKORZYSTANIE FILTRU CZĄSTECZKOWEGO W PROBLEMIE IDENTYFIKACJI UKŁADÓW AUTOMATYKI

Statystyka Inżynierska

Wykład 6. Przestrzenie metryczne ośrodkowe i zupełne. ρ, gdzie r

Analiza I.1, zima wzorcowe rozwiązania

Kombinacje, permutacje czyli kombinatoryka dla testera

Estymacja przedziałowa

Zajęcia nr. 2 notatki

Jarosław Wróblewski Analiza Matematyczna 1A, zima 2014/15. n = Rozwiązanie: Stosując wzór na wartość współczynnika dwumianowego otrzymujemy

Ćwiczenia rachunkowe TEST ZGODNOŚCI 2 PEARSONA ROZKŁAD GAUSSA

ZAGADNIENIE ESTYMACJI. ESTYMACJA PUNKTOWA I PRZEDZIAŁOWA

APROKSYMACJA I INTERPOLACJA. funkcja f jest zbyt skomplikowana; użycie f w dalszej analizie problemu jest trudne

INDUKCJA MATEMATYCZNA

Rozkład normalny (Gaussa)

Wyższe momenty zmiennej losowej

n k n k ( ) k ) P r s r s m n m n r s r s x y x y M. Przybycień Rachunek prawdopodobieństwa i statystyka

Znajdowanie pozostałych pierwiastków liczby zespolonej, gdy znany jest jeden pierwiastek

3. Regresja liniowa Założenia dotyczące modelu regresji liniowej

CHARAKTERYSTYKI CZĘSTOTLIWOŚCIOWE PODSTAWOWYCH CZŁONÓW LINIOWYCH UKŁADÓW AUTOMATYKI

f '. Funkcja h jest ciągła. Załóżmy, że ciąg (z n ) n 0, z n+1 = h(z n ) jest dobrze określony, tzn. n 0 f ' ( z n

Techniczne Aspekty Zapewnienia Jakości

O liczbach naturalnych, których suma równa się iloczynowi

X i. X = 1 n. i=1. wartość tej statystyki nazywana jest wartością średnią empiryczną i oznaczamy ją symbolem x, przy czym x = 1. (X i X) 2.

Kolorowanie Dywanu Sierpińskiego. Andrzej Szablewski, Radosław Peszkowski

Pierwiastki z liczby zespolonej. Autorzy: Agnieszka Kowalik

Wykład 11. a, b G a b = b a,

Lista 6. Estymacja punktowa

H brak zgodności rozkładu z zakładanym

Analiza matematyczna i algebra liniowa

STATYSTYKA I ANALIZA DANYCH

IV Uniwersytecka Sobota Matematyczna 14 kwietnia Funkcje tworzące w kombinatoryce

Analiza I.1, zima globalna lista zadań

MACIERZE STOCHASTYCZNE

1. Wnioskowanie statystyczne. Ponadto mianem statystyki określa się także funkcje zmiennych losowych o

Jarosław Wróblewski Analiza Matematyczna 1, zima 2016/17

Internetowe Kółko Matematyczne 2004/2005

Jarosław Wróblewski Analiza Matematyczna 1, zima 2016/ n 333))

WERSJA TESTU A. Komisja Egzaminacyjna dla Aktuariuszy. LX Egzamin dla Aktuariuszy z 28 maja 2012 r. Część I. Matematyka finansowa

UKŁADY RÓWNAŃ LINOWYCH

POLITECHNIKA OPOLSKA

I. Podzielność liczb całkowitych

Podprzestrzenie macierzowe

Arkusz ćwiczeniowy z matematyki Poziom podstawowy ZADANIA ZAMKNIĘTE. W zadaniach od 1. do 21. wybierz i zaznacz poprawną odpowiedź. 1 C. 3 D.

Teoria. a k. Wskaźnik sumowania można oznaczać dowolną literą. Mamy np. a j = a i =

Podprzestrzenie macierzowe

Statystyka i Opracowanie Danych. W7. Estymacja i estymatory. Dr Anna ADRIAN Paw B5, pok407

EGZAMIN MATURALNY Z INFORMATYKI MAJ 2012 POZIOM PODSTAWOWY CZĘŚĆ I WYBRANE: Czas pracy: 75 minut. Liczba punktów do uzyskania: 20 WPISUJE ZDAJĄCY

ma rozkład złożony Poissona z oczekiwaną liczbą szkód równą λ i rozkładem wartości pojedynczej szkody takim, że Pr( Y

Miary położenia (tendencji centralnej) to tzw. miary przeciętne charakteryzujące średni lub typowy poziom wartości cechy.

kpt. dr inż. Marek BRZOZOWSKI kpt. mgr inż. Zbigniew LEWANDOWSKI Wojskowy Instytut Techniczny Uzbrojenia

Analiza dokładności pomiaru, względnego rozkładu egzytancji widmowej źródeł światła, dokonanego przy użyciu spektroradiometru kompaktowego

SYSTEM OCENY STANU NAWIERZCHNI SOSN ZASADY POMIARU I OCENY STANU RÓWNOŚCI PODŁUŻNEJ NAWIERZCHNI BITUMICZNYCH W SYSTEMIE OCENY STANU NAWIERZCHNI SOSN

Rachunek różniczkowy funkcji wielu zmiennych

Parametryzacja rozwiązań układu równań

Wykład 8: Zmienne losowe dyskretne. Rozkłady Bernoulliego (dwumianowy), Pascala, Poissona. Przybliżenie Poissona rozkładu dwumianowego.

Ćwiczenia nr 5. TEMATYKA: Regresja liniowa dla prostej i płaszczyzny

Elementy modelowania matematycznego

tek zauważmy, że podobnie jak w dziedzinie rzeczywistej wprowadzamy dla funkcji zespolonych zmiennej rzeczywistej pochodne wyższych rze

Liczby Stirlinga I rodzaju - definicja i własności

Stwierdzenie 1. Jeżeli ciąg ma granicę, to jest ona określona jednoznacznie (żaden ciąg nie może mieć dwóch różnych granic).

Wyk lad 8 Zasadnicze twierdzenie algebry. Poj. ecie pierścienia

Estymacja. Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych. Wykład 7

a 1, a 2, a 3,..., a n,...

i statystyka matematyczna Rachunek prawdopodobieństwa i statystyka matematyczna w zadaniach, M. Przybycień Rachunek prawdopodobieństwa i statystyka

MINIMALIZACJA PUSTYCH PRZEBIEGÓW PRZEZ ŚRODKI TRANSPORTU

Ćwiczenie 2 ESTYMACJA STATYSTYCZNA

MODELE MATEMATYCZNE W UBEZPIECZENIACH. 1. Renty

Metoda analizy hierarchii Saaty ego Ważnym problemem podejmowania decyzji optymalizowanej jest często występująca hierarchiczność zagadnień.

Wokół testu Studenta 1. Wprowadzenie Rozkłady prawdopodobieństwa występujące w testowaniu hipotez dotyczących rozkładów normalnych

( ) WŁASNOŚCI MACIERZY

Jarosław Wróblewski Analiza Matematyczna A1, zima 2011/12. Kresy zbiorów. x Z M R

ĆWICZENIE 1 Symulacja doświadczeń losowych Statystyka opisowa Estymacja parametryczna i nieparametryczna T E O R I A

Zeszyty naukowe nr 9

Elementy rach. macierzowego Materiały pomocnicze do MES Strona 1 z 7. Elementy rachunku macierzowego

PRZEDZIAŁY UFNOŚCI. Niech θ - nieznany parametr rozkładu cechy X. Niech α będzie liczbą z przedziału (0, 1).

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych (w zakresie materiału przedstawionego na wykładzie organizacyjnym)

Statystyka matematyczna. Wykład II. Estymacja punktowa

POLOWO-OBWODOWY MODEL AKTUATORA MAGNETOSTRYKCYJNEGO

II. PEWNE SCHEMATY RACHUNKU PRAWDOPODOBIEŃSTWA

Prawdopodobieństwo i statystyka r.

Metody podziału klasowego konspekt ćwiczeń. mgr Marcin Semczuk na podstawie materiałów mgr inż. Stanisława Szombary oraz dr inż.

Moda (Mo, D) wartość cechy występującej najczęściej (najliczniej).

Przykład Obliczenie wskaźnika plastyczności przy skręcaniu

Geometrycznie o liczbach

STATYSTYKA OPISOWA WYKŁAD 1 i 2

Teoria. a k. Wskaźnik sumowania można oznaczać dowolną literą. Mamy np. a j = a i =

Metody Podejmowania Decyzji

Rekursja 2. Materiały pomocnicze do wykładu. wykładowca: dr Magdalena Kacprzak

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych

Trzeba pokazać, że dla każdego c 0 c Mc 0. ) = oraz det( ) det( ) det( ) jest macierzą idempotentną? Proszę odpowiedzieć w

BADANIA DOCHODU I RYZYKA INWESTYCJI

Podstawowe oznaczenia i wzory stosowane na wykładzie i laboratorium Część I: estymacja

Transkrypt:

STUDIA IFORMATIA 8 Volume 9 umber A 78 Marci GORAWSKI, Marci BUGDOL Politechia Śląsa, Istytut Iformatyi MODEL KOSZTOWY X-BR-DRZEWA W PRZESTRZEYH BAZAH DAYH Streszczeie. W artyule przestawioo model osztowy x-br-drzewa dla zapytań realizowaych w przestrzeych bazach daych. Model wyzacza oszt dla zapytań przestrzeych w bazach daych, rozumiay jao liczba dostępów do węzłów lub odczytów z dysu. Zaprezetowao wyii testów, tóre poazują doładość aalityczych estymacji w porówaiu z rzeczywistymi wyiami. Słowa luczowe: przestrzee bazy daych, x-br-drzewo, estymacja osztów OST MODEL FOR X-BR-TREE I SPATIAL DATABASES Summary. The paper proposes the cost model for spatial databases based o x-br-tree idex. The model evaluates the cost for spatial queries i database, meat as a umber of ode accesses or disc reads. I additio, experimetal results are preseted, which shows the accuracy of aalytical estimatio compared with actual results. Keywords: spatial database, x-br-tree, cost estimatio. Wstęp ieustay rozwój systemów baz daych wymaga opracowywaia coraz to owszych metod dostępu. Szczególą popularością w ostatich latach cieszą się dae przestrzee, w związu z czym położoo acis a usprawieie metod dostępu do tego typu daych [, ]. Z powodu ogromej liczby rozwiązań wspierających przetwarzaie daych przestrzeych obece badaia supiły się a opracowywaiu modeli aalityczych, tóre umożliwiają predycję osztów dostępu.

6 M. Gorawsi, M. Bugdol W pozycjach [] oraz [] przedstawioo przybliżoe estymatory osztu dla idesów z rodziy R-drzew. Ich wyii są dość dobre zarówo dla daych rozloowaych w przestrzei rówomierie, ja i ierówomierie. Estymatory te staowiły podstawę do rozważań aalityczych w ilu luczowych pracach [5, 6] ze względu a wszechstroe możliwości. Modele te ie są jeda dosoałe, co wyraźie widać przy szacowaiu osztów przy dostępie do strutur, wyorzystujących idesy, opierające się a hierarchiczym podziale przestrzei. Wyia to bezpośredio z fatu, że załadają oe, iż rozmiar węzłów strutury idesującej zależy tylo od rozmieszczeia obietów w przestrzei. Jest to zgode ze specyfią idesów z rodziy R-drzew. Drzewa czwórowe i idesy bazujące a ich dzielą przestrzeń regularie, przez co wyiowa strutura ie jest ściśle dopasowaa do rozmieszczeia obietów przestrzeych.. Ides X-BR-drzewo X-BR-drzewo ag. Exteral Balaced Regular Tree, zaprezetoway w [], wywodzi się z idei drzew czwórowych. Jest to strutura, tóra opiera się a hierarchiczym, rówomierym podziale idesowaej przestrzei. Dzięi modyfiacjom, tóre rozszerzają jego możliwości, jest struturą o wiele wydajiejszą i bardziej fucjoalą, aiżeli drzewa czwórowe. Ides x-br drzewo jest struturą zrówoważoą, liście zajdują się a tym samym poziomie i odpowiadają stroom a dysu. Możliwość przechowywaia w węzłach pośredich więszej liczby wpisów iż co ma miejsce dla drzew czwórowych zmiejsza wysoość drzewa, a poszczególe węzły mogą być bardziej efetywie wyorzystae... Budowa Drzewo x-br słada się z dwóch rodzajów węzłów. Pierwszym z ich są węzły zewętrze, zawierające obiety przestrzee, tórych liczbę oreśla pojemość węzła. zęsto azywa się je taże liśćmi. Podział liścia astępuje w wyiu jego przepełieia. Proces te zaczya się od reurecyjego podziału obszaru liścia a cztery rówe części. astępie wybieraa jest ćwiarta zawierającą ajwięcej obietów. Proces te przebiega ta długo, ja długo wyiowe obszary będą zawierały więcej iż x lub miej iż x obietów, gdzie x,5; jest współczyiiem podziału []. Wartość tego współczyia wpływa a liczbę oieczych podziałów. W miarę zbliżaia się tej wartości do,5 musi zostać wyoaa coraz więsza liczba podziałów. Algorytm, w postaci pseudoodu, dooujący podziału liścia przedstawia się astępująco:

Model osztowy x-br-drzewa w przestrzeych bazach daych 7 leafsplit BEGI DO podziel regio zawierający ajwięcej elemetów a cztery rówe części wyszuaj część zawierającą ajwięcej elemetów WHILE liczba elemetów w wybraej części x* && liczba elemetów w wybraej części > -x* przeieś odpowiedie elemety do owego liścia zatualizuj wpisy w rodzicu ED Zauważoo, iż sposób doboru współczyia x ie może być dowoly. Przyład poaże sytuację, w tórej ieodpowiedi dobór współczyia podziału może spowodować iepoprawe działaie algorytmu podziału liści. Przyjęto astępujące założeia: pojemość liści wyosi, współczyi podziału x rówa się,7, a obiety rozmieszczoe są rówomierie. Jeżeli do liścia wstawi się obietów, to w ażdym regioie, będącym ćwiartą regiou początowego, liczba wpisów wyosi 5. Wstawieie olejego elemetu spowoduje przepełieie liścia i oieczość jego podziału. owy węzeł ie powiie posiadać więcej iż 7,7*, i miej iż,7* wpisów. Moża zauważyć, iż algorytm ie dooa podziału węzła według przedstawioych założeń, poieważ liczba elemetów w ażdym z owych regioów ie przeroczy 6. o więcej, działaie algorytmu spowoduje błąd wyoaia z powodu pętli iesończoej lub przepełieia stosu w przypadu wywołań reurecyjych. a podstawie powyższego rozumowaia wyzaczoo zależość a wartość współczyia x, tórą moża wyrazić jao: x * + gdzie: pojemość węzła, x współczyi podziału węzła, x,5;. Drugim rodzajem węzłów są węzły pośredie. Zawierają oe wpisy w postaci [adres; wsaźi], gdzie adres zawiera symbole ieruowe obszaru obejmowaego przez potoma, atomiast pole wsaźi jest odośiiem do dzieca. Adres zapisay jest w postaci zbioru symboli ieruowych, tóry zawiera astępujące elemety: W, E, SW, SE oraz *. Ozaczają oe oleje ćwiarti daego regiou, atomiast symbol * ozacza cały pozostały regio. Adres umożliwia zapisaie więszej liczby daych w węźle pośredim, poieważ potome może teraz obejmować ie tylo jedą ćwiartę przestrzei rodzica, ale rówież o wiele miejsze regioy. Wpisy rozpatrywae są według ich olejości w węźle pośredim. Obszar potoma zależy ie tylo od jego adresu, ale rówież od adresów wpisów zajdujących się przed im. Obszar te jest oreślay jao różica pomiędzy przestrzeią obejmowaą adresem daego potoma a przestrzeią obejmowaą przez adresy wpisów zajdujących się przed im. W przypadu przepełieia węzła pośrediego astępuje jego podział, tóry wyoyway jest według poiższych roów:

8 M. Gorawsi, M. Bugdol budowa drzewa czwórowego a podstawie wpisów w przepełioym węźle, wyszuaie ajlepszego miejsca podziału, przeiesieie wpisów do owo utworzoego węzła, atualizacja wpisów w rodzicu, a w przypadu jego brau utworzeie owego węzła pośrediego. Szczegóły tych roów zostały omówioe wraz z przyładami w []... Problemy z oszacowaiem liczby węzłów Rozmiar i ształt węzłów w idesie x-br-drzewo wyia ze sposobu podziału przestrzei roboczej. Podziału tego ie moża iestety doładie przewidzieć. Zależy o od zbioru daych, ale rówież od olejości wstawiaia elemetów. Poiższy przyład ilustruje wspomiay problem. Przyład Wstawioo ila putów do idesu o astępujących parametrach: pojemość liści ; pojemość węzłów pośredich ; próg podziału,7 podział liścia będzie astępował ta długo, dopói ie będzie o zawierał masymalie putów. a b Rys.. Wpływ olejości wstawieia wpisów a struturę x-br-drzewa: awstawiaie losowe, b wstawiaie uporządowae Fig.. The ifluece of the etries iserts order o the x-br-tree structure: a radom isertio, b ordered isertio Ja widać a powyższych ilustracjach rys., strutury wyiowe w obu przypadach są róże. W a zarówo liczba liści, ja i węzłów pośredich jest więsza iż w przypadu b, a poadto liście są o wiele miejsze. Ides te w pierwotej postaci ie przewiduje łączeia węzłów, więc ie ma możliwości, by strutura węzłów była bardziej efetywa. Z przyładu wyia, że liczba liści oraz ich rozmiar ie zależą tylo od zbioru daych, lecz w dużej mierze rówież od olejości wstawiaia elemetów. Przyład Porówaie liczby węzłów w zależości od sposobu wstawieia, wartości współczyia podziału oraz liczości zbioru daych:

Model osztowy x-br-drzewa w przestrzeych bazach daych 9 liczba wstawioych putów: 96, 68 oraz 6556; rozmiar przestrzei: 5 5 putów; pojemość liści: ; pojemość węzłów pośredich: ; współczyi podziału:,7 oraz,75 podział liścia przebiega ta długo, aż ażdy regio będzie zawierać co ajwyżej dwa wpisy dla parametru,7 i co ajwyżej trzy wpisy dla wartości,75; sposób wstawiaia putów rówomierie od lewej do prawej i od góry do dołu, w drugim przypadu te sam zbiór putów wstawioo losowo. 5 rówomierie,7 losowo,7 rówomierie,75 losowo,75 liczba liści [tyś] 5 5 5 96 68 6556 liczba putów Rys.. Liczba liści w zależości od liczby wstawioych putów Fig.. umber of leaves depedig o the umber of iserted poits a podstawie rys. moża zauważyć, że liczba węzłów w x-br-drzewie bardzo silie zależy od sposobu wstawiaia, a taże od współczyia podziału. Dla współczyia podziału o wartości,75 różice przy miejszych zbiorach daych ie są zacze. Jeda dla zbioru daych o liczości 6556 elemetów liczba liści przy wstawiaiu rówomierym jest o poad % miejsza iż przy umieszczaiu wpisów losowo. Dla wartości współczyia podziału rówej,7 różice są jeszcze więsze. Liczba węzłów w ażdym przypadu różi się o co ajmiej %. Ja widać a podstawie powyższego esperymetu, liczba węzłów, a w szczególości liści, jest bardzo truda do oszacowaia. Wartość ta jest podstawą w przedstawioym modelu osztowym, co sprawia, że opracowaie doładej zależości astręcza pewych problemów.

M. Gorawsi, M. Bugdol.. Model osztów Model osztów dla zapytań przestrzeych z użyciem idesu x-br-drzewa moża przedstawić jao zależość probabilistyczą. Przedstawioe rozważaia będą dążyły do wyrażeia osztu zapytaia przestrzeego z użyciem iformacji o liczości zbioru daych. a chwilę obecą model będzie się ograiczał tylo do poziomów liści, aby ie ompliować rozważań. Przestrzeń, w tórej będzie omawiay model, jest jedostowa. Zapytaie przestrzeej selecji odwołuje się do węzłów zajdujących się w jego obszarze. Dostęp do węzła astępuje zarówo, gdy zawiera się o w całości w oie zapytaia, ja i gdy zapytaie przecia węzeł. Prawdopodobieństwo zawieraia się obszaru daych s w oie zapytaia q w przestrzei d-wymiarowej wyosi: P cot d i q s i i Prawdopodobieństwo przeciaia się obszaru daych s w oie zapytaia q w przestrzei d-wymiarowej wyosi: P cross d q + s d q s Poprzez oszt wyoaia zapytaia selecji z użyciem idesu będziemy rozumieć liczbę odwołań do liści x-br-drzewa LA_total, co odpowiada liczbie odczytów z pamięci zewętrzej. Wartość ta będzie zależała od rozmiaru pojedyczego liścia oraz od rozmiaru zapytaia. Wzór a liczbę przeciętych liści w zależości od rozmiaru zapytaia moża przedstawić astępująco: d * Pcot + Pcross * q + s LA_ total q gdzie: P cot prawdopodobieństwo zawieraia się obietu daych w zapytaiu, P cross prawdopodobieństwo przeciaia się obietu daych z zapytaiem, d liczba wymiarów przestrzei, liczba liści, q długość bou zapytaia w -tym wymiarze, s średia długość bou liścia w -tym wymiarze. ajprostszy model bazuje a zależości. Liczbę liści w idesie moża uzysać a podstawie zebraych statysty drzewa. Rozmiar pojedyczego liścia moża wyzaczyć, dzieląc jede wymiar przestrzei roboczej przez pierwiaste d-tego stopia, gdzie d to liczba wymiarów przestrzei: s d / 5 gdzie: s długość bou daych w -tym wymiarze, d liczba wymiarów, liczba liści.

Model osztowy x-br-drzewa w przestrzeych bazach daych Przyjęto, że przestrzeń robocza jest dwuwymiarowa oraz że ażdy z wymiarów przestrzei posiada taą samą długość wadratowa przestrzeń. Podstawiając rówaie 5 do, otrzymujemy: * _ q q total LA + 6 gdzie: LA_total całowita liczba dostępów do liści, liczba liści w drzewie, q długość bou zapytaia. Powyższy model ie bierze pod uwagę algorytmu tworzeia idesu, lecz, bazując a liczbie liści, uśredia ich rozmiar i te wartości wyorzystuje do predycji osztu. Poiżej podjęto próbę bardziej doładego oszacowaia liczby liści oraz ich rozmiaru. Poczyioo astępujące założeia przy wyprowadzaiu tej zależości: przestrzeń jest dwuwymiarowa, ażdy z wymiarów posiada taą samą długość wadrat, liczba wstawioych putów wyosi m, długość ażdego bou przestrzei jest potęgą liczby, aby podział przestrzei zawsze dawał w wyiu liczby aturale, wypełieie węzłów jest blisie masimum. Mając dae: pojemość liścia oraz liczbę wstawioych elemetów, rozpatrzoo, ja będzie się przedstawiać zależość liczby liści od i. 6 5 6 6 6 8 6 6 6 6 6 6 6 6 6 8 6 Zaprezetoway podział a przedziały moża zapisać ogólie, w zależości od parametru, będącego dowolą liczbą aturalą. Liczba liści rówież zależy od tego parametru i przedstawia się astępująco:

M. Gorawsi, M. Bugdol,, 7 Wiadomo, że będzie ależeć do doładie jedego z tych przedziałów dla doładie jedego. hcąc wyzaczyć wartość, tóra jest iezbęda do oszacowaia liczby liści, ależy przeształcić wzór 7 w astępujący sposób:,, + + Aaiczie moża przeształcić pozostałe przedziały, uzysując: 8 Poieważ, ja wspomiao powyżej, istieje doładie jedo, spełiające doładie jedą z powyższych ierówości, zatem w celu wyzaczeia wartości ależy sprawdzić, czy sufit wyrażeia miejszego lub rówego jest miejszy od wyrażeia więszego od. Jeśli ta, wówczas sufit te jest szuaym parametrem. Jeśli ie, ależy sprawdzić w te sam sposób oleją ierówość. astępie za pomocą wyzacza się liczbę liści w idesie. Pomimo że przyjęto, iż wypełieie węzłów będzie masymale, to a podstawie esperymetów oraz literatury moża stwierdzić, że w pratyce wypełieie węzłów osiąga wartość o. 7%. Wyia z tego, że przewidywaa liczba liści będzie przechowywać o. 7% wszystich wpisów. Moża zatem przyjąć, że odpowiedio więsza liczba liści przechowuje iformacje o całym zbiorze daych. Ostatecza liczba liści wyraża się wzorem:

Model osztowy x-br-drzewa w przestrzeych bazach daych _ total 9 f gdzie: _total liczba liści, f współczyi wypełieia węzłów, przewidziaa liczba liści; zgodie ze wzorem 8. a tej podstawie _total oblicza się średią długość bou liścia przy użyciu zależości 5: s _ total / d Ostateczie z rówań, 9, otrzymujemy: LA _ total q * q + f f gdzie: LA_total całowita liczba dostępów do liści, liczba liści w drzewie; zgodie ze wzorem 8, q długość bou zapytaia, f współczyi wypełieia liścia.. Esperymetala ocea estymatora osztu Przeprowadzoo dwa esperymety mające a celu sprawdzeie doładości rozwiązań przedstawioych w rozdziale.. Wyorzystao zbiory daych o liczości oraz 6 tysięcy putów. Przestrzeń robocza miała rozmiar 5 5 putów. Ustawieia x-br-drzewa to: pojemość liści i węzłów pośredich ; współczyi podziału,7 oraz,75. Puty załadowao do przestrzeej bazy daych losowo. Ich rozład w jedym przypadu był rówomiery, a w drugim ormaly Gaussa... Błąd predycji dostępów do liści W tym doświadczeiu badao średi błąd względy predycji obu przedstawioych modeli przy szacowaiu osztów dla podaych zapytań. Średi błąd względy predycji zdefiiowao jao: xi vi δ v i i gdzie: δ średi błąd względy predycji, liczba zapytań, x i przewidywaa liczba odwiedzoych liści dla i-tego zapytaia, v i rzeczywista liczba odwiedzoych liści dla i-tego zapytaia.

M. Gorawsi, M. Bugdol Dla ażdego rozmiaru zapytaia od % do 9% obszaru przestrzei roboczej, co % wygeerowao losowych zapytań. Błąd mierzoo dla ażdego zapytaia, a wyii uśredioo. Ozaczeia a wszystich wyresach są astępujące: ozacza liczość zbioru daych, rów., Gauss rozład zbioru daych rówomiery oraz ormaly, ST split treshold współczyi podziału. Przebieg ozaczoy jao prosty to wyii otrzymae z wyorzystaiem zależości 6, a przebieg to wyii uzysae a podstawie zależości. 6, rów, ST,75 prosty 7%, Gauss, ST,75 6 prosty 7% 5 5 błąd względy [%] błąd względy [%] 5 6 7 8 9 obszar zapytaia w [%] przestrzei daych 5 6 7 8 9 obszar zapytaia w [%] przestrzei daych Rys.. Błąd względy modelu osztowego w zależości od stopia porycia przez zapytaie dla zbioru Fig.. Relative error of the cost model depedig o the query size for data set 6, Gauss ST,75 6 prosty 7% 6, Gauss ST,7 7 prosty 7% 5 6 błąd względy [%] błąd względy [%] 5 5 6 7 8 9 obszar zapytaia w [%] przestrzei daych 5 6 7 8 9 obszar zapytaia w [%] przestrzei daych Rys.. Błąd względy modelu osztowego w zależości od stopia porycia przez zapytaie dla zbioru 6 Fig.. Relative error of the cost model depedig o the query size for data set 6 Model prosty jest o wiele miej dołady dla małych zapytań awet do 5%, jeda błąd te maleje wraz ze wzrostem obszaru zapytaia. Wyia to z fatu, że bazuje o a średim rozmiarze liścia, wyliczoym a podstawie liczby liści, tóra jest odczytywaa ze statysty drzewa. Im miejszy obszar zapytaia, tym bardziej fatyczy rozmiar liści odbiega od średiego. Wzrost rozmiaru zapytaia powoduje, iż przeciętych jest więcej liści o więszym rozmiarze, przez co średia rozmiarów odwiedzoych liści zbliża się do wyzaczoej aalityczie.

Model osztowy x-br-drzewa w przestrzeych bazach daych 5 Ja widać, a więszości przebiegów wyresy błędu dla obu modeli przeciają się dla zapytań o stopiu porycia -%. Moża zatem spróbować połączyć oba modele. Dla zapytań o stopiu porycia do 5% ależy orzystać z zależości, atomiast dla więszych obszarów zapytań oszacowaie będzie doładiejsze przy zastosowaiu zależości 6. W te sposób błąd modelu połączoego ie powiie przeroczyć %, co wydaje się dobrym wyiiem przy pierwszym podejściu do tego zagadieia... Estymowaa liczba liści Esperymet miał a celu porówaie liczby odwiedzoych liści podczas przetwarzaia zapytaia z wartością estymowaą. Liczba odwiedzoych liści była badaa w zależości od rozmiaru zapytaia. Rozmiar te zmieiał się w zaresie od % do 9% z roiem co %. Dla ażdej wartości obszaru wygeerowao losowych zapytań. Estymacji dooywao dla ażdego zapytaia osobo, a wyii uśredioo. Estymacja liczby odwiedzoych liści oparta była a modelu będącym połączeiem obu rozwiązań przedstawioych w rozdziale.. Zgodie z wiosami przedstawioymi w poprzedim rozdziale., dla zapytań o rozmiarze poiżej 5% wyorzystao rówaie 5, atomiast dla zapytań o więszym obszarze orzystao z rówaia. Ozaczeia a wszystich wyresach są astępujące: ozacza liczość zbioru daych, rów., Gauss rozład zbioru daych rówomiery oraz ormaly, ST split treshold współczyi podziału. Przebiegi ozaczoe jao rzecz. prezetują rzeczywistą liczbę dostępów do liści, atomiast przebiegi ozaczoe jao estym. przedstawiają wartość estymowaą. odwiedzoe liście, rów, ST,75 6 8 6 rzecz. estym., Gauss, ST,7 8 5 6 7 8 9 obszar zapytaia w [%] przestrzei daych odwiedzoe liście 6 8 6 rzecz. estym. 5 6 7 8 9 obszar zapytaia w [%] przestrzei daych Rys. 5. Rzeczywista i estymowaa liczba odwiedzoych liści w zależości od stopia porycia przez zapytaie dla zbioru Fig. 5. Actual ad estimated umber of leaves accesses depedig o the query size for data set Opierając się a wyiach powyższego doświadczeia, moża zauważyć, że wartość estymowaa liczby dostępów do liści przy przetwarzaiu zapytań przestrzeych ie odbiega

6 M. Gorawsi, M. Bugdol zacząco od wartości rzeczywistej. Dla zbioru o liczości tysięcy putów rys. widać miejsce, w tórym astępuje przecięcie przebiegów wartości rzeczywistej i estymowaej. 6, rów, ST,7 5 rzecz. estym. 6, Gauss, ST,7 rzecz. estym. 5 odwiedzoe liście 5 5 odwiedzoe liście 5 5 5 6 7 8 9 obszar zapytaia w [%] przestrzei daych 5 6 7 8 9 obszar zapytaia w [%] przestrzei daych Rys. 6. Rzeczywista i estymowaa liczba odwiedzoych liści w zależości od stopia porycia przez zapytaie dla zbioru 6 Fig. 6. Actual ad estimated umber of leaves accesses depedig o the query size for data set 6 Porywa się oo z rozmiarem zapytaia, będącym wartością graiczą dla zależości 6 i. W przypadu zbioru o liczości 6 tysięcy putów rys. 5 przebiegi ie przeciają się, a różica wartości estymowaej i rzeczywistej jest stała. Przełada się to a zmiejszaie się średiego błędu względego wraz ze wzrostem rozmiaru zapytaia.. Podsumowaie Zapropoowao model osztowy dla zapytań przestrzeej selecji z użyciem idesu x-br-drzewa. Opracowao dwa rozwiązaia, tóre opierają się w dużej części a probabilistyce i estymacji. Wyii badań wyazały, że ażde z tych rozwiązań ma pewie zares obszaru zapytaia, w tórym daje doładiejsze wyii. o więcej, zaresy te są róże dla obu rozwiązań. Połączeie obu modeli sutuje doładiejszą estymacją w całym zaresie obszaru zapytaia. Taie rozwiązaie jest obarczoe pewym błędem, jeda tylo w ieliczych przypadach przeracza o %. Trudości związae z uzysaiem doładych oszacowań wyiają z właściwości x-br-drzewa i jego algorytmu podziału. Dalsze prace powiy supić się a rozwiięciu przedstawioego modelu, aby uwzględiał rówież oszt dostępu do wyższych poziomów strutury idesującej. LITERATURA. Gorawsi M., Malczo R.: O Efficiet Storig ad Processig of Log Aggregate Lists. Proceedigs of the 7th Iteratioal oferece Data Warehousig ad Kowledge Discovery DaWa5, LS 589, opehage, Demar 5.

Model osztowy x-br-drzewa w przestrzeych bazach daych 7. Vassilaopoulos M., Maolopoulos Y.: Exteral Balaced Regular x-br Trees: ew Structure for Very Large Spatial Databases. Techical Report TR99-.. Faloutsos., Kamel I.:Beyod Uiformity ad Idepedece: Aalysis of R-trees Usig the ocept of Fractal Dimesio, I Proceedigs of the th AM Symposium o Priciples of Database Systems PODS, 99.. Theodoridis Y., Sellis T.: A model for the Predictio of R-tree Performace. Proc. Symp. Priciples of Database Systems, 996. 5. Yu S., Atluri V.,. Adam. R.: Selective View Materializatio i a Spatial Data Warehouse. DaWaK 5: s. 57 67. 6. Dellis E., Seeger B., Vlachou A.: earest eighbor Search o Vertically Partitioed High- Dimesioal Data. DaWaK 5: s. 5. Recezet: Dr hab. iż. Maciej Zarzewicz Wpłyęło do Redacji paździeria 7 r. Abstract The paper proposes the cost model for spatial databases based o x-br-tree idex. For this solutio mathematical formulas were created, that express the cost of selectio queries usig x-br-tree. The model evaluates the cost for spatial queries i database, meat as a umber of ode accesses or disc reads. I additio, experimetal results are preseted, which shows the accuracy of aalytical estimatio compared with actual results. Adresy Marci GORAWSKI: Politechia Śląsa, Istytut Iformatyi, ul. Aademica 6, - Gliwice, Polsa, M.Gorawsi@polsl.pl. Marci Bugdol: Politechia Śląsa, Istytut Iformatyi, ul. Aademica 6, - Gliwice, Polsa, M.Bugdol@polsl.pl.