STUDIA INFORMATICA 213 Volume 34 Number 2A (111) Dariusz R. AUGUSTYN Poliechnika Śląska, Insyu Informayki ZASTOSOWANIE PREDYKCJI ROZKŁADU WARTOŚCI ATRYBUTU W CELU POPRAWY DOKŁADNOŚCI ESTYMACJI SELEKTYWNOŚCI ZAPYTAŃ Sreszczenie. Paramer selekywności es wykorzysywany w procesie opymalizaci zapyań. Uzyskanie selekywności wymaga nieparamerycznego esymaora rozkładu warości arybuu,. hisogramu. Hisogramy są worzone w ramach procesu akualizaci saysyk. Dla dużych baz danych akualizaca saysyk es wykonywana racze rzadko, np. ylko w momenach małego obciążenia sysemu. To powodue, że hisogramy nie opisuą akualnego rozkładu danych. Aby uzyskać bardzie akualne hisogramy, powinno się zasosować mechanizm predykci rozkładu. Pozwoli o na bardzie dokładną esymacę selekywności. W ninieszym arykule zaproponowano meodę eksrapolaci rozkładu warości arybuów. Meoda a dokonue predykci momenów szukanego, eksrapolowanego rozkładu. W celu ego wyznaczenia opisywana meoda wykorzysue zasadę maksimum enropii z uwzględnieniem warości momenów znalezionych w ramach procedury predykci. Słowa kluczowe: esymaca selekywności zapyań, hisogram, zasada maksimum enropii rozkładu, ewoluca funkci gęsości prawdopodobieńswa, predykca szeregów czasowych APPLYING PREDICTION OF ATTRIBUTE VALUE DISTRIBUTION FOR IMPROVEMENT OF QUERY SELECTIVITY ESTIMATION ACCURACY Summary. A seleciviy parameer is needed in query opimizaion process. Obaining he query seleciviy requires a non-parameric esimaor of aribue value disribuion, i.e. a hisogram. Hisograms are produced during updae saisics process. For large daabases he updae saisics process is performed raher seldom, e.g. only during ime of low workload of a sysem. This resuls ha hisograms do no describe acual daa disribuion. To obain a more accurae hisogram, a predicion mechanism should be inroduced. This resuls obaining a more accurae esimaion of seleciviy.
24 D. R. Augusyn The mehod of exrapolaion of aribue value disribuion is proposed in his paper. This mehod predics momens of he exrapolaed disribuion. I uses he maximum enropy principle for obaining he exrapolaed disribuion subec o he prediced values of he disribuion momens. Keywords: query seleciviy esimaion, hisogram, maximum enropy principle, evoluion of probabiliy densiy funcion, ime series predicion 1. Wprowadzanie Wykonanie zapyania przez Sysem Zarządzania Bazą Danych (SZBD) es poprzedzone ego analizą, kórą przeprowadza zw. opymalizaor zapyań. W e fazie przewarzania, zwane fazą przygoowania (ang. prepare phase), nasępue wypracowanie sposobu realizaci zapyania (ang. execuion plan). Spośród wielu poencalnych meod realizaci wybierana es meoda opymalna pod względem szacowanego koszu realizaci. Kosz en es głównie mierzony liczbą pobrań danych z pamięci masowe, gdzie zdeponowane są dane (liczba pobrań z dysku ednosek alokaci pamięci). Oszacowanie koszu es poprzedzone przybliżonym określeniem ilości danych, kóre spełniaą kryeria zapyania (zn. spełniaą warunek selekci zapyania). Służy emu paramer zwany selekywnością (ang. query seleciviy). Selekywność dla zapyań ednoablicowych o sosunek liczby wierszy spełniaących kryeria zapyania do całkowie liczby wierszy. Selekywność można również określić ako prawdopodobieńswo wylosowania wiersza spełniaącego kryerium zapyania w losowaniu bez zwracania wierszy z ablicy. Dla zapyań zakresowych Q (ang. range query), w kórych warunek selekci a X b es określony na arybucie X z ciągłą dziedziną warości, selekywność wyraża się wzorem: b sel ( Q( a X b)) f ( x) dx, (1) a gdzie f(x) o funkca gęsości prawdopodobieńswa rozkładu warości X. Z powyższego wynika, że na porzeby oszacowania selekywności wymagane es użycie nieparamerycznego esymaora funkci gęsości, opisuącego rozkład warości arybuu. Naczęście w akie roli w SZBD sosowane są hisogramy, przykładowo hisogram equi-widh o sałe szerokości podprzedziałów. Hisogramy są worzone/akualizowane w ramach procesu zw. akualizaci saysyk. Dla dużych baz danych es o proces czasochłonny i oczywiście nie es wykonywany na bieżąco (zn. z każdą zmianą danych). Saysyki są akualizowane na ogół w momenach zmnieszone akywności eksploaowanego sysemu informaycznego, zn. w chwilach mnieszego
Zasosowanie predykci rozkładu warości arybuu w celu poprawy dokładności 25 operacynego obciążenia SZBD. Częsokroć są o chwile, kórych wysąpienia charakeryzuą się regularnością (np. weekendy, pory nocne). Opymalizaor w procesie analizy zapyania korzysa ze saysyk (w ym hisogramów) uworzonych osanio. Oczywiście zmiana danych na ogół pociąga za sobą zmianę rozkładu warości, sąd hisogramy powoli z upływem czasu racą swoa akualność (w sosunku do danych źródłowych, kóre opisuą), a selekywność wyznaczona z ich użyciem sae się coraz bardzie niedokładna. Można więc zadać pyanie: czy byłaby możliwa eksrapolaca posaci hisogramu (esymaca posaci funkci gęsości rozkładu w niedalekie przyszłości), gdyby koszy obsługi akiego programowego mechanizmu eksrapolaci były mniesze niż realizaca ponowne akualizaci saysyki? Isonym składnikiem koszu są rozmiary meadanych porzebnych do realizaci mechanizmu predykci. Powinny być o oczywiście rozmiary niewielkie. Aby mechanizm sanowił alernaywę w sosunku do klasyczne akualizaci saysyki na podsawie bazy danych, procedura predykci powinna racze wykorzysywać poencalnie wolne moce obliczeniowe, a nie opierać się na przewarzaniu danych z bazy danych. Reasumuąc, klasyczna akualizaca saysyk o głównie uylizaca pamięci masowe (dyski), a predykca posaci rozkładu o głównie uylizaca CPU. W ninieszym arykule zaproponowano meodę predykci posaci rozkładu. Meoda zakłada nasępuące wsępne eapy służące do sroenia paramerów meody: eap określenia minimalnego, wysarczaąco dokładnego opisu rozkładu za pomocą momenów rozkładu rzędu 1 K (rozdziały 2, 3), eap określenia modelu predykci warości momenu r-ego rzędu (dla r = 1 K) w przyszłości,. dla chwili o indeksie + 1, przy znaomości warości momenów w chwilach poprzednich:, 1, (rozdział 4). Chwile o indeksach, 1, oznaczaą równoodległe momeny czasowe, w kórych nasąpiły kolene akualizace saysyk. Chwila o indeksie + 1 określa momen w czasie nabliższe planowane akualizaci saysyk w przyszłości. Sama meoda esymaci posaci rozkładu w przyszłości na dowolną chwilę τ ( τ, τ +1 ) polega na realizaci nasępuących eapów: użycie uzyskanych poprzednio modeli predykci do znalezienia nowych warości momenów rozkładu na chwilę o indeksie + 1 (rozdział 4), inerpolaca warości momenów rozkładu w chwili τ (rozdział 5), wykorzysanie warości momenów w chwili τ do orzymania esymaora rozkładu w chwili τ, czyli uzyskanie szukanego hisogramu na chwilę τ w przyszłości (rozdział 2).
26 D. R. Augusyn Osani z wymienionych eapów wykorzysue zasadę maksimum enropii informacyne,. zakłada wyznaczenie posaci rozkładu o nawiększe enropii przy ograniczeniach nałożonych na warości momenów szukanego rozkładu. W rozparywane meodzie rozparue się akie rozkłady, dla kórych isnieą momeny rozkładu rzędu 1 K. 2. Esymaca funkci rozkładu prawdopodobieńswa z wykorzysaniem znanych warości momenów rozkładu oraz zasady maksimum enropii W ramach ninieszego rozdziału zosanie przedsawiona meoda określaąca sposób odworzenia funkci gęsości rozkładu (a dokładnie wybranego nieparamerycznego esymaora funkci gęsości prawdopodobieńswa hisogramu equi-widh) na podsawie znaomości warości momenów (kilku począkowych rzędów) oraz zasosowania zasady maksimum enropii. Problem można sformułować ako znalezienie warości ciągu (p i ), odpowiadaących częsości wysąpień zmienne X w podprzedziałach (o sałe szerokości w), kórych środki określone są przez zadane warości rosnącego ciągu (x i ), gdzie i = 1 N, a N oznacza liczbę podprzedziałów hisogramu. Zakładaąc, że rozłączne podprzedziały hisogramu pokrywaą całą dziedzinę warości X, można sformułować nasępuącą równość: N p i i1 1. (2) Załóżmy, że znane są momeny rozkładu m (r) rzędu r, gdzie r = 1 K. Pozwala o na sformułowanie nasępuącego układu K równań liniowych: N i1 N i1 K i1 x p m x i r i K i i... x p m i... i (1) ( r) p m ( K ). Warunki (2) i (3) można syneycznie sformułować nasępuąco: (3) T AP M, (4)
Zasosowanie predykci rozkładu warości arybuu w celu poprawy dokładności 27 gdzie: 1 1... 1 x 1 x2... xn A, P [ p............ 1 p N ], K K K x1 x2... xn 1 (1) m M. (5)... ( K ) m Dodakowo ako obowiązuące można przyąć nasępuące nierówności, wynikaące z ogólnych własności prawdopodobieńswa: i1... N p 1. (6) i Enropia S rozkładu dyskrenego {(x i, p i )} es określona nasępuąco: N S( p1,..., pn ) pi ln( pi ). (7) i1 Zasada maksimum enropii rozkładu [1, 2, 3] orzeka, że przy przyęych ograniczeniach, np. wynikaących z określonych warości momenów rozkładu, nabardzie prawdopodobny es aki rozkład pˆ,..., pˆ pˆ i, dla kórego warość enropii es nawiększa,.: ) arg sup ( S( p,..., pn )). (8) p1,.., pn ( 1 N 1 Uwzględniaąc powyższe informace, zadanie odworzenia rozkładu można sprowadzić do zadania opymalizaci,. znalezienia minimum N-argumenowe funkci F (minus enropii) z ograniczeniami wyrażonymi formułami (4) i (6). Argumenami funkci F = S są p i dla i = 1... N. 3. Przykłady esymaci funkci rozkładu prawdopodobieńswa z wykorzysaniem zasady maksimum enropii Celem eksperymenów omówionych poniże będzie oszacowanie warości maksymalnego rzędu momenów (warość K we wzorach (3) i (5)) niezbędnych do wysarczaące dokładności esymaci danego rozkładu. W ramach oceny dokładności esymaci funkci rozkładu wg omówione powyże meody zosaną przedsawione dwa przykłady esymaci funkci gęsości. 3.1. Przykład 1 rozkład ednomodalny Przykład 1 pokazue esymacę empirycznego rozkładu zmienne, kóre warości zosały uzyskane z generaora liczb pseudolosowych o rozkładzie Gaussa N(2,,75).
28 D. R. Augusyn Rysunek 1 przedsawia hisogram źródłowy sporządzony na podsawie 1 - elemenowe próby losowe. Jes o hisogram o sałe szerokości podprzedziałów w =,15, z liczbą N = 5 podprzedziałów, obemuący dziedzinę warości X z przedziału [-2, 5,5]..9.7.5.3.1-3 -2-1 1 2 3 4 5 6 Rys. 1. Źródłowy hisogram opisuący rozkład oryginalny Fig. 1. Source hisogram he original disribuion Dla oceny dokładności esymaci zaproponowano prosą merykę błędu wskaźnik nazywany dale ErrChi2based zn. średni kwadra względnego odchylenia prawdopodobieńsw rozkładu wynikowego pˆ i i rozkładu źródłowego p i (nazwany błędem rekonsrukci rozkładu),.: N e N 1 1 ErrChi2bas ed, (9) gdzie składnik e es określony nasępuąco: 2 ( pˆ p ) dla p p 2 e ( pˆ p ) (1) dla p ˆ p pˆ dla p pˆ. Przymimy nasępuące kryerium akcepacyne esymaci: ErrChi2bas ed,1. (11) Wyniki eksperymenów zrealizowanych z użyciem programu Malab dla przykładu 1 pokazuą, że nawe dla bardzo małych warości K esymaca spełnia założone kryerium dokładności, określone formułą (11). Dla K = 2 (m (1) = 1,996915 i m (2) = 4,55533) warość Err- Chi2based wyniosła zaledwie 8,27 1-5. Rysunek 2 pokazue hisogram wynikowy (kolor niebieski) uzyskany przez minimalizacę funkci F (maksymalizacę enropii), przy zadanych
Zasosowanie predykci rozkładu warości arybuu w celu poprawy dokładności 29 warościach momenów rzędu 1. i 2. Fragmeny hisogramu źródłowego (kolor czerwony) również zosały przedsawione..9.7.5.3.1-3 -2-1 1 2 3 4 5 6 Rys. 2. Hisogram wynikowy (kolor niebieski) rozkład odworzony na podsawie znaomości momenów rozkładu rzędu 1. i 2. Fig. 2. Resuling hisogram (blue color) he disribuion reconsruced on he basis of he 1 s disribuion momen and he 2 nd one. 3.2. Przykład 2 rozkład dwumodalny Przykład 2 pokazue esymacę rozkładu empirycznego zmienne, kóre warości zosały uzyskane z generaora liczb pseudolosowych określonego nasępuącą funkcą gęsości prawdopodobieńswa (superpozyca dwóch rozkładów Gaussa): f(x) = 4/1 PDF(N(,,6)) + 6/1 (PDF(N(1,6,,3)), (12) gdzie PDF(N(m, σ)) oznacza funkcę gęsości prawdopodobieńswa rozkładu normalnego..12.1-2 -1 1 2 3 Rys. 3. Źródłowy hisogram opisuący rozkład oryginalny będący superpozycą 2 klasrów Gaussa wzór 12 Fig. 3. Source hisogram he original disribuion based on 2 Gaussian clusers given by formula 12 Rysunek 3 przedsawia hisogram sporządzony na podsawie 1 -elemenowe próby losowe. Jes o hisogram o sałe szerokości podprzedziałów równe w =,15, z liczbą N =
3 D. R. Augusyn 5 podprzedziałów, obemuący dziedzinę warości X z przedziału [-2, 5,5]. Na rys. 3-7 dziedzina X zosała zawężona dla zwiększenia przerzysości rysunków, ponieważ warości hisogramu są poza nią równe zeru..12.12.1.1-3 -2-1 1 2 3 4 5-3 -2-1 1 2 3 4 5 a) b) Rys. 4. Wynikowy hisogram (kolor niebieski) przybliżenie sporządzone na podsawie: a) momenów rozkładu rzędu 1. i 2. (K = 2; ErrChi2based =,22167), b) momenów rozkładu rzędów od 1. do 3. (K = 3; ErrChi2based =,16472) Fig. 4. Resuling hisogram (blue color) he esimaion based on: a) he 1 s and 2 nd momens of disribuion (K = 2; ErrChi2based = 2167), b) he 1 s 3 rd momens of disribuion (K = 3; ErrChi2based =.16472).12.12.1.1-3 -2-1 1 2 3 4-3 -2-1 1 2 3 4 a) b) Rys. 5. Wynikowy hisogram (kolor niebieski) przybliżenie sporządzone na podsawie: a) momenów rozkładu rzędów od 1. do 4. (K = 4; ErrChi2based =,172), b) momenów rozkładu rzędów od 1. do 5. (K = 5; ErrChi2based = 8,892e-4) Fig. 5. Resuling hisogram (blue color) he esimaion based on: a) he 1 s 4 h momens of disribuion (K = 4; ErrChi2based =.172), b) he 1 s 5 h momens of disribuion (K = 5; ErrChi2based = 8.892e-4) Rysunki 4-7 prezenuą wynikowy hisogram (kolor niebieski) na le hisogramu źródłowego (kolor czerwony) dla różnych warości K = 2, 3, 4, 5, 6, 7, 8, 12, czyli dla różne uwzględnione liczby momenów rozkładu źródłowego. Oczywiście wśród wymienionych nagorsze przybliżenie wysąpi dla K = 2 (rys. 4a), a nalepsze dla K = 12 (rys. 7b). Uzyskane
Zasosowanie predykci rozkładu warości arybuu w celu poprawy dokładności 31 warości błędów rekonsrukci ErrChi2based rozkładu w zależności od K przedsawiono na rys. 8..12.12.1.1-3 -2-1 1 2 3 4-3 -2-1 1 2 3 4 a) b) Rys. 6. Wynikowy hisogram (kolor niebieski) przybliżenie sporządzone na podsawie: a) momenów rozkładu rzędów od 1. do 6. (K = 6; ErrChi2based = 8,1289e-4), b) momenów rozkładu rzędów od 1. do 7. (K = 7; ErrChi2based = 7,25156e-4) Fig. 6. Resuling hisogram (blue color) he esimaion based on: a) he 1 s 6 h momens of disribuion (K = 6; ErrChi2based = 8.1289e-4), b) he 1 s 7 h momens of disribuion (K = 7; ErrChi2based = 7.25156e-4).12.14.1.12.1-3 -2-1 1 2 3 4-3 -2-1 1 2 3 4 a) b) Rys. 7. Wynikowy hisogram (kolor niebieski) przybliżenie sporządzone na podsawie: a) momenów rozkładu rzędów 1. do 8. (K = 8; ErrChi2based = 5,224e-4), b) momenów rozkładu rzędów od 1. do 12. (K = 12; ErrChi2based = 1,119e-4) Fig. 7. Resuling hisogram (blue color) he esimaion based on: a) he 1 s 8 h momens of disribuion (K = 8; ErrChi2based = 5.224e-4), b) he 1 s 12 h momens of disribuion (K = 12; ErrChi2based = 1.119e-4)
32 D. R. Augusyn Rys. 8. ErrChi2based (K) zależność pomiędzy błędem rekonsrukci rozkładu a maksymalnym rzędem momenów rozkładu Fig. 8. ErrChi2based (K) dependency beween he error of reconsrucion he disribuion and he maximum of order of he momens 3.3. Wyniki realizaci eksperymenów dla dodakowych przykładów Realizaca eksperymenów opisanych powyże oraz innych, dodakowych superpozyca kilku rozkładów Gaussa,. od 3 do 5 klasrów gaussowskich prowadzi do wniosku, że zadowalaące wyniki esymaci rozkładu (spełnienie założonego warunku: ErrChi2bas ed,1) można uzyskać, opieraąc się na znaomości momenów rozkładu rzędu od 1. do ok. 1. (K 1). Eksperymeny zosały wykonane z użyciem programu Malab; minimum funkci F zosało wyznaczone za pomocą fmincon [4]. Odpowiednie wywołanie es nasępuące: % opce dla fmincon - procedury szukania minimum op = opimse ('MaxFunEvals', 1, 'TolFun', 1e-6, 'TolX', 1e-6, 'MaxIer',1, 'Algorihm', 'inerior-poin'); % minus_enro minimalizowana funkca F (minus enropia rozkładu) % A, M, lb, ub określenie paramerów ograniczeń % A, M - macierz i wekor określone wzorem 5 % lb, ub wekory zer i edynek ograniczaące dziedzinę pi wzór 6 % p inicalna warość wekora prawdopodobieńsw, punk saru fminunc % p_ou szukany wekor prawdopodobieńsw dla hisogramu wynikowego [p_ou,fval, exiflag, oupu] = fmincon(@minus_enro, p,[],[], A, M, lb, ub,[], op); oupu.message Realizaca skrypu Malaba (zawieraącego m.in. ww. fragmen kodu wywołania fmincon oraz wyznaczaącego macierz A) worzącego warości hisogramu wynikowego (o rozdzielczości N = 5), czyli obliczaąca wekor p_ou dla K = 1 na kompuerze z procesorem Inel Core Duo T96 @ 2.8 GHz, zaęła zaledwie średnio ok.,51 s. W ramach realizaci fmincon wykonano 65 ieraci algorymu wyszukiwania minimum (algorym ine-
Zasosowanie predykci rozkładu warości arybuu w celu poprawy dokładności 33 rior-poin ) i 3444 wywołania funkci minus_eno. Krókie czasy realizaci ww. programu pozwalaą pozyywnie myśleć o prakycznym zasosowaniu omawiane meody. 4. Zaproponowane przykłady meod predykci warości momenu rozkładu w chwili o indeksie + 1 Śledzenie zmian rozkładu prawdopodobieńswa w czasie można zrealizować przez śledzenie ewoluci warości wybranych paramerycznych esymaorów rozkładu. Przykładowo, dysponuąc warościami momenów rozkładu w chwilach poprzednich, możemy przewidzieć warości ych momenów w kolene chwili, w przyszłości. Zagadnienie przewidywania przyszłe, nieznane warości momenu można sprowadzić do problemu predykci ciągów czasowych (inacze predykci szeregów czasowych). Problemayka predykci es szeroko omawiana i związana es m.in. z zagadnieniem idenyfikaci modelu układów (saycznych/dynamicznych, liniowych/nieliniowych) [1, 11]. W ramach ninieszego arykułu przedsawiono przykładowe dwa wybrane podeścia do zagadnienia predykci: edno, wykorzysuące model auonomicznego liniowego dyskrenego układu dynamicznego (układ z dyskrenym czasem) z zakłóceniami, opisanego przez liniowe równanie różnicowe, drugie, opare na nieliniowym równaniu różnicowym, wykorzysuącym sieć neuronową ypu RBF (ang. Radial Basis Funcion Nework). Oczywiście oba prezenowane podeścia o zaledwie przykłady rozwiązania problemu z szerokie klasy meod możliwych do zasosowania. Załóżmy, że celem predykci es eden z wybranych momenów (np. momen rzędu pierwszego warość średnia), oznaczony przez m, kórego 5 znanych warości w poprzednich chwilach o indeksach 4, 3,, wynosi odpowiednio: m [ 1 1,3 1,5 1,6 1,65]. (13) Celem meod zaprezenowanych w poniższych podrozdziałach es esymaca warości m +1 w chwili +1. Wybór podeścia (np. ednego z poniższych) zależy od uzyskane eksperymenalnie szacowane warości błędu predykci i będzie zapewne uzależniony od specyfiki zmian warości składowych wekora momenów w ramach konkrenego zasosowania. 4.1. Predykca z wykorzysaniem modelu dyskrenego liniowego układu dynamicznego Model pozwalaący na przewidywanie warości m w chwili o indeksie + 1 można zbudować w ramach zadania idenyfikaci liniowego modelu dynamicznego ypu AR (ang. auoregressive model), czyli modelu auoregresynego L-ego rzędu [8]:
34 D. R. Augusyn m a m 1 1.. alm L e, (14) gdzie: e warość sygnału zakłócenia w chwili, impuls zw. szumu białego, a 1,..., a L = cons o szukane sałe. Zależność 14 można również zapisać w posaci: 1 A( q) m e, A 1 aq.. a q gdzie q -1 es operaorem przesunięcia. L L, (15) Dla 5-elemenowego ciągu warości m, danego wzorem (13), za pomocą programu Malab zrealizowano zadanie idenyfikaci linowego modelu układu dynamicznego [7], określonego równaniem różnicowym sopnia 1. lub 2. (dopuszczalny maksymalny sopień równy dwa wynika z ograniczenia rozmiaru danych; ua 5 rozmiar wekora m): m = [ 1 1.3 1.5 1.6 1.65]; model1 = arx (m, 1) model1 = arx (m, 2) W rezulacie orzymano nasępuące dwa zesawy danych wynikowych, określaących model i warość końcową błędu predykci (ang. Final Predicion Error FPE) [5] odpowiednio dla modelu 1 i modelu 2: Discree-ime IDPOLY model: A(q)y() = e() A(q) = 1-1.15 q^-1 Esimaed using ARX from daa se m Loss funcion.118573 and FPE.1663 Discree-ime IDPOLY model: A(q)y() = e() A(q) = 1-1.76 q^-1 +.7253 q^-2 Esimaed using ARX from daa se m Loss funcion 7.7667e-5 and FPE.13872 Z powodu mniesze warości FPE wybrany zosae model 1, kóremu odpowiada równanie różnicowe: m 1,76 m 1,7253 m2, (16) przy założeniu braku zakłócenia e. Na podsawie równania (16) można znaleźć eksrapolowaną warość m +1 nasępuąco: m 1 1,76 m,7253m 1 1,76 1,5,7253 1,65 1,72695. (17) 4.2. Predykca w wykorzysaniem modelu nieliniowego, oparego na sieci neuronowe ypu RBF Sieci neuronowe ypu RBF są częso wykorzysywane w aproksymaci funkci. W sieciach RBF w roli funkci akywaci neuronów warsw ukryych sosue się zw. funkcę radialną, kóre warości zależą wyłącznie od odległości od ednego wybranego punku zwanego cenrum. Na rys. 9 przedsawiono przykład sieci RBF z 2 neuronami w warswie weściowe, 3 neuronami w pierwsze warswie ukrye (z radialnymi funkcami akywaci neuro-
Zasosowanie predykci rozkładu warości arybuu w celu poprawy dokładności 35 nów), 1 neuronem w drugie warswie ukrye (z liniową funkcą akywaci neuronu) i 1 neuronem wyściowym. Predykca warości m +1 zosanie zrealizowana z wykorzysaniem wyrażenia rekurencynego: Rys. 9. Przykładowa srukura prose sieci neuronowe ypu RBF Fig. 9. Sample srucure of neural radial basis funcion neural nework m 1 ( m, m 1,..., ml ) (18) dla L =, 1,, gdzie φ es (L + 1)-argumenową funkcą, kóre warość es określana przez warość wyścia (L + 1)-weściowe sieci neuronowe. Rząd nieliniowego równania różnicowego (określonego formułą (18)), czyli srukura sieci (w ym liczba weść), będzie określona na drodze minimalizaci uśrednionego błędu sandardowego MERR w ramach procedury weryfikaci modelu za pomocą ednoelemenowego zbioru esowego (ang. Leave-one-ou). Wyniki e weryfikaci zosały przedsawione poniże. Dla L = równanie (18) ma posać m +1 = φ(m ), a 4-elemenowy wekor weściowy P i 4-elemenowy wekor wyściowy T wynoszą odpowiednio: P [1 1,3 1,5 1,6], T [1,3 1,5 1,6 1,65]. (19) Zasosowanie meody Leave-one-ou (4 ierace wyboru elemenu esuącego) pozwala na wyznaczenie uśrednionego błędu sandardowego MERR,4151. Dla L = 1 równanie (18) ma posać m +1 = φ(m, m -1 ), a 3-kolumnowa macierz weściowa P i 3-elemenowy wekor wyściowy T wynoszą odpowiednio: 1 1,3 1,5 P, [1,5 1,6 1,65]. 1,3 1,5 1,6 T (2) Zasosowanie meody Leave-one-ou (3 ierace wyboru elemenu esuącego) pozwala na wyznaczenie uśrednionego błędu sandardowego MERR,1726. Dla L = 2 równanie (18) ma posać m +1 = φ(m, m -1, m -2 ), a 2-kolumnowa macierz weściowa P i 2-elemenowy wekor wyściowy T wynoszą odpowiednio:
36 D. R. Augusyn 1 1,3 P 1,3 1,5, T [1,6 1,65]. (21) 1,5 1,61 Zasosowanie meody Leave-one-ou (2 ierace wyboru elemenu esuącego) pozwala na wyznaczenie uśrednionego błędu sandardowego MERR,15767. Biorąc pod uwagę namnieszą warość MERR, wybrano model rzędu pierwszego (L + 1 = 1),. m +1 = φ(m ). Odpowiednią sieć neuronową, uzyskaną przez wykonanie poleceń Malaba [6]: P = [1 1.3 1.5 1.6] T = [1.3 1.5 1.6 1.65] ne = newrbe (P, T) przedsawiono na rys. 1.,83255 1,83255-89,392 21,2426 1,3 146,7366 1,5,83255,1 1,6,83255-87,853 Rys. 1. Wynikowa sieć neuronowa przeznaczona do predykci warości momenu rozkładu w chwili + 1 Fig. 1. Resuling neural nework for predicing he momen of disribuion in he ( +1)-h momen of ime Uzyskaną nieliniową funkcę prześcia φ dla m [,75, 1,75] pokazue rys. 11 (dodakowo czerwonymi kółkami zaznaczono warości elemenów wekora uczącego). Osaecznie szukaną warość: m 1 1,684 (22) uzyskano z użyciem zbudowane sieci neuronowe w nasępuący sposób: m_e_plus_1 = sim(ne, 1.65).
Zasosowanie predykci rozkładu warości arybuu w celu poprawy dokładności 37 1.8 1.7 1.6 1.5 1.4 1.3 m +1 φ m.8 1 1.2 1.4 1.6 Rys. 11. Uzyskana nieliniowa funkca prześcia, pozwalaąca na predykcę warości momenu rozkładu w chwili +1 na podsawie znane warości momenu rozkładu w chwili Fig. 11. Resuling non-linear ransfer funcion for predicion of value of disribuion momen in he ( + 1)-h momen of ime basing on he known value of disribuion momen in he -h momen of ime 5. Eksrapolaca warości momenu rozkładu po chwili τ inerpolaca w dowolnym momencie czasu τ (τ, τ +1 ) Przy założeniu, że znana es warość pewnego momenu rozkładu w chwilach τ, τ -1, τ -2, (czasy osanich akualizaci saysyki) oraz znana es oszacowana warość ego momenu w chwili τ +1 (uzyskana w ramach procedury predykci opisane w rozdziale 4), sosuąc inerpolacę, można oszacować warość momenu w dowolne chwili czasu τ (τ, τ +1 ). Przykładowo załóżmy, że znany es wekor M warości pewnego momenu rozkładu w pewnych chwilach czasowych, zn.: warość dokładna w eraźnieszości (indeks ), warości dokładne w przeszłości (indeksy: 1, 2, ), warość esymowana w przyszłości (indeks + 1), M 4,..., m, mˆ 1] [ m( 4),..., m( ), m( )] [ m 1 [1 1,3 1,5 1,6 1,65 1,684]. (23) We wzorze (23) symbol m(τ) oznacza nieznaną funkcę z ciągłą dziedziną argumenów τ o znanych warościach m(τ ) = m dla = 4,,, + 1. Jeżeli = 8 i τ = τ 8 = 2 oraz 1 2, (24) wówczas wekor momenów czasowych będzie wynosić: Τ τ,..., τ, τ ] [12,...,18, 2, 22]. (25) [ 4 1
38 D. R. Augusyn Sosuąc inerpolacę, na podsawie wekorów T i M można skonsruować funkcę m(τ), kóre przebieg dla τ [12, 22] pokazano na rys. 12. W omawianym przykładzie zasosowano inerpolacę meodą funkci skleanych sopnia 3. (ang. cubic spline inerpolaion) [9] (dodakowo czerwonymi kółkami zaznaczono węzły inerpolaci). 1.8 m(τ) 1.6 1.4 Rys. 12. Wynik inerpolaci funkca m(τ) skonsruowana na podsawie wekorów T = [12, 14,..., 22] i M = [1 1,3 1,5 1,6 1,65 1,684] Fig. 12. Resul of inerpolaion funcion m(τ) based on T = [12, 14,.., 22] and M = [1 1.3 1.5 1.6 1.65 1.684] Oczywiście celem przedsawionych działań es inerpolaca warości m w dowolnie wybrane chwili τ (τ, τ +1 ) = (2, 22). Przykładowo dla τ = 21 w wyniku realizaci programu: T = 12:2:22; MT = [1 1.3 1.5 1.6 1.65 1.684]; au = 21 ; m_au = inerp1(t, MT, au,'spline') uzyskano warość: 1.2 1 12 14 16 18 2 22 τ τ +1 m(τ) = m(21) 1,667. (26) τ 6. Opis meody Rozdział szczegółowo opisue eapy realizaci meody eksrapolaci rozkładu warości arybuu. W podrozdziale 6.1 opisano czynności przygoowawcze związane ze sroeniem paramerów meody,. m.in. wyznaczenie maksymalnego rzędu uwzględnianych momenów rozkładu oraz wyznaczenie modeli predykci dla każdego z momenów. 6.1. Czynności dodakowe Przy każdorazowe akualizaci saysyki (w chwili o indeksie, czyli w momencie czasowym τ ) nasępue:
Zasosowanie predykci rozkładu warości arybuu w celu poprawy dokładności 39 usunięcie (eśli isniee) poprzedniego hisogramu equi-widh {(x i, p i (τ -1 )} (uworzonego w chwili o indeksie 1), zbudowanie nowego hisogramu equi-widh {(x i, p i (τ )} (uworzonego w chwili o indeksie ) na podsawie akualne zawarości arybuu X w bazie danych w momencie czasowym τ, uworzenie kolenego wekora warości momenów rozkładu,.: N (1) m ( ) xi pi ( ) i1 m ( )....... (27) N ( K ) K m ( ) xi pi ( ) i1 Przy pierwszym worzeniu saysyki (momen czasowy τ = ), po zbudowaniu hisogramu, nasępue oszacowanie parameru K (maksymalny uwzględniany rząd momenów rozkładu) z wykorzysaniem kryerium ErrChi2bas ed, gdzie ε o zakładany maksymalny próg błędu esymaci hisogramu docelowego (wzór (9)). Jeśli liczba akualizaci saysyk osiąga zadany próg L (L mała liczba całkowia, np. 5), zn. określony es ciąg wekorów momenów rozkładu: m(τ ), m(τ 1 ),, m(τ L ) (28) w chwilach τ, τ 1,, τ L, o nasępue określenie modelu predykci (rozdział 4) dla każdego momenu z osobna. Zakłada się, że modele predykci φ r, wyznaczone na podsawie ciągów m (r) (τ ), m (r) (τ 1 ),, m (r) (τ L ), czyli dla poszczególnych momenów rozkładu określonego rzędu r, mogą być różne zarówno ilościowo (zw. różny rząd modelu R r L czy różne warości paramerów modelu), ak i akościowo (różny rodza modelu). 6.2. Zasadniczy algorym eksrapolaci rozkładu Przedsawiona poniże procedura pozwala na wykonanie eksrapolaci rozkładu dla dowolne chwili τ przy uwzględnieniu τ < τ < τ +1, gdzie τ o momen czasowy osanie zrealizowane akualizaci saysyki, a τ +1 o zakładany momen czasowy nasępne akualizaci saysyki, w przyszłości. Zakłada się, że przed uruchomieniem procedury eksrapolaci dane są: hisogram equi widh {(x i, p i (τ )}, modele predykci momenów rozkładu φ r dla r = 1...K, warości momenów rozkładu w poprzednich chwilach czasowych: m ( r) ( R 1 r ), m ( r) ( R 2 r ),..., m ( r) ( ) dla r = 1...K, gdzie R r o liczba chwil czasowych, określona przez rząd modelu predykci momenu r-ego rzędu.
4 D. R. Augusyn Procedura eksrapolaci rozkładu na chwilę τ (τ < τ < τ +1 ) zakłada realizacę nasępuących czynności: ˆ 1 1. predykcę wekora momenów rozkładu w przyszłe chwili τ +1, zn. wyznaczenie m ( ) na podsawie modeli φ r dla r = 1 K oraz m(τ ),, m(τ Rr+1 ) (rozdział 4), ˆ 1 2. inerpolacę mˆ ( ) na podsawie m ( ), m(τ ),, m(τ Rr+1 ) (rozdział 5), 3. wyznaczenie docelowego hisogramu {(x i, p i (τ)}, zn. obliczenie warości p i (τ) przez minimalizacę F funkci minus enropii (rozdział 2), przy ograniczeniach zbudowanych na podsawie wekora m ˆ ( ) (zawarego w wekorze M ze wzoru (5)); zakłada się, że warościami sarowymi algorymu minimalizaci są prawdopodobieńswa z hisogramu z osanie akualizaci saysyki,. z chwili τ (zn. wekor p w lisingu z rozdziału es inicowany warościami p i (τ )). 7. Podsumowanie Arykuł doyczy problemu reprezenaci zmiennego w czasie rozkładu warości arybuów w konekście wyznaczania selekywności zapyań opare na akie reprezenaci. Arykuł doyczy syuaci, w kóre akualizaca saysyk worzenie hisogramów reprezenuących rozkład es czasochłonna i może być rzadko wykonywana. W czasie pomiędzy akualizacami możliwa es zmiana danych, a ym samym sae się możliwa zmiana rozkładu. W akich przypadkach użyeczny mógłby być zaproponowany mechanizm programowy, pozwalaący na eksrapolacę reprezenaci w chwilach pomiędzy akualizacami. Wówczas selekywność mogłaby być wyznaczana na podsawie eksrapolowane posaci rozkładu, a nie z wykorzysaniem mnie akualne posaci rozkładu, pochodzące z osanie akualizaci saysyk. W opracowaniu zaproponowano meodę, w kóre śledzi się ewolucę momenów rozkładu, a nasępnie wyznacza się eksrapolowany rozkład, sosuąc zasadę maksimum enropii informacyne szukanego rozkładu, przy ograniczeniach wynikaących z przewidywanych warości momenów rozkładu w przyszłości. Dalsze prace mogą się koncerować na pogłębione, ilościowe weryfikaci meody (np. określenie związku pomiędzy maksymalnym rzędem uwzględnianych momenów, różną posacią rozkładów oraz różną rozdzielczością hisogramu wynikowego dla zadanego błędu esymaci). Innym kierunkiem rozwou meody może być akościowa modyfikaca (i weryfikaca) zaproponowane meody w alernaywnym wariancie, w kórym zamias śledzenia zmian momenów rozkładu rzędu 1 K można byłoby zasosować śledzenie kwanyli rozkładu, czyli eksrapolacę rozkładu na podsawie ewoluci kwanyli K-ego rzędu. Takie podeście pozwa-
Zasosowanie predykci rozkładu warości arybuu w celu poprawy dokładności 41 la na obsługę szersze klasy rozkładów, ponieważ momeny rozkładu mogą nie isnieć dla pewnych specyficznych rozkładów, a kwanyle isnieą zawsze. Dalsze prace będą mogły się koncenrować na prakycznym zasosowaniu meody, zn. implemenaci omawianego podeścia w ramach konkrenego SZBD. Z pewnością będzie się dało zaimplemenować (z użyciem ęzyków Java i PL/SQL) omawianą meodę ako rozszerzenie SZBD Oracle, wykorzysuąc moduł ODCI Sas [14] do rozszerzenia funkconalności worzenia saysyk i opymalizaora zapyań, ak ak o miało miesce w zasosowaniach [12] i [13]. BIBLIOGRAFIA 1. Jaynes E. T.: Papers on Probabiliy, Saisics, and Saisical Physics. Springer, 1989. 2. Buck B., Macaulay V. A.: Maximum enropy in acion: a collecion of exposiory essays. Clarendon Press, 1991. 3. Saad T.: The Maximum Enropy Mehod for Reconsrucing Densiy Disribuions, 213, hp://www.saad.ne/docs/saad-maximum-enropy-mehod.pdf. 4. Find minimum of consrained nonlinear mulivariable funcion MATLAB, 213, hp://www.mahworks.com/help/opim/ug/fmincon.hml;sessionid=efda3f7c6d73ec5a 5ed6bd565e?s_id=doc_12b. 5. Akaike Final Predicion Error for esimaed model MATLAB, 213, hp://www.mahworks.com/help/iden/ref/fpe.hml. 6. Design exac radial basis nework MATLAB, 213, hp://www.mahworks.com/ help/nne/ref/newrbe.hml. 7. Sysem Idenificaion Toolbox Documenaion MATLAB, 213, hp://www.mahworks.com/help/iden/index.hml#linear-model-idenificaion. 8. Niederliński A.: Sysemy kompuerowe auomayki przemysłowe. Zasosowania. Tom 2. WNT, Warszawa 1985. 9. 1-D daa inerpolaion MATLAB, 213, hp://www.mahworks.com/help/malab/ ref/inerp1.hml. 1. Lung L.: Sysem Idenificaion: Theory for he User. Prenice Hall 1998. 11. Haber R., Keviczky L.: Nonlinear Sysem Idenificaion Inpu-Oupu Modeling Approach. Springer 1999. 12. Augusyn D. R.: Applying advanced mehods of query seleciviy esimaion in Oracle DBMS. Advances in Sof Compuing. Man-Machine Ineracions. Springer-Verlag, Berlin-Heidelberg 29, s. 585 593.
42 D. R. Augusyn 13. Augusyn D. R.: Zasosowanie sieci Bayesa w szacowaniu selekywności zapyań w opymalizaorze zapyań serwera bazy danych Oracle. Sudia Informaica, Vol. 32, No. 1A (94), Gliwice 211, s. 25 42. 14. Oracle 1g. Using exensible opimizer, 21, hp://download.oracle.com/docs/cd/ B14117 1/appdev.11/b18/dciexop.hm. Wpłynęło do Redakci 16 sycznia 213 r. Absrac Query opimizaion is a process which leads o obain he bes query execuion mehod, so-called he execuion plan. To find he opimal execuion mehod a seleciviy parameer is needed. I enables o esimae a size of daa which saisfying a selecion condiion of analyzed query. Obaining he query seleciviy requires a non-parameric esimaor of aribue value disribuion, e.g. a equi-widh hisogram. Hisograms are produced during updae saisics process. For large daabases updae saisics process is performed raher seldom, e.g. only during ime of low workload of a sysem. This resuls ha hisograms do no describe acual daa disribuion. To obain a more accurae hisogram, a predicion mechanism should be inroduced. This resuls obaining a more accurae esimaion of seleciviy. The mehod of exrapolaion of aribue value disribuion is proposed in his paper. This mehod racks he evoluion of disribuion momens in he pas. Using known previous values of disribuion momens, he mehod predics fuure values of momens of he exrapolaed disribuion. Finally, i uses he maximum enropy principle for obaining he exrapolaed disribuion subec o he prediced values of he disribuion momens. Adres Dariusz Rafał AUGUSTYN: Poliechnika Śląska, Insyu Informayki, ul. Akademicka 16, 44-1 Gliwice, Polska, draugusyn@polsl.pl.