epu do danych dla algorytmów przetwarzania zbiorów zapytań eksploracyjnych
|
|
- Robert Jarosław Górecki
- 6 lat temu
- Przeglądów:
Transkrypt
1 tpd10pjmw 2010/6/1 11:04 page 1 #1 Ścieżki dost epu do danych dla algorytmów przetwarzania zbiorów zapytań eksploracyjnych Piotr J edrzejczak, Marek Wojciechowski Politechnika Poznańska, Piotrowo 2, Poznań, Polska Marek.Wojciechowski@cs.put.poznan.pl Streszczenie. Odkrywanie zbiorów czestych można traktować jako realizacje zaawansowanych zapytań do bazy danych, gdzie użytkownik specyfikuje ograniczenia dotyczace selekcji danych źród lowych oraz odkrywanych wzorców. Ponieważ takie zapytania eksploracyjne moga być wysy lane do bazy danych w trybie wsadowym, np. w czasie niewielkiego obciażenia serwera bazy danych, zaproponowano szereg algorytmów przetwarzania zbiorów zapytań eksploracyjnych. Metody te wykorzystuja wspó ldzielenie danych źród lowych miedzy zapytaniami i operuja na logicznych partycjach danych wyznaczonych przez nak ladanie sie źród lowych zbiorów danych. Wszystkie zaproponowane dotychczas algorytmy by ly testowane jedynie w warunkach dostepności bezpośrednich ścieżek dostepu do poszczególnych partycji, zazwyczaj na plikach p laskich. W praktyce dane poddawane eksploracji sa najcześciej sk ladowane w bazach danych, gdzie po pierwsze potencjalnie dostepnych jest wiele różnych ścieżek dostepu do danych, a po drugie dla konkretnych warunków selekcji danych na ogó l dostepne sa tylko niektóre z nich. Celem niniejszego artyku lu jest teoretyczna i praktyczna analiza zachowania sie algorytmów przetwarzania zbiorów zapytań eksploracyjnych w kontekście różnych ścieżek dostepu do danych. 1 Wst ep Odkrywanie zbiorów czestych (ang. frequent itemset mining) jest jedna z podstawowych technik eksploracji danych (ang. data mining), stosowana zarówno samodzielnie jak i jako pierwszy etap w odkrywaniu regu l asocjacyjnych (ang. association rules) [1]. Problem ten zosta l pierwotnie sformu lowany w kontekście analizy koszyka zakupów, ale szybko znalaz l liczne inne zastosowania, do których należa m. in. analiza danych medycznych, spo lecznych i telekomunikacyjnych oraz analiza zachowań użytkowników WWW. W skrócie, odkrywanie zbiorów czestych polega na odkrywaniu najcześciej wystepuj acych podzbiorów w bazie danych zawierajacej zbiory nazywane transakcjami 1. Odkrywanie zbiorów czestych może być postrzegane jako realizacja zaawansowanych zapytań do bazy danych, gdzie użytkownik specyfikuje ograniczenia dotyczace selekcji danych źród lowych oraz zaweżaj ace zbiór odkrywanych wzorców do tych, które z jego 1 Nazewnictwo obowiazuj ace w literaturze poświeconej problemowi odkrywania zbiorów cze- stych odwo luje sie czesto do pojeć używanych w analizie koszyka zakupów, np. baza danych jako kolekcja transakcji klientów.
2 tpd10pjmw 2010/6/1 11:04 page 2 #2 2 Piotr J edrzejczak, Marek Wojciechowski punktu widzenia sa interesujace [2]. Zapytania reprezentujace zadania odkrywania zbiorów czestych stanowia szczególny przypadek tzw. zapytań eksploracyjnych (ang. data mining queries). W literaturze zaproponowano wiele algorytmów odkrywania zbiorów czestych, różniacych sie przyjetym formatem danych źród lowych, wykorzystywanymi strukturami pamieciowymi, technikami redukcji kosztów I/O itp. Dwie najważniejsze klasy algorytmów wyznacza jednak strategia przeszukiwania przestrzeni rozwiazań. Algorytmy rodziny level-wise, reprezentowane przez klasyczny algorytm Apriori [3], stosuja strategie przeszukiwania wszerz, podczas gdy metody z rodziny pattern-growth, spośród których najbardziej znany jest algorytm FP-growth [4], przeszukuja przestrzeń w g l ab. Chociaż zaproponowano już wiele różnych algorytmów odkrywania zbiorów czestych, efektywne wyekstrahowanie wiedzy z dużych wolumenów danych nie jest zadaniem prostym i proces taki czesto wymaga dużych nak ladów czasowych. D lugi czas wykonywania zapytań eksploracyjnych dotyczacych odkrywania zbiorów czestych przy pomocy aktualnie znanych algorytmów powoduje, iż zapytania te sa nierzadko zbierane i wykonywane wsadowo w dogodnym czasie, gdy obciażenie systemu jest niższe (np. w nocy). Zapytania z takiego zebranego zbioru moga wykazywać pewne podobieństwa miedzy soba, np. poprzez odwo lywanie sie do tych samych zakresów danych. W laśnie to spostrzeżenie stanowi motywacje do zastapienia sekwencyjnego wykonania takiego zbioru zadań wykonaniem wspó lbieżnym, które wykorzystujac fakt wspó ldzielenia danych przez poszczególne zadania pozwoli na efektywniejsze przetwarzanie, zmniejszajac tym samym ca lkowity wymagany na znalezienie odpowiedzi czas [5]. Jak dotad opracowano kilka metod optymalizacji wykonania zbioru zapytań eksploracyjnych dotyczacych odkrywania zbiorów czestych, wykorzystujacych nak ladanie sie na siebie zakresów danych źród lowych poszczególnych zapytań: Mine Merge - niezależna od wykorzystywanego algorytmu odkrywania zbiorów czestych [5], Common Counting [5] i Common Candidate Tree [6] przeznaczone dla algorytmu Apriori oraz Common Building i Common FP-tree [7] opracowane z myśla o algorytmie FP-growth. Dla metod tych, oprócz niezbednej analizy teoretycznej, przeprowadzone zosta ly także praktyczne testy wydajnościowe z wykorzystaniem plików p laskich przy za lożeniu dostepności bezpośrednich ścieżek dostepu do partycji danych wyznaczonych przez nak ladanie sie danych źród lowych zapytań. W rzeczywistości jednak dane poddawane eksploracji sa najcześciej przechowywane w bazach danych, gdzie po pierwsze potencjalnie dostepnych jest wiele różnych ścieżek dostepu do danych, a po drugie dla konkretnych warunków selekcji danych na ogó l dostepne sa tylko niektóre z nich. Celem niniejszego artyku lu jest teoretyczna i praktyczna analiza zachowania sie zaproponowanych dotychczas algorytmów przetwarzania zbiorów zapytań eksploracyjnych dotyczacych odkrywania zbiorów czestych w kontekście różnych ścieżek dostepu do danych. Ze wzgledu na fakt, że metody dla algorytmu FP-growth sa adaptacjami metod wcześniej opracowanych dla algorytmu Apriori, analiza bedzie dokonana jedynie w kontekście algorytmu Apriori, który jest najpowszechniej implementowanym algorytmem odkrywania zbiorów czestych, a ponadto ze wzgledu na wielokrotne odczyty danych źród lowych powinien w wiekszym stopniu niż FP-growth uwypuklić wp lyw ścieżek dostepu na ca lkowity czas procesu eksploracji danych.
3 tpd10pjmw 2010/6/1 11:04 page 3 #3 Title Suppressed Due to Excessive Length 3 Artyku l wpasowuje sie w tematyke optymalizacji zapytań eksploracyjnych, skupiajac sie na rozwiazaniach, które można interpretować jako optymalizacje zbiorów zapytań (ang. multiple-query optimization). Optymalizacja zbiorów zapytań by la przedmiotem intensywnych badań w kontekście systemów baz danych [8], których celem by lo zbudowanie globalnego planu wykonania wykorzystujacego wspó ldzielenie operacji poszczególnych zapytań. Na gruncie eksploracji danych, poza problemem poruszanym w niniejszym artykule, optymalizacja zbiorów zapytań rozważana by la jedynie w znaczaco różnym problemie odkrywania zbiorów czestych w wielu zbiorach danych [9]. Podobnych rozwiazań do przedstawianych w tej pracy można natomiast doszukać sie w pokrewnej eksploracji danych dziedzinie programowania w logice, gdzie zaproponowano metode zbliżona koncepcyjnie do metody Common Counting [10]. 2 Podstawy teoretyczne 2.1 Podstawowe poj ecia Niech I = {i 1, i 2,..., i n } bedzie pewnym zbiorem litera lów, nazywanych dalej elementami. Transakcja T nazywamy taki zbiór elementów, że T I i T. Mówimy, że transakcja T wspiera element x I, jeżeli x T. Transakcja T wspiera zbiór X I, jeżeli wspiera każdy element ze zbioru X, tj. X T. Wsparciem bezwzglednym zbioru X w pewnym zbiorze transakcji D nazywamy liczbe transakcji T D wspierajacych X. Wsparciem wzglednym zbioru X w pewnym zbiorze transakcji D nazywamy stosunek liczby transakcji T D wspierajacych X do liczby wszystkich transakcji należacych do D i wyrażamy w procentach. Zbiór X I, którego wsparcie jest niemniejsze od pewnej przyjetej wartości minimalnego wsparcia (ang. minimum support), nazywamy zbiorem czestym. Rozmiarem zbioru X nazywamy liczbe znajdujacych sie w nim elementów. 2.2 Sformu lowanie problemu Zapytaniem eksploracyjnym w kontekście problemu odkrywania zbiorów czestych nazywamy uporzadkowan a piatk e dmq = (R, a, Σ, Φ,minsup), gdzie R jest relacja bazy danych, a jest atrybutem relacji R, którego wartościami sa zbiory elementów, Σ jest wyrażeniem warunkowym dotyczacym atrybutów relacji R określanym mianem predykatu selekcji danych, Φ jest wyrażeniem warunkowym dotyczacym odkrywanych zbiorów czestych określanym mianem predykatu selekcji wzorców, a minsup to próg minimalnego wsparcia. Wynikiem zapytania dmq jest kolekcja zbiorów czestych odkrytych w π a σ Σ R, spe lniaj acych predykat Φ, o wsparciu minsup (π i σ oznaczaja relacyjne operacje projekcji i selekcji). Zbiór elementarnych predykatów selekcji danych dla danego zbioru zapytań eksploracyjnych DMQ = {dmq 1,dmq 2,...,dmq n } to najmniejszy pod wzgledem liczebności zbiór S = {s 1, s 2,..., s k } predykatów selekcji danych z relacji R taki, że dla każdej pary u, v (u v) zachodzi σ su R σ sv R = i dla każdego zapytania dmq i istnieja takie liczby ca lkowite a, b,..., m, że σ Σi R = σ sa R σ sb R.. σ sm R. Zbiór elementarnych predykatów selekcji danych reprezentuje podzia l bazy danych na partycje wyznaczone przez nak ladanie sie źród lowych zbiorów danych zapytań.
4 tpd10pjmw 2010/6/1 11:04 page 4 #4 4 Piotr J edrzejczak, Marek Wojciechowski Dla danego zbioru zapytań eksploracyjnych DMQ = {dmq 1,dmq 2,...,dmq n }, problem optymalizacji wykonania zbioru zapytań eksploracyjnych polega na wygenerowaniu algorytmu minimalizujacego ca lkowity czas wykonania DMQ. 2.3 Algorytm Apriori Wprowadzony w [3] algorytm Apriori dzia la iteracyjnie, każdorazowo odkrywajac zbiory czeste o coraz wiekszym rozmiarze. Opiera sie on na spostrzeżeniu, iż każdy podzbiór zbioru czestego jest także zbiorem czestym. Podczas pierwszej iteracji zliczana jest liczba wystapień każdego pojedynczego elementu i na jej podstawie wyznaczane sa 1- elementowe zbiory czeste. Kolejne iteracje sk ladaj a sie z dwóch faz: fazy generowania zbiorów kandydackich na podstawie zbiorów czestych odkrytych w poprzedniej iteracji oraz fazy ich weryfikacji, podczas której zliczane sa wystapienia i odrzucane sa te zbiory, które nie posiadaja wymaganego minimalnego wsparcia. Proces ten powtarzany jest do momentu, aż nie zostana odkryte nowe zbiory czeste. Wp lyw na wydajność algorytmu Apriori maja przede wszystkim odczyty danych z dysku oraz zliczanie kandydatów. W celu efektywnego sprawdzenia, które ze zbiorów kandydackich zawieraja sie w danej transakcji, zbiory te przechowywane sa w drzewie haszowym. 3 Metody przetwarzania zbioru zapytań eksploracyjnych dla algorytmu Apriori 3.1 Wykonanie sekwencyjne Metoda naiwna wykonania zbioru zapytań eksploracyjnych dla problemu odkrywania zbiorów czestych sprowadza sie do wykonania tych zapytań sekwencyjnie przy użyciu podstawowego algorytmu odkrywania zbiorów czestych np. Apriori. Każde zapytanie wykonywane jest osobno, zatem jakiekolwiek podobieństwa wykazywane przez te zapytania sa pomijane. Chociaż metoda ta nie jest efektywnym rozwiazaniem postawionego problemu, stanowi naturalny punkt odniesienia przy ocenie pozosta lych metod i uwzglednienie jej w eksperymentach pomiarowych pozwoli uogólnić wyciagni ete odnośnie ścieżek dostepu wnioski. 3.2 Algorytm Common Counting Algorytm Common Counting, zaprezentowany w [5], koncentruje sie na zmniejszeniu liczby odczytów danych poprzez zlikwidowanie potrzeby wielokrotnego odczytu wspólnych partycji bazy danych, tzn. takich, do których odwo luje sie wiecej niż jedno zadanie ze zbioru. Wszystkie zadania wykonywane sa równocześnie w sposób zbliżony do Apriori, czyli poprzez iteracyjne powtarzanie faz generowania zbiorów kandydackich oraz faz weryfikacji aż do momentu, gdy dla żadnego z zadań nie zostana odkryte nowe zbiory czeste. W trakcie fazy generowania zbiorów kandydackich generowane sa zbiory kolejno dla wszystkich wykonywanych zadań. Sam proces generowania zbiorów dla pojedynczego zadania przebiega identycznie jak w Apriori. Wygenerowane dla poszczególnych zadań zbiory kandydackie przechowywane sa w osobnych drzewach haszowych.
5 tpd10pjmw 2010/6/1 11:04 page 5 #5 Title Suppressed Due to Excessive Length 5 Faza weryfikacji oblicza wsparcie zbiorów kandydackich dla wszystkich zadań jednocześnie podczas jednego wspólnego odczytu danych. Odczytywane sa wszystkie partycje, do których odwo luje sie chociaż jedno zadanie ze zbioru. Każda partycja bazy danych odczytywana jest w pojedynczej iteracji algorytmu dok ladnie raz, skutecznie redukujac w ten sposób liczbe wykonywanych operacji wejścia-wyjścia w porównaniu z wykonaniem sekwencyjnym. 3.3 Algorytm Common Candidate Tree Algorytm Common Counting optymalizuje tylko odczyty bazy danych, wykonujac pozosta le operacje osobno dla każdego zadania. Algorytm Common Candidate Tree [6] rozszerza Common Counting o uwspólnienie wykorzystywanych struktur danych. Tak jak w przypadku Common Counting, wszystkie zadania wykonywane sa jednocześnie i każda partycja bazy danych odczytywana jest tylko raz w pojedynczej iteracji algorytmu. Różnica polega na zastosowaniu jednego wspólnego drzewa haszowego dla wszystkich zadań. Sama struktura drzewa haszowego w Common Candidate Tree jest identyczna jak w przypadku Common Counting i oryginalnego Apriori. Zmodyfikowana zosta la natomiast struktura samych zbiorów kandydackich, tak aby z każdym z nich zwiazana by la tablica liczników po jednym dla każdego zapytania oraz tablica zmiennych boolowskich, pozwalajaca zidentyfikować zadania, które dany zbiór kandydacki wygenerowa ly. Faza generowania zbiorów kandydackich przebiega analogicznie jak w algorytmie Common Counting. Dodatkowo, po wygenerowaniu zbiorów dla wszystkich zadań, zbiory te sa scalane do opisanej powyżej rozszerzonej reprezentacji i umieszczane we wspólnym drzewie haszowym. Faza weryfikacji sprowadza sie do odczytu wszystkich transakcji z wszystkich partycji bazy danych i przeszukania drzewa dla każdej z nich. Dla każdego znalezionego zbioru kandydackiego inkrementowane sa tylko liczniki powiazane z tymi zadaniami, które odwo luj a sie do aktualnie odczytywanej partycji i dla których dany zbiór zosta l wygenerowany. 3.4 Algorytm Mine Merge Algorytm Mine Merge prezentuje zupe lnie inne podejście do wykonywania zbioru zadań niż wszystkie poprzednie metody. Podstawe zasady jego dzia lania stanowi fakt, iż w przypadku bazy danych podzielonej na roz l aczne partycje, zbiór bed acy zbiorem cze- stym w ca lej bazie danych musi być czesty w co najmniej jednej z tych partycji. Przebieg algorytmu jest nastepuj acy. Najpierw z wejściowego zbioru zadań generowane sa zapytania pośrednie, z których każde opiera sie na pojedynczym elementarnym predykacie selekcji (czyli każde z nich odwo luje sie do pojedynczej partycji). Nastepnie zapytania te wykonywane sa sekwencyjnie (np. przy użyciu Apriori), a z odkrytych przez nie zbiorów czestych tworzona jest globalna lista zbiorów kandydackich dla każdego z oryginalnych zadań (lista taka powstaje poprzez zsumowanie wszystkich zbiorów czestych z wszystkich partycji, do których dane zadanie sie odwo luje). Na koniec wykonywany jest pojedynczy odczyt danych, podczas którego nastepuje obliczenie wsparć poszczególnych zbiorów kandydackich i wyznaczenie zbiorów czestych bed acych rozwiazaniem każdego z oryginalnych zapytań.
6 tpd10pjmw 2010/6/1 11:04 page 6 #6 6 Piotr J edrzejczak, Marek Wojciechowski 4 Dost ep do danych 4.1 Struktury danych i ścieżki dost epu Dostepne na rynku systemy zarzadzania baza danych oparte o model relacyjny oferuja zbliżona podstawowa funkcjonalność w zakresie sk ladowania danych i dostepu do nich, przez co niniejsze rozważania maja w dużym stopniu charakter uniwersalny. Ponieważ każdy z nich posiada jednak swoja specyfike, dalsza analiza przeprowadzona bedzie w oparciu o jeden konkretny system zarzadzania baza danych - Oracle 11g. Ten sam system wykorzystany zostanie podczas testów wydajnościowych. W bazie danych Oracle domyślnie tabela zorganizowana jest wewnetrznie jako sterta (ang. heap), co oznacza że nie jest gwarantowane żadne fizyczne uporzadkowanie rekordów tabeli na dysku. Dlatego też, bez pomocy dodatkowych towarzyszacych tabeli struktur danych, w celu odszukania rekordów spe lniaj acych podane przez użytkownika w zapytaniu kryteria selekcji system musi dokonać pe lnego przegladu tabeli. Co wiecej, nie można również zak ladać żadnego logicznego porzadku wierszy zwracanych przez zapytanie SQL, jeśli nie zlecono w nim żadnego porzadku jawnie poprzez klauzule ORDER BY. Opcjonalnie z tabela powiazane moga być indeksy, które w odpowiednich przypadkach umożliwiaja szybszy dostep do danych. Utworzenie indeksu na jednej badź kilku kolumnach tabeli pozwala na odczyt podzbioru rekordów znajdujacych sie w tabeli bez konieczności przegladania wszystkich bloków danych dla danej zaindeksowanej wartości indeks wskazuje bezpośrednie lokalizacje wszystkich rekordów, które te wartość zawieraja. Podstawowym rodzajem indeksów w Oracle sa indeksy o strukturze B-drzewa, choć dostepne sa również indeksy bitmapowe oraz zaawansowane specjalistyczne struktury indeksowe wykorzystywane do indeksowania specyficznych rodzajów danych np. tekstowych czy przestrzennych. Typowy sposób wykorzystania indeksu polega na odszukaniu w indeksie identyfikatorów/adresów rekordów (w Oracle ROWID) spe lniaj acych warunki selekcji zapytania, a nastepnie bezpośrednim dostepie do rekordów tabeli w oparciu o informacje z indeksu. W tym wzgledzie dostep do danych z wykorzystaniem indeksu stanowi alternatywe dla pe lnego przegladu tabeli i jest op lacalny pod warunkiem odpowiedniej selektywności indeksu 2. W rzeczywistości system zarzadzania baza danych Oracle różnicuje ścieżki dostepu do indeksu w zależności od unikalności/nieunikalności kluczy indeksu oraz rodzaju warunku selekcji (równościowy/zakresowy), a ponadto w pewnych scenariuszach realizuje pe lny przeglad indeksu (w porzadku indeksowym lub nie). Niuanse zwiazane ze ścieżkami dostepu do indeksu w systemie Oracle wykraczaja poza zakres niniejszego artyku lu. We wszystkich eksperymentach indeks bedzie użyty do wyszukania odpowiednich rekordów tabeli w oparciu o warunki zakresowe dotyczace nieunikalnego atrybutu. Ciekawa alternatywa dla domyślnej organizacji tabeli w postaci sterty jest w systemie Oracle tabela zorganizowana jako indeks (IOT, ang. index-organized table). Rekordy sa 2 Dostep do rekordów tabeli w oparciu o informacje z indeksu w przeciwieństwie do pe lnego przegladu tabeli nie jest odczytem sekwencyjnym. Ze wzgledu na sposób dzia lania twardych dysków sekwencyjny odczyt danych jest znacznie szybszy od odczytu pojedynczych rekordów rozmieszczonych na dysku w sposób nieciag ly i dlatego optymalizator stanowiacy jeden z modu lów systemu zarzadzania baza danych skorzysta z indeksu tylko gdy zapytanie wybiera niewielki procent rekordów tabeli.
7 tpd10pjmw 2010/6/1 11:04 page 7 #7 Title Suppressed Due to Excessive Length 7 wówczas przechowywane bezpośrednio w indeksie o strukturze B-drzewa utworzonym na kolumnach klucza g lównego tabeli. Odczyt danych zawartych w tabeli zorganizowanej jako indeks przebiega podobnie jak w przypadku zwyk lego dostepu za pomoca indeksu, tyle że wynikiem wyszukiwania sa kompletne dane, a nie jedynie wskaźnik do nich. Ma to szczególne znaczenie dla zapytań wykonywanych przez zakresowy przeglad indeksu, które w tabelach zorganizowanych jako indeks wymagaja zdecydowanie mniej odczytów niż w typowym modelu z lożonym z indeksu i tabeli w postaci sterty. Tabela zorganizowana jako indeks posiada również inna ważna zalete. Rekordy sk ladowane sa w strukturze indeksu zbudowanego na kolumnach klucza g lównego, w kolejności zdefiniowanej przez wartości tego klucza. W zwiazku z tym wykonanie zapytań, dla których wynikowe dane zwrócone maja zostać posortowane po kolumnach z dowolnej cześci wiodacej klucza g lównego nie wymagaja przeprowadzenia dodatkowej operacji sortowania. Powyższa analiza możliwości sytemu Oracle wskazuje na konieczność przetestowania w kontekście problemu przetwarzania zbiorów zapytań eksploracyjnych trzech poniższych ścieżek dostepu do danych: pe len przeglad tabeli zorganizowanej jako sterta, dostep do danych tabeli zorganizowanej jako sterta z użyciem indeksu, dostep do tabeli zorganizowanej jako indeks. 4.2 Specyfika dost epu do danych dla badanych algorytmów Rozważajac wp lyw ścieżek dostepu do danych na dzia lanie poszczególnych algorytmów przetwarzania zbiorów zapytań eksploracyjnych, na pewnym poziomie ogólności można dwie ostanie z wyżej wymienionych ścieżek potraktować l acznie jako dostep selektywny, stanowiacy alternatywe dla pe lnego odczytu danych. Punktem odniesienia dla oceny poszczególnych zaproponowanych metod optymalizujacych wykonanie zbioru zapytań eksploracyjnych zarówno w analizie teoretycznej jak i nastepnie w analizie eksperymentalnej bedzie wykonanie sekwencyjne. W przypadku sekwencyjnego wykonania zapytań algorytmem Apriori ilość odczytanych danych z dysku jest oczywiście równa sumie danych odczytanych przez poszczególne zapytania. Algorytm Mine Merge w pierwszej fazie wykonuje zadania pośrednie w sposób sekwencyjny przy użyciu Apriori, w drugiej fazie natomiast wymaga pojedynczego odczytu wszystkich partycji bazy danych. Zapytania pośrednie Mine Merge moga wymagać wiecej lub mniej iteracji Apriori niż zapytania oryginalne w zależności od konkretnego rozk ladu wartości w bazie danych, przez co teoretyczne porównanie kosztów odczytów dyskowych Mine Merge z kosztami wykonania sekwencyjnego w ogólności nie jest możliwe. Na potrzeby niniejszych rozważań przyjmiemy wiec, że wszystkie zapytania, zarówno oryginalne jak i pośrednie Mine Merge, wymagaja tej samej liczby iteracji Apriori 3. W takim wypadku dla ścieżki selektywnej Mine Merge w pierwszej fazie odczytuje mniej danych z dysku niż przy wykonaniu sekwencyjnym, gdyż każdy fragment bazy danych jest w tej metodzie odczytywany co najwyżej przez jedno zapytanie. Zysk jest tym wiekszy im bardziej nak ladaj a sie oryginalne zapytania. Należy jednak zwrócić 3 Przyj ete za lożenie jest uzasadnione przy za lożeniu zbliżonego rozk ladu wartości w poszczególnych partycjach bazy danych.
8 tpd10pjmw 2010/6/1 11:04 page 8 #8 8 Piotr J edrzejczak, Marek Wojciechowski uwage, że Mine Merge w drugiej fazie odczytuje raz sume danych źród lowych wszystkich zapytań, przez co kluczowe dla wydajności Mine Merge jest aby zysk z pierwszej fazy przewyższa l koszt dodatkowego odczytu danych w drugiej fazie. Jeśli do odczytu partycji danych odpowiadajacych poszczególnym zapytaniom konieczne sa pe lne przeglady tabeli, Mine Merge wymaga niestety wiekszej liczby odczytów danych z dysku, gdyż liczba zapytań pośrednich jest wieksza od liczby zapytań oryginalnych. W tym sensie Mine Merge należy uznać za metode zdecydowanie polegajac a na dostepności selektywnych ścieżek dostepu do danych. Należy tu jednak podkreślić, że zwiekszony koszt dotyczy tylko odczytów danych z dysku na poziomie serwera bazy danych, a koszt przes lania danych do eksploracji (szczególnie w architekturze klientserwer) oraz koszt przetwarzania odczytanych danych przez algorytm Apriori bedzie niższy dla Mine Merge niż dla wykonania sekwencyjnego. Dlatego też w konkretnej architekturze Mine Merge może okazać sie szybszy od wykonania sekwencyjnego nawet gdy jedyna dostepn a ścieżka dostepu do danych bedzie pe len odczyt tabeli z danymi. W przypadku algorytmów Common Counting i Common Candidate Tree należy uwzglednić fakt, iż w każdej iteracji odwo luj a sie one do wielu partycji (zliczanie nastepuje wspólnie dla wszystkich zapytań eksploracyjnych). W każdej fazie weryfikacji kandydatów pobrany z bazy danych musi zostać pewien z góry znany zbiór partycji, a kolejność zwracanych transakcji tak naprawde nie ma znaczenia zamiast sprawdzać przynależność transakcji do konkretnego zadania na poziomie partycji, ten sam test może zostać wykonany dla każdej pojedynczej transakcji. W zwiazku z powyższym, dla wspomnianych algorytmów można zintegrować pobieranie danych z poszczególnych logicznych partycji wyznaczonych przez nak ladanie sie zapytań eksploracyjnych poprzez wys lanie jednego zapytania SQL, które zwróci transakcje z wszystkich potrzebnych partycji. O ile usprawnienie to w nieznaczny sposób powinno wp lyn ać na ca lkowity koszt odczytu danych przy odczytach selektywnych (szczególnie w przypadku warunków zakresowych), to bedzie mia lo kluczowe znaczenie gdy wykorzystywane bed a pe lne odczyty tabeli. W tym drugim scenariuszu metody Common Counting i Common Candidate Tree bed a wymaga ly dok ladnie tyle odczytów danych z dysku co pojedyncze zapytanie eksploracyjne wykonujace najwieksz a liczbe iteracji Apriori. Metody te, w przeciwieństwie do Mine Merge, nie tylko wiec nie powinny tracić na wydajności w stosunku do wykonania sekwencyjnego gdy nie sa dostepne selektywne ścieżki dostepu do partycji danych, ale wrecz wydaja sie szczególnie predysponowane do zastosowania w przypadkach gdy konieczne sa pe lne odczyty tabeli z danymi. 5 Wyniki eksperymentów Do eksperymentów wykorzystany zosta l syntetyczny zbiór danych wytworzony za pomoca generatora GEN z projektu Quest [11]. Parametry wejściowe by ly nastepuj ace: liczba transakcji = , średnia liczba elementów w transakcji = 8, liczba różnych elementów = 1000, liczba wzorców (tj. zbiorów czestych) = 1500, średnia liczba elementów we wzorcu = 4. Dane umieszczone zosta ly w postaci znormalizowanej (tj. jako pary <identyfikator transakcji, element>) w bazie danych Oracle 11g Enterprise Edition, uruchomionej na komputerze z procesorem Athlon pracujacym na systemie operacyjnym SuSE Linux (wersja jadra ). Aplikacja testowa na-
9 tpd10pjmw 2010/6/1 11:04 page 9 #9 Title Suppressed Due to Excessive Length 9 pisana zosta la w jezyku Java i uruchamiana by la na komputerze z procesorem Intel Core2Duo 2.2GHz pracujacym na systemie operacyjnym Mac OS X Po l aczenie z baza danych realizowane by lo za pomoca biblioteki JDBC przez sieć Ethernet. Przeprowadzone zosta ly dwa eksperymenty: w pierwszym z nich zbiór zawiera l dwa zadania o sta lym rozmiarze, a zmienna by l stopień ich nak ladania; w drugim ca lkowity odczytywany zakres bazy danych by l sta ly, zmienia la sie natomiast liczba zadań w zbiorze. Każde zadanie w obu zbiorach odwo lywa lo sie do pojedynczego, ciag lego zakresu transakcji. W obu eksperymentach mierzono czasy wykonania sekwencyjnego (oznaczonego jako SEQ), algorytmu Common Counting (CC), algorytmu Common Candidate Tree (CCT) oraz algorytmu Mine Merge (MM) dla wszystkich trzech badanych ścieżek dostepu. Wyniki pierwszego eksperymentu dla dwóch zapytań o rozmiarze transakcji oraz progu minimalnego wsparcia 0.7% i stopnia nak ladania od 0% do 100% z krokiem co 20% przedstawia Rys. 1. Zgodnie z oczekiwaniami, w przypadku pe lnego przegladu tabeli algorytm Mine Merge osiaga czasy znacznie s labsze od pozosta lych badanych algorytmów, wygrywajac jedynie z wykonaniem sekwencyjnym w przypadku wysokiego stopnia nak ladania. Dla przegladu tabeli z wykorzystaniem indeksu oraz przegladu tabeli zorganizowanej jako indeks jego strata nie jest już tak duża, a dla zapytań o wysokim stopniu nak ladania Mine Merge dzia la efektywniej od Common Counting. Niezależnie od ścieżki dostepu, algorytmy Common Counting oraz Common Candidate Tree osiagaj a zbliżone do siebie czasy dla niskiego stopnia nak ladania. Przewaga CCT staje sie wyraźna dopiero dla stopnia nak ladania wiekszego od 40%, w których to przypadkach uzyskuje on najlepsze wyniki spośród wszystkich badanych metod. Czasy uzyskane dla dostepu do danych poprzez przeglad tabeli zorganizowanej jako indeks sa dla wszystkich metod zdecydowanie krótsze niż czasy uzyskane dla pe lnego przegladu tabeli oraz przegladu tabeli za pośrednictwem indeksu. S laba efektywność tego ostatniego jest z kolei spowodowana niska selektywnościa zapytań (pojedyncze zadanie eksploracyjne odwo luje sie do 50% transakcji w tabeli). W drugim eksperymencie ca lkowity zakres danych, do których odwo lywa ly sie zadania, mia l dla wszystkich punktów pomiarowych sta ly rozmiar. Zbiór zadań w każdej serii pomiarowej zawiera l od 2 do 6 zadań o rozmiarze transakcji, rozmieszczonych równomiernie na obszarze pierwszych transakcji z bazy danych (za każdym razem pierwsze zadanie odwo lywa lo sie do transakcji o identyfikatorach z zakresu od 0 do , a ostatnie od do ). Wyniki przedstawia Rys. 2. Podobnie jak podczas pierwszego eksperymentu, efektywność Mine Merge dla pe lnego przegladu tabeli jest dość niska, a algorytm ten osiaga czasy lepsze jedynie od wykonania sekwencyjnego 4. Gdy możliwy jest dostep selektywny, liczba zadań w zbiorze ma niewielki wp lyw na czas wykonania Mine Merge, co pozwala (przy odpowiednio dużej liczbie zadań) na osiagni ecie lepszych rezultatów od Common Counting. Algorytm Common Candidate Tree, niezależnie od ścieżki dostepu, pozostaje niewrażliwy na liczbe zadań w zbiorze i uzyskuje najlepsze czasy spośród wszystkich badanych metod. 4 Dla obu metod czas zależy liniowo od liczby zadań, jednak w przypadku Mine Merge każde kolejne zadanie powoduje jedynie dodatkowe odczyty zawartości bazy danych po stronie serwera; wykonanie sekwencyjne z każdym kolejnym zadaniem przesy la do aplikacji i przetwarza dodatkowe transakcji.
10 tpd10pjmw 2010/6/1 11:04 page 10 #10 10 Piotr J edrzejczak, Marek Wojciechowski czas [ms] czas [ms] czas [ms] Pełen przegląd tabeli SEQ CC CCT MM stopień nakładania [%] Przegląd tabeli za pomocą indeksu SEQ CC CCT MM stopień nakładania [%] Przegląd tabeli zorganizowanej jako indeks SEQ CC CCT MM stopień nakładania [%] Rys. 1. Czasy wykonania dwóch zadań o rozmiarze w zależności od ich stopnia nak ladania przy minimalnym wsparciu 0.7%.
11 tpd10pjmw 2010/6/1 11:04 page 11 #11 Title Suppressed Due to Excessive Length 11 czas [ms] SEQ CC CCT MM Pełen przegląd tabeli liczba zadań czas [ms] SEQ CC CCT MM Przegląd tabeli za pomocą indeksu liczba zadań czas [ms] Przegląd tabeli zorganizowanej jako indeks SEQ CC CCT MM liczba zadań Rys. 2. Czasy wykonania badanych metod w zależności od liczby zadań przy minimalnym wsparciu 2%.
12 tpd10pjmw 2010/6/1 11:04 page 12 #12 12 Piotr J edrzejczak, Marek Wojciechowski Dostep do danych poprzez tabele zorganizowana jako indeks, tak jak w poprzednim eksperymencie, jest znacznie szybszy niż pozosta le metody odczytu. Analiza planów zapytania wykaza la, iż w przeciwieństwie do pozosta lych dwóch ścieżek, w przypadku tej ścieżki nie wystepuje operacja sortowania, ponieważ wymagana przez zapytanie kolejność rekordów jest zgodna z kolejnościa ich wystepowania w indeksie. Co wiecej, wykonywane zapytanie jest typowym przyk ladem zapytania zakresowego, szczególnie dobrze wspieranego w laśnie przez tabele zorganizowane jako indeks. Pamietać należy jednak, że tabela zorganizowana jako indeks posiada znaczne ograniczenie aby mog la ona efektywnie wykonać dane zapytanie, wykorzystane atrybuty selekcji musza znajdować sie na poczatku jej klucza g lównego. Nie może być ona zatem efektywnie wykorzystana np. w przypadku, kiedy w tabeli wystepuje wiele atrybutów selekcji, a zadania odwo luj a sie do różnych ich kombinacji. 6 Podsumowanie Artyku l poświecony jest metodom przetwarzania zbiorów zapytań eksploracyjnych dla problemu odkrywania zbiorów czestych. Celem artyku lu by la teoretyczna i eksperymentalna analiza zachowania sie zaproponowanych dotychczas w literaturze metod w kontekście różnych ścieżek dostepu do danych. Analiza teoretyczna wykaza la, że o ile metoda Mine Merge traci w stosunku do wykonania sekwencyjnego w przypadku gdy do odczytu partycji danych konieczne sa pe lne odczyty tabeli, to metody Common Counting i Common Candidate Tree relatywnie zyskuja na wydajności. Seria eksperymentów z wykorzystaniem systemu Oracle 11g potwierdzi la wnioski z analizy teoretycznej, a ponadto wykaza la, że spośród dwóch testowanych ścieżek oferujacych selektywny dostep do danych: dostepu do tabeli z wykorzystaniem indeksu i dostepu do tabeli zorganizowanej jako indeks zauważalnie lepsza jest ta druga. Literatura [1] R. Agrawal, T. Imielinski, and A. N. Swami, Mining association rules between sets of items in large databases, in SIGMOD Conference (P. Buneman and S. Jajodia, eds.), pp , ACM Press, [2] T. Imielinski and H. Mannila, A database perspective on knowledge discovery, Commun. ACM, vol. 39, no. 11, pp , [3] R. Agrawal and R. Srikant, Fast algorithms for mining association rules in large databases, in VLDB (J. B. Bocca, M. Jarke, and C. Zaniolo, eds.), pp , Morgan Kaufmann, [4] J. Han, J. Pei, and Y. Yin, Mining frequent patterns without candidate generation, in SIGMOD Conference, pp. 1 12, ACM, [5] M. Wojciechowski and M. Zakrzewicz, Methods for batch processing of data mining queries, in Proceedings of the Fifth International Baltic Conference on Databases and Information Systems (DBIS 2002), pp , [6] P. Grudzinski and M. Wojciechowski, Integration of candidate hash trees in concurrent processing of frequent itemset queries using apriori, in Proceedings of the 3rd ADBIS Workshop on Data Mining and Knowledge Discovery (ADMKD 07), pp , 2007.
13 tpd10pjmw 2010/6/1 11:04 page 13 #13 Title Suppressed Due to Excessive Length 13 [7] M. Wojciechowski, K. Galecki, and K. Gawronek, Three strategies for concurrent processing of frequent itemset queries using fp-growth, in Knowledge Discovery in Inductive Databases. 5th International Workshop, KDID 2006 Berlin, Germany, September 18, 2006 Revised Selected and Invited Papers, pp , Springer, [8] T. K. Sellis, Multiple-query optimization, ACM Trans. Database Syst., vol. 13, no. 1, pp , [9] R. Jin, K. Sinha, and G. Agrawal, Simultaneous optimization of complex mining tasks with a knowledgeable cache, in KDD, pp , ACM, [10] H. Blockeel, L. Dehaspe, B. Demoen, G. Janssens, J. Ramon, and H. Vandecasteele, Improving the efficiency of inductive logic programming through the use of query packs, J. Artif. Intell. Res. (JAIR), vol. 16, pp , [11] R. Agrawal, M. Mehta, J. C. Shafer, R. Srikant, A. Arning, and T. Bollinger, The quest data mining system, in KDD, pp , 1996.
Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na
Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji
Optymalizacja poleceń SQL Metody dostępu do danych
Optymalizacja poleceń SQL Metody dostępu do danych 1 Metody dostępu do danych Określają, w jaki sposób dane polecenia SQL są odczytywane z miejsca ich fizycznej lokalizacji. Dostęp do tabeli: pełne przeglądnięcie,
dmq 1 =(R 1,a 2, 5 a 1 < 20,, 3%), dmq 2 =(R 1,a 2, 0 a 1 < 15,, 5%),
Integracja drzew kandydatów w przetwarzaniu zbiorów zapyta eksploracyjnych algorytmem Apriori Przemys aw Grudzi ski 1, Marek Wojciechowski 2 Streszczenie: Artyku po wi cony jest problematyce przetwarzania
Inżynieria biomedyczna
Inżynieria biomedyczna Projekt Przygotowanie i realizacja kierunku inżynieria biomedyczna studia międzywydziałowe współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego.
Wyk lad 7 Baza i wymiar przestrzeni liniowej
Wyk lad 7 Baza i wymiar przestrzeni liniowej 1 Baza przestrzeni liniowej Niech V bedzie przestrzenia liniowa. Powiemy, że podzbiór X V jest maksymalnym zbiorem liniowo niezależnym, jeśli X jest zbiorem
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych
Grzegorz Mazur. Zak lad Metod Obliczeniowych Chemii UJ. 14 marca 2007
Zak lad Metod Obliczeniowych Chemii UJ 14 marca 2007 Rzad 1 Zamiast wst epu 2 Rzad Notacja dużego O Notacja Ω Notacja Θ 3 S lowniczek Rzad Algorytm W matematyce oraz informatyce to skończony, uporzadkowany
Indeksowanie w bazach danych
w bazach Katedra Informatyki Stosowanej AGH 5grudnia2013 Outline 1 2 3 4 Czym jest indeks? Indeks to struktura, która ma przyspieszyć wyszukiwanie. Indeks definiowany jest dla atrybutów, które nazywamy
Statystyka w analizie i planowaniu eksperymentu
29 marca 2011 Przestrzeń statystyczna - podstawowe zadania statystyki Zdarzeniom losowym określonym na pewnej przestrzeni zdarzeń elementarnych Ω można zazwyczaj na wiele różnych sposobów przypisać jakieś
Wyk lad 7 Metoda eliminacji Gaussa. Wzory Cramera
Wyk lad 7 Metoda eliminacji Gaussa Wzory Cramera Metoda eliminacji Gaussa Metoda eliminacji Gaussa polega na znalezieniu dla danego uk ladu a x + a 2 x 2 + + a n x n = b a 2 x + a 22 x 2 + + a 2n x n =
1. Odkrywanie asocjacji
1. 2. Odkrywanie asocjacji...1 Algorytmy...1 1. A priori...1 2. Algorytm FP-Growth...2 3. Wykorzystanie narzędzi Oracle Data Miner i Rapid Miner do odkrywania reguł asocjacyjnych...2 3.1. Odkrywanie reguł
Statystyka w analizie i planowaniu eksperymentu
31 marca 2014 Przestrzeń statystyczna - podstawowe zadania statystyki Zdarzeniom losowym określonym na pewnej przestrzeni zdarzeń elementarnych Ω można zazwyczaj na wiele różnych sposobów przypisać jakieś
Administracja i programowanie pod Microsoft SQL Server 2000
Administracja i programowanie pod Paweł Rajba pawel@ii.uni.wroc.pl http://www.kursy24.eu/ Zawartość modułu 9 Optymalizacja zapytań Pobieranie planu wykonania Indeksy i wydajność - 1 - Zadania optymalizatora
Drzewa podstawowe poj
Drzewa podstawowe poj ecia drzewo graf reprezentujacy regularna strukture wskaźnikowa, gdzie każdy element zawiera dwa lub wiecej wskaźników (ponumerowanych) do takich samych elementów; wez ly (albo wierzcho
Wyk lad 9 Baza i wymiar przestrzeni liniowej
Wyk lad 9 Baza i wymiar przestrzeni liniowej 1 Operacje elementarne na uk ladach wektorów Niech α 1,..., α n bed dowolnymi wektorami przestrzeni liniowej V nad cia lem K. Wyróżniamy nastepuj ace operacje
Baza danych. Baza danych to:
Baza danych Baza danych to: zbiór danych o określonej strukturze, zapisany na zewnętrznym nośniku (najczęściej dysku twardym komputera), mogący zaspokoić potrzeby wielu użytkowników korzystających z niego
Bazy danych Wykład zerowy. P. F. Góra
Bazy danych Wykład zerowy P. F. Góra http://th-www.if.uj.edu.pl/zfs/gora/ 2012 Patron? Św. Izydor z Sewilli (VI wiek), biskup, patron Internetu (sic!), stworzył pierwszy katalog Copyright c 2011-12 P.
Statystyki (1) Optymalizacja poleceń SQL Część 2. Statystyki (2) Statystyki (3) Informacje, opisujące dane i struktury obiektów bazy danych.
Statystyki (1) Informacje, opisujące dane i struktury obiektów bazy danych. Optymalizacja poleceń SQL Część 2. Statystyki i histogramy, metody dostępu do danych Przechowywane w słowniku danych. Używane
Haszowanie (adresowanie rozpraszające, mieszające)
Haszowanie (adresowanie rozpraszające, mieszające) Tadeusz Pankowski H. Garcia-Molina, J.D. Ullman, J. Widom, Implementacja systemów baz danych, WNT, Warszawa, Haszowanie W adresowaniu haszującym wyróżniamy
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty
Statystyka w analizie i planowaniu eksperymentu
22 marca 2011 Przestrzeń statystyczna - podstawowe zadania statystyki Zdarzeniom losowym określonym na pewnej przestrzeni zdarzeń elementarnych Ω można zazwyczaj na wiele różnych sposobów przypisać jakieś
Oracle11g: Wprowadzenie do SQL
Oracle11g: Wprowadzenie do SQL OPIS: Kurs ten oferuje uczestnikom wprowadzenie do technologii bazy Oracle11g, koncepcji bazy relacyjnej i efektywnego języka programowania o nazwie SQL. Kurs dostarczy twórcom
SYSTEM DIAGNOSTYCZNY OPARTY NA LOGICE DOMNIEMAŃ. Ewa Madalińska. na podstawie prac:
SYSTEM DIAGNOSTYCZNY OPARTY NA LOGICE DOMNIEMAŃ Ewa Madalińska na podstawie prac: [1] Lukaszewicz,W. (1988) Considerations on Default Logic: An Alternative Approach. Computational Intelligence, 44[1],
Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska
Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr letni 2006/07 Plan wykładu Systemy baz
WPROWADZENIE DO BAZ DANYCH
WPROWADZENIE DO BAZ DANYCH Pojęcie danych i baz danych Dane to wszystkie informacje jakie przechowujemy, aby w każdej chwili mieć do nich dostęp. Baza danych (data base) to uporządkowany zbiór danych z
Wykład XII. optymalizacja w relacyjnych bazach danych
Optymalizacja wyznaczenie spośród dopuszczalnych rozwiązań danego problemu, rozwiązania najlepszego ze względu na przyjęte kryterium jakości ( np. koszt, zysk, niezawodność ) optymalizacja w relacyjnych
Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu
Data Mining Wykład 3 Algorytmy odkrywania binarnych reguł asocjacyjnych Plan wykładu Algorytm Apriori Funkcja apriori_gen(ck) Generacja zbiorów kandydujących Generacja reguł Efektywności działania Własności
Algorytm DIC. Dynamic Itemset Counting. Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek
Algorytm DIC Dynamic Itemset Counting Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek Spis treści 1 2 3 4 Algorytm DIC jako rozszerzenie apriori DIC Algorytm znajdowania reguł asocjacyjnych
Tabela wewnętrzna - definicja
ABAP/4 Tabela wewnętrzna - definicja Temporalna tabela przechowywana w pamięci operacyjnej serwera aplikacji Tworzona, wypełniana i modyfikowana jest przez program podczas jego wykonywania i usuwana, gdy
Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych
Wyk lad 7: Drzewa decyzyjne dla dużych zbiorów danych Funkcja rekurencyjna buduj drzewo(u, dec, T): 1: if (kryterium stopu(u, dec) = true) then 2: T.etykieta = kategoria(u, dec); 3: return; 4: end if 5:
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING EKSPLORACJA DANYCH Ćwiczenia Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
STROJENIE BAZ DANYCH: INDEKSY. Cezary Ołtuszyk coltuszyk.wordpress.com
STROJENIE BAZ DANYCH: INDEKSY Cezary Ołtuszyk coltuszyk.wordpress.com Plan spotkania I. Wprowadzenie do strojenia baz danych II. III. IV. Mierzenie wydajności Jak SQL Server przechowuje i czyta dane? Budowa
Skalowalność obliczeń równoległych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1
Skalowalność obliczeń równoległych Krzysztof Banaś Obliczenia Wysokiej Wydajności 1 Skalowalność Przy rozważaniu wydajności przetwarzania (obliczeń, komunikacji itp.) często pojawia się pojęcie skalowalności
Modelowanie hierarchicznych struktur w relacyjnych bazach danych
Modelowanie hierarchicznych struktur w relacyjnych bazach danych Wiktor Warmus (wiktorwarmus@gmail.com) Kamil Witecki (kamil@witecki.net.pl) 5 maja 2010 Motywacje Teoria relacyjnych baz danych Do czego
Operacje na plikach. Organizacja systemu plików. Typy plików. Struktury plików. Pliki indeksowane. Struktura wewn etrzna
Organizacja systemu plików organizacja logiczna pliku: rekordy o sta lej lub zmiennej d lugości np. w systemie Unix typowo pliki zorganizowane sa jako sekwencje bajtów, zatem sa to rekordy o sta lej d
Wyk lad 8 macierzy i twierdzenie Kroneckera-Capellego
Wyk lad 8 Rzad macierzy i twierdzenie Kroneckera-Capellego 1 Określenie rz edu macierzy Niech A bedzie m n - macierza Wówczas wiersze macierzy A możemy w naturalny sposób traktować jako wektory przestrzeni
REGU LY ASOCJACYJNE. Nguyen Hung Son. Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski. 28.II i 6.III, 2008
REGU LY ASOCJACYJNE Nguyen Hung Son Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski 28.II i 6.III, 2008 Nguyen Hung Son (MIMUW) W2 28.II i 6.III, 2008 1 / 38 Outline 1 Dane transakcyjne
Sortowanie zewnętrzne
Algorytmy i struktury danych Instytut Sterowania i Systemów Informatycznych Wydział Elektrotechniki, Informatyki i Telekomunikacji Uniwersytet Zielonogórski Sortowanie zewnętrzne 1 Wstęp Bardzo często
Uniwersytet Zielonogórski Instytut Sterowania i Systemów Informatycznych. Algorytmy i struktury danych Laboratorium Nr 4
Uniwersytet Zielonogórski Instytut Sterowania i Systemów Informatycznych Algorytmy i struktury danych Laboratorium Nr 4 Algorytmy sortowania zewnętrznego 1 Wstęp Bardzo często przy rozwiązywaniu praktycznych
Statystyka w analizie i planowaniu eksperymentu
5 marca 2011 Zasady 10 wyk ladów; egzamin pisemny; Literatura 1 A. Lomnicki Wprowadzenie do statystyki dla przyrodników PWN 1999. 2 W. Krysicki, J. Bartos, W. Dyczka, K. Królikowska, M. Wasilewski Rachunek
REGU LY ASOCJACYJNE. Nguyen Hung Son. 25 lutego i 04 marca Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski.
REGU LY ASOCJACYJNE Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski 25 lutego i 04 marca 2005 Outline 1 2 3 regu l asocjacyjnych 4 5 Motywacje Lista autorów (items) A Jane Austen C
Wyk lad 4 Dzia lania na macierzach. Określenie wyznacznika
Wyk lad 4 Dzia lania na macierzach Określenie wyznacznika 1 Określenie macierzy Niech K bedzie dowolnym cia lem oraz niech n i m bed a dowolnymi liczbami naturalnymi Prostokatn a tablice a 11 a 12 a 1n
Analiza zrekonstruowanych śladów w danych pp 13 TeV
Analiza zrekonstruowanych śladów w danych pp 13 TeV Odtwarzanie rozk ladów za pomoc a danych Monte Carlo Jakub Cholewiński, pod opiek a dr hab. Krzysztofa Woźniaka 31 lipca 2015 r. Jakub Cholewiński, pod
Metody eksploracji danych. Reguły asocjacyjne
Metody eksploracji danych Reguły asocjacyjne Analiza podobieństw i koszyka sklepowego Analiza podobieństw jest badaniem atrybutów lub cech, które są powiązane ze sobą. Metody analizy podobieństw, znane
PARTYCJONOWANIE GRAFÓW A OPTYMALIZACJA WYKONANIA ZBIORU ZAPYTAŃ EKSPLORACYJNYCH
PARTYCJONOWANIE GRAFÓW A OPTYMALIZACJA WYKONANIA ZBIORU ZAPYTAŃ EKSPLORACYJNYCH Marek Wojciechowski, Maciej Zakrzewicz Politechnika Poznańska, Wydział Informatyki i Zarządzania {marek, mzakrz}@cs.put.poznan.pl
System plików warstwa fizyczna
System plików warstwa fizyczna Dariusz Wawrzyniak Przydział miejsca na dysku Przydział ciągły (ang. contiguous allocation) cały plik zajmuje ciąg kolejnych bloków Przydział listowy (łańcuchowy, ang. linked
System plików warstwa fizyczna
System plików warstwa fizyczna Dariusz Wawrzyniak Plan wykładu Przydział miejsca na dysku Zarządzanie wolną przestrzenią Implementacja katalogu Przechowywanie podręczne Integralność systemu plików Semantyka
System plików warstwa fizyczna
System plików warstwa fizyczna Dariusz Wawrzyniak Przydział miejsca na dysku Zarządzanie wolną przestrzenią Implementacja katalogu Przechowywanie podręczne Integralność systemu plików Semantyka spójności
Organizacja systemu plików
Organizacja systemu plików organizacja logiczna pliku: rekordy o sta lej lub zmiennej d lugości np. w systemie Unix typowo pliki zorganizowane sa jako sekwencje bajtów, zatem sa to rekordy o sta lej d
Ewelina Dziura Krzysztof Maryański
Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład
Optymalizacja poleceń SQL
Optymalizacja poleceń SQL Przetwarzanie polecenia SQL użytkownik polecenie PARSER słownik REGUŁOWY RBO plan zapytania RODZAJ OPTYMALIZATORA? GENERATOR KROTEK plan wykonania statystyki KOSZTOWY CBO plan
OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI
Autoreferat do rozprawy doktorskiej OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Michał Mazur Gliwice 2016 1 2 Montaż samochodów na linii w
77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego.
77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego. Przy modelowaniu bazy danych możemy wyróżnić następujące typy połączeń relacyjnych: jeden do wielu, jeden do jednego, wiele
Materializowane perspektywy eksploracyjne w praktyce: Wnioski z implementacji w Oracle 11g
XVI Konferencja PLOUG Kościelisko Październik 2010 Materializowane perspektywy eksploracyjne w praktyce: Wnioski z implementacji w Oracle 11g Damian Mierzwiński, Marek Wojciechowski Politechnika Poznańska
Indeks odwzorowania zmiennej zespolonej wzgl. krzywej zamknietej
Indeks odwzorowania zmiennej zespolonej wzgl edem krzywej zamkni etej 1. Liczby zespolone - konstrukcja Hamiltona 2. Homotopia odwzorowań na okr egu 3. Indeks odwzorowania ciag lego wzgledem krzywej zamknietej
Optymalizacja poleceń SQL Wprowadzenie
Optymalizacja poleceń SQL Wprowadzenie 1 Fazy przetwarzania polecenia SQL 2 Faza parsingu (1) Krok 1. Test składniowy weryfikacja poprawności składniowej polecenia SQL. Krok 2. Test semantyczny m.in. weryfikacja
Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle
Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,
Algorytmy i struktury danych. Wykład 4 Tablice nieporządkowane i uporządkowane
Algorytmy i struktury danych Wykład 4 Tablice nieporządkowane i uporządkowane Tablice uporządkowane Szukanie binarne Szukanie interpolacyjne Tablice uporządkowane Szukanie binarne O(log N) Szukanie interpolacyjne
XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery
http://xqtav.sourceforge.net XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery dr hab. Jerzy Tyszkiewicz dr Andrzej Kierzek mgr Jacek Sroka Grzegorz Kaczor praca mgr pod
ep do matematyki aktuarialnej Micha l Jasiczak Wyk lad 3 Tablice trwania życia 2
Wst ep do matematyki aktuarialnej Micha l Jasiczak Wyk lad 3 Tablice trwania życia 2 1 Przypomnienie Jesteśmy już w stanie wyznaczyć tp x = l x+t l x, gdzie l x, l x+t, to liczebności kohorty odpowiednio
Ćwiczenie 5. Metody eksploracji danych
Ćwiczenie 5. Metody eksploracji danych Reguły asocjacyjne (association rules) Badaniem atrybutów lub cech, które są powiązane ze sobą, zajmuje się analiza podobieństw (ang. affinity analysis). Metody analizy
Teoretyczne podstawy informatyki
Teoretyczne podstawy informatyki Wykład 8b: Algebra relacyjna http://hibiscus.if.uj.edu.pl/~erichter/dydaktyka2009/tpi-2009 Prof. dr hab. Elżbieta Richter-Wąs 1 Algebra relacyjna Algebra relacyjna (ang.
Wyk lad 14 Cia la i ich w lasności
Wyk lad 4 Cia la i ich w lasności Charakterystyka cia la Określenie cia la i w lasności dzia lań w ciele y ly omówione na algerze liniowej. Stosujac terminologie z teorii pierścieni możemy powiedzieć,
Wyk lad 4 Macierz odwrotna i twierdzenie Cramera
Wyk lad 4 Macierz odwrotna i twierdzenie Cramera 1 Odwracanie macierzy I n jest elementem neutralnym mnożenia macierzy w zbiorze M n (R) tzn A I n I n A A dla dowolnej macierzy A M n (R) Ponadto z twierdzenia
Plan wykładu. Klucz wyszukiwania. Pojęcie indeksu BAZY DANYCH. Pojęcie indeksu - rodzaje indeksów Metody implementacji indeksów.
Plan wykładu 2 BAZY DANYCH Wykład 4: Indeksy. Pojęcie indeksu - rodzaje indeksów Metody implementacji indeksów struktury statyczne struktury dynamiczne Małgorzata Krętowska Wydział Informatyki PB Pojęcie
Systemy GIS Tworzenie zapytań w bazach danych
Systemy GIS Tworzenie zapytań w bazach danych Wykład nr 6 Analizy danych w systemach GIS Jak pytać bazę danych, żeby otrzymać sensowną odpowiedź......czyli podstawy języka SQL INSERT, SELECT, DROP, UPDATE
STYSTYSTYKA dla ZOM II dr inż Krzysztof Bryś Wykad 1
1 STYSTYSTYKA dla ZOM II dr inż Krzysztof Bryś Wykad 1 Klasyczny Rachunek Prawdopodobieństwa. 1. Pojȩcia wstȩpne. Doświadczeniem losowym nazywamy doświadczenie, którego wynik nie jest znany. Posiadamy
Definicja pliku kratowego
Pliki kratowe Definicja pliku kratowego Plik kratowy (ang grid file) jest strukturą wspierająca realizację zapytań wielowymiarowych Uporządkowanie rekordów, zawierających dane wielowymiarowe w pliku kratowym,
Wyk lad 9 Baza i wymiar przestrzeni liniowej
Wyk lad 9 Baza i wymiar liniowej Baza liniowej Niech V bedzie nad cia lem K Powiemy, że zbiór wektorów {α,, α n } jest baza V, jeżeli wektory α,, α n sa liniowo niezależne oraz generuja V tzn V = L(α,,
Wprowadzenie do baz danych
Wprowadzenie do baz danych Dr inż. Szczepan Paszkiel szczepanpaszkiel@o2.pl Katedra Inżynierii Biomedycznej Politechnika Opolska Wprowadzenie DBMS Database Managment System, System za pomocą którego można
Wyk lad 2 Podgrupa grupy
Wyk lad 2 Podgrupa grupy Definicja 2.1. Pod grupy (G,, e) nazywamy taki podzbiór H G, że e H, h 1 H dla każdego h H oraz h 1 h 2 H dla dowolnych h 1, h 2 H. Jeśli H jest grupy G, to bedziemy pisali H G.
Paradygmaty programowania
Paradygmaty programowania Programowanie generyczne w C++ Dr inż. Andrzej Grosser Cz estochowa, 2016 2 Spis treści 1. Zadanie 3 5 1.1. Wprowadzenie.................................. 5 1.2. Obiekty funkcyjne................................
Wyk lad 5 W lasności wyznaczników. Macierz odwrotna
Wyk lad 5 W lasności wyznaczników Macierz odwrotna 1 Operacje elementarne na macierzach Bardzo ważne znaczenie w algebrze liniowej odgrywaja tzw operacje elementarne na wierszach lub kolumnach macierzy
METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI
METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI CELE PROJEKTU Transformacja dowolnej bazy danych w min. 3 postaci normalnej do postaci Asocjacyjnej Grafowej
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
PRZESTRZENNE BAZY DANYCH WYKŁAD 2
PRZESTRZENNE BAZY DANYCH WYKŁAD 2 Baza danych to zbiór plików, które fizycznie przechowują dane oraz system, który nimi zarządza (DBMS, ang. Database Management System). Zadaniem DBMS jest prawidłowe przechowywanie
MECHANIZM PERSPEKTYW MATERIALIZOWANYCH W EKSPLORACJI DANYCH
MECHANIZM PERSPEKTYW MATERIALIZOWANYCH W EKSPLORACJI DANYCH Mikołaj MORZY, Marek WOJCIECHOWSKI Streszczenie: Eksploracja danych to proces interaktywny i iteracyjny. Użytkownik definiuje zbiór interesujących
Bazy danych wykład dwunasty. dwunasty Wykonywanie i optymalizacja zapytań SQL 1 / 36
Bazy danych wykład dwunasty Wykonywanie i optymalizacja zapytań SQL Konrad Zdanowski Uniwersytet Kardynała Stefana Wyszyńskiego, Warszawa dwunasty Wykonywanie i optymalizacja zapytań SQL 1 / 36 Model kosztów
Wyk lad 9 Podpierścienie, elementy odwracalne, dzielniki zera
Wyk lad 9 Podpierścienie, elementy odwracalne, dzielniki zera Określenie podpierścienia Definicja 9.. Podpierścieniem pierścienia (P, +,, 0, ) nazywamy taki podzbiór A P, który jest pierścieniem ze wzgledu
Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych
Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2014/15 Znajdowanie maksimum w zbiorze
EGZAMIN MATURALNY W ROKU SZKOLNYM 2017/2018 INFORMATYKA
EGZAMIN MATURALNY W ROKU SZKOLNYM 2017/2018 INFORMATYKA POZIOM ROZSZERZONY FORMUŁA OD 2015 ( NOWA MATURA ) ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ MIN-R1,R2 MAJ 2018 Uwaga: Akceptowane są wszystkie odpowiedzi
wykład Organizacja plików Opracował: dr inż. Janusz DUDCZYK
wykład Organizacja plików Opracował: dr inż. Janusz DUDCZYK 1 2 3 Pamięć zewnętrzna Pamięć zewnętrzna organizacja plikowa. Pamięć operacyjna organizacja blokowa. 4 Bufory bazy danych. STRUKTURA PROSTA
Informacje wstępne Autor Zofia Kruczkiewicz Wzorce oprogramowania 4
Utrwalanie danych zastosowanie obiektowego modelu danych warstwy biznesowej do generowania schematu relacyjnej bazy danych Informacje wstępne Autor Zofia Kruczkiewicz Wzorce oprogramowania 4 1. Relacyjne
Rachunek zdań - semantyka. Wartościowanie. ezyków formalnych. Semantyka j. Logika obliczeniowa. Joanna Józefowska. Poznań, rok akademicki 2009/2010
Logika obliczeniowa Instytut Informatyki Poznań, rok akademicki 2009/2010 1 formu l rachunku zdań Wartościowanie i sta le logiczne Logiczna równoważność 2 Model formu ly Formu la spe lniona Formu la spe
Tablice i funkcje. Marcin Makowski. 26 listopada Zak lad Chemii Teoretycznej UJ
Zak lad Chemii Teoretycznej UJ 26 listopada 2007 wielowymiarowe 1 2 wielowymiarowe 3 Typ tablicowy Plan wielowymiarowe Tablica Zajmujacy spójny obszar w pamieci zestaw zmiennych (obiektów) tego samego
Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania
Przedmiot: Bazy danych Rok: III Semestr: V Rodzaj zajęć i liczba godzin: Studia stacjonarne Studia niestacjonarne Wykład 30 21 Ćwiczenia Laboratorium 30 21 Projekt Liczba punktów ECTS: 4 C1 C2 C3 Cel przedmiotu
STATYSTYKA MATEMATYCZNA dla ZPM I dr inż Krzysztof Bryś wyk lad 1,2 KLASYCZNY RACHUNEK PRAWDOPODOBIEŃSTWA
1 STATYSTYKA MATEMATYCZNA dla ZPM I dr inż Krzysztof Bryś wyk lad 1,2 KLASYCZNY RACHUNEK PRAWDOPODOBIEŃSTWA 1. Pojȩcia wstȩpne. Doświadczeniem losowym nazywamy doświadczenie, którego wynik nie jest znany.
Wyk lad 3 Wyznaczniki
1 Określenie wyznacznika Wyk lad 3 Wyznaczniki Niech A bedzie macierza kwadratowa stopnia n > 1 i niech i, j bed a liczbami naturalnymi n Symbolem A ij oznaczać bedziemy macierz kwadratowa stopnia n 1
ang. file) Pojęcie pliku (ang( Typy plików Atrybuty pliku Fragmentacja wewnętrzna w systemie plików Struktura pliku
System plików 1. Pojęcie pliku 2. Typy i struktury plików 3. etody dostępu do plików 4. Katalogi 5. Budowa systemu plików Pojęcie pliku (ang( ang. file)! Plik jest abstrakcyjnym obrazem informacji gromadzonej
Zaawansowane algorytmy i struktury danych
Zaawansowane algorytmy i struktury danych u dr Barbary Marszał-Paszek Opracowanie pytań teoretycznych z egzaminów. Strona 1 z 12 Pytania teoretyczne z egzaminu pisemnego z 25 czerwca 2014 (studia dzienne)
OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA
OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 16.01.2003 Algorytmy i Struktury Danych PIŁA ALGORYTMY ZACHŁANNE czas [ms] Porównanie Algorytmów Rozwiązyjących problem TSP 100 000 000 000,000 10 000 000
Wyk lad 3 Wielomiany i u lamki proste
Wyk lad 3 Wielomiany i u lamki proste 1 Konstrukcja pierścienia wielomianów Niech P bedzie dowolnym pierścieniem, w którym 0 1. Oznaczmy przez P [x] zbiór wszystkich nieskończonych ciagów o wszystkich
SQL SERVER 2012 i nie tylko:
SQL SERVER 2012 i nie tylko: Wstęp do planów zapytań Cezary Ołtuszyk coltuszyk.wordpress.com Kilka słów o mnie Starszy Administrator Baz Danych w firmie BEST S.A. (Bazy danych > 1TB) Konsultant z zakresu
Zastosowanie Robotów. Ćwiczenie 6. Mariusz Janusz-Bielecki. laboratorium
Zastosowanie Robotów laboratorium Ćwiczenie 6 Mariusz Janusz-Bielecki Zak lad Informatyki i Robotyki Wersja 0.002.01, 7 Listopada, 2005 Wst ep Do zadań inżynierów robotyków należa wszelkie dzia lania
Bazy danych. Plan wykładu. Model logiczny i fizyczny. Operacje na pliku. Dyski. Mechanizmy składowania
Plan wykładu Bazy danych Wykład 10: Fizyczna organizacja danych w bazie danych Model logiczny i model fizyczny Mechanizmy składowania plików Moduł zarządzania miejscem na dysku i moduł zarządzania buforami
Architektura komputerów
Architektura komputerów Wykład 7 Jan Kazimirski 1 Pamięć podręczna 2 Pamięć komputera - charakterystyka Położenie Procesor rejestry, pamięć podręczna Pamięć wewnętrzna pamięć podręczna, główna Pamięć zewnętrzna
opisuje nazwy kolumn, wyrażenia arytmetyczne, funkcje nazwy tabel lub widoków warunek (wybieranie wierszy)
Zapytania SQL. Polecenie SELECT jest używane do pobierania danych z bazy danych (z tabel lub widoków). Struktura polecenia SELECT SELECT FROM WHERE opisuje nazwy kolumn, wyrażenia arytmetyczne, funkcje
WYMAGANIA EDUKACYJNE Z INFORMATYKI dla klasy III gimnazjalnej, Szkoły Podstawowej w Rychtalu
WYMAGANIA EDUKACYJNE Z INFORMATYKI dla klasy III gimnazjalnej, Szkoły Podstawowej w Rychtalu 1 Algorytmika i programowanie Rozwiązywanie problemów i podejmowanie decyzji z wykorzystaniem komputera, stosowanie
PODSTAWY BAZ DANYCH Wykład 6 4. Metody Implementacji Baz Danych
PODSTAWY BAZ DANYCH Wykład 6 4. Metody Implementacji Baz Danych 2005/2006 Wykład "Podstawy baz danych" 1 Statyczny model pamiętania bazy danych 1. Dane przechowywane są w pamięci zewnętrznej podzielonej