Projektowanie warstwy danych

Jarosław Kuchta Internetowych Projektowanie warstwy danych qhta@eti.pg.gda.pl J.Kuchta@eti.pg.gda.pl

Zagadnienia Sposoby zapisu danych zewnętrznych Odwzorowanie dziedziny problemu w dziedzinę danych Normalizacja relacyjnej bazy danych Optymalizacja relacyjnej bazy danych dla przechowywania obiektów Wykorzystanie indeksów w relacyjnej bazie danych Szacowanie rozmiaru relacyjnej bazy danych Problemy synchronizacji w rozproszonej bazie danych 2/30

Pliki Sposoby zapisu danych Pliki sekwencyjne Nieuporządkowane Uporządkowane Pliki swobodnego dostępu Bazy danych Relacyjne Relacyjno-Obiektowe Obiektowe 3/30

Zalety i wady zapisu w plikach Zalety Elastyczność związana z zastosowaniem obiektowego języka programowania Dowolność typów i formatów danych Duża wydajność odczytu/zapisu Brak konieczności zakupu systemu bazy danych Wady Redundancja danych Brak zewnętrznego mechanizmu modyfikacji struktury danych (konieczność pisania specjalnych programów) Brak mechanizmu kontroli dostępu do danych 4/30

Zastosowanie plików Pliki konfiguracyjne (config files) Pliki przeglądowe (look-up files) Pliki transakcyjne (transact files) Pliki kontrolne (audit files, log files) Pliki archiwalne (history files, archive files) 5/30

Zastosowanie systemu bazy danych (DBMS) Systemy transakcyjne Systemy wspierania decyzji Systemy informowania kierownictwa Systemy eksperckie 6/30

Rodzaje systemów baz danych RDBMS - Relational Database Management System ORDBMS - Object-relational Database Management System OODBMS - Object Oriented Database Managemend System 7/30

Zalety i wady RDBMS Zalety Szybkie wyszukiwanie danych Standardowy język dostępu do danych (SQL) Kontrola spójności danych Łatwość modyfikacji struktury danych Dobrze sprawdzone systemy na rynku Kontrola dostępu do danych Łatwość współdzielenia struktury danych Wady Brak możliwości obsługi złożonych typów danych (dodawane w niektórych RDBMS) Niecałkowita zgodność podstawowych typów danych z OOPL Brak wsparcia dla zapisu danych obiektowych 8/30

Zalety i wady ORDBMS Zalety Możliwości obsługi złożonych typów danych Zbudowane na SQL Kontrola spójności danych Łatwość modyfikacji struktury danych Kontrola dostępu do danych Łatwość współdzielenia struktury danych Wady Niecałkowita zgodność podstawowych typów danych z OOPL Ograniczone wsparcie dla zapisu danych obiektowych 9/30

Zalety i wady OODBMS Zalety Możliwości obsługi złożonych typów danych Bezpośrednie wsparcie dla zapisu danych obiektowych Kontrola spójności danych Łatwość modyfikacji struktury danych Kontrola dostępu do danych Łatwość współdzielenia struktury danych Wady Brak uznanego standardu Konieczność dopasowania OODBMS do OOPL Niedojrzałość narzędzi 10/30

Odwzorowanie klas PD w DM Warstwa PD w OODBMS Klient Zamówienie Warstwa DM DMKlient DMZamówienie 11/30

Problem dziedziczenia wielokrotnego NadklasaA -atrybuta1 -atrybuta2 NadklasaB -atrybutb1 -atrybutb2 KlasaC -atrybutc1 -atrybutc2 12/30

Rozwiązanie a) NadklasaA -atrybuta1 -atrybuta2 Utworzyć instancję dodatkowej nadklasy w warstwie DM i dodać atrybut, który połączy instancję nadklasy z instancją podklasy. KlasaC -atrybutc1 -atrybutc2 -NadklasaB 1 1 NadklasaB -atrybutb1 -atrybutb2 13/30

Rozwiązanie b) NadklasaA -atrybuta1 -atrybuta2 Spłaszczyć hierarchię dziedziczenia w warstwie DM przez skopiowanie atrybutów i metod nadklas do podklas. KlasaC -atrybutb1 -atrybutb2 -atrybutc1 -atrybutc2 14/30

Odwzorowanie klas PD w DM w ORDBMS (założenia) ORDBMS obsługuje: identyfikator obiektu (OID) kolumny wielowartościowe (np. tel[*]: string) procedury przechowywane ORDBMS nie obsługuje: żadnego rodzaju dziedziczenia kolumn złożonych 15/30

Odwzorowanie klas PD w DM w ORDBMS PD DM ORDBMS klasa klasa tabela atrybut jednowartościowy metody dostępu kolumna atrybut pochodny metoda dostępu procedura przechowywana asocjacja pojedyncza metody dostępu kolumna typu OID atrybut wielowartościowy metody dostępu kolumna wielowartościowa atrybut złożony metody dostępu nowa tabela + relacja jedenwiele asocjacja jeden-wiele metody dostępu kolumna wielowartościowa typu OID asocjacja wielostronna metody dostępu kolumna wielowartościowa typu OID po każdej ze stron 16/30

Rozwiązanie problemu dziedziczenia w ORDBMS Kolumna zawierająca OID instancji przechowywanej w tablicy reprezentującej nadklasę. Spłaszczenie hierarchii dziedziczenia 17/30

Odwzorowanie klas PD w DM Warstwa PD w ORDBMS przykład Osoba Imię: string Nazwisko: string Klient Adres: (Kod, Miejscowość, Ulica) Tel[*]: string NIP: string Warstwa DM DMOsoba DMKlient «table» DTOsoba «table» DTKlient «table» DTAdres 18/30

Struktura klas DM w ORDBMS - przykład DMOsoba Get Osoba() Set Osoba() DMKlient Get Klient() Set Klient() «table» DTOsoba Imię: string Nazwisko: string Osoba «table» DTKlient Adres: OID Tel[*]: string NIP: string Osoba: OID Adres * «table» DTAdres Kod: string Miejscowość: string Ulica: string 19/30

Odwzorowanie klas PD w DM RDBMS obsługuje: w RDBMS (założenia) automatyczny identyfikator rekordu (ID) procedury przechowywane RDBMS nie obsługuje: żadnego rodzaju dziedziczenia kolumn wielowartościowych kolumn złożonych Założenia dodatkowe: kolumny - klucze są typu integer (32-bitowe) kolumna automatycznie ustawiana przez RDBMS jest oznaczana zastrzeżeniem {autoset} kolumna z kluczem własnym jest oznaczana zastrzeżeniem {PK} kolumna z kluczem obcym jest oznaczana zastrzeżeniem {FK} 20/30

Odwzorowanie klas PD w DM w RDBMS PD DM RDBMS klasa klasa tabela + kolumna ID: integer {autoset, PK} atrybut jednowartościowy metody dostępu kolumna atrybut pochodny metoda dostępu procedura przechowywana asocjacja pojedyncza metody dostępu kolumna typu integer {FK} + relacja jeden-jeden atrybut wielowartościowy metody dostępu nowa tabela + relacja jeden-wiele atrybut złożony metody dostępu nowa tabela + relacja jeden-wiele asocjacja jeden-wiele metody dostępu kolumna typu integer {FK} + relacja jeden-wiele asocjacja wielostronna metody dostępu nowa tabela z kolumnami typu integer {FK} + relacje jedenwiele 21/30

Struktura klas DM w RDBMS - przykład «table» DTOsoba DMOsoba Get Osoba() Set Osoba() ID: integer {autoset, PK} Imię: string Nazwisko: string Osoba 1 1 DMKlient Get Klient() Set Klient() «table» DTKlient ID: integer {autoset, PK} NIP: string Osoba: integer {FK} 1 Klient 1 Klient 1 * «table» DTAdres ID: integer {autoset, PK} Klient: integer {FK} Kod: string Miejscowość: string Ulica: string «table» DTTel ID: integer {autoset, PK} Klient: integer {FK} Tel: string 22/30

Optymalizacja obiektu w RDBMS Optymalizacja wydajności (normalizacja) Optymalizacja szybkości (denormalizacja, indeksowanie) 23/30

Normalizacja 0NF Czy któraś tablica zawiera powtarzające się pola? Czy pewne rekordy mają różną liczbę kolumn od innych rekordów? Usuń powtarzające się lub nadmiarowe pola. Stwórz nową tablicę, która będzie przechowywała usunięte dane. Skopiuj PK nowej tablicy do poprzedniej tablicy jako FK 1NF Czy PK jest tworzony z więcej niż jednego pola? Jeśli tak, to czy są pola zależne tylko od części PK? Usuń częściową zależność. Dodaj nową tablicę, która będzie zawierała pola, które były częściowo zależne. Skopiuj PK nowej tablicy do poprzedniej tablicy jako FK. 2NF Czy są pola zależne od innego drugoplanowego pola kluczowego? Usuń zależnośc przechodnią Dodaj nową tablicę, która będzie zawierała usunięte pola. Skopiuj PK nowej tablicy do poprzedniej tablicy jako FK 3NF 24/30

Denormalizacja Tablice przeglądowe (look-up tables) Relacje jeden-jeden Relacje jeden-wiele 25/30

Indeksowanie - zasady Dla każdej tablicy tworzy się indeks unikalny w oparciu o PK. Dla każdej tablicy tworzy się indeksy w oparciu o FK. Dodatkowe indeksy tworzy się dla pól często wykorzystywanych przy grupowaniu, sortowaniu lub wyszukiwaniu rekordów. W systemie transakcyjnym rzadko stosuje się dodatkowe indeksy. W systemach decyzyjnych tworzy się wiele indeksów. 26/30

Indeksowanie - prezentacja Zastrzeżenia {index} indeks nie zapewniający unikatowości {unique} indeks zapewniający unikatowość {not null} kolumna nie dopuszcza wartości pustej Przedział indexes nazwisko-i-imię = nazwisko + imię {unique, not null} 27/30

Szacowanie rozmiaru bazy danych Średni rozmiar rekordu = Suma średniego rozmiaru pól. Średni rozmiar pól tekstowych - szacowanie Szacowanie liczby rekordów Narzut DBMS Przyrost miesięczny/roczny 28/30

Problemy z rozproszoną bazą danych Centralna baza danych lokalne repliki bazy danych Synchronizacja okresowa Konflikty synchronizacji: konflikt blokowania konflikt klucza unikatowego konflikt klucza obcego konflikt poprawności na poziomie tabeli konflikt naruszenia więzów integralności konflikt wielkości liter i porządków sortowania 29/30

Literatura Dennis A., Wixom B.H., Tegarden D., Systems Analysis & Design. An Object-Oriented Approach with UML, John Wiley and Sons, USA, 2002 30/30