Bazy danych 3. Zależności funkcyjne Normalizacja relacyjnych baz danych

Bazy danych 3. Zależności funkcyjne Normalizacja relacyjnych baz danych P. F. Góra http://th-www.if.uj.edu.pl/zfs/gora/ 2017/18

Zależności funkcyjne (ang. functional dependencies) to jedno z najważniejszych pojęć teoretycznych w relacyjnym modelu baz danych. Definicja. Niech A 1, A 2,..., A n, B 1, B 2,..., B m, C 1, C 2,... będa atrybutami pewnej tabeli R. Oznaczmy X = {A 1, A 2,..., A n }, Y = B 1, B 2,..., B m }, Z = {C 1, C 2,... }. Mówimy, że zbiór atrybutów Y zależy funkcyjnie od zbioru atrybutów X wtedy i tylko wtedy, gdy każda ustalona wartość X jest jednoznacznie powiazana z dokładnie jedna wartościa Y. Zależności funkcyjne zapisujemy w postaci lub w skrócie A 1, A 2,..., A n B 1, B 2,..., B m X Y Copyright c 2010-17 P. F. Góra 3 2

Alternatywnie możemy powiedzieć, że wynik rzutowania określa Y jako funkcję X. π X,Y (R) Alternatywnie, jeżeli dwie krotki w tabeli R sa zgodne w atrybutach A 1,..., A n musza być zgodne w atrybutach B 1, B 2,..., B m. Copyright c 2010-17 P. F. Góra 3 3

X Y X Y Z x y z 1 x y z 2 jeżeli sa zgodne tutaj...... to musza być zgodne tutaj Na przykład spodziewamy się, że w osobowej bazie danych obowiazuje zależność funkcyjna PESEL Nazwisko. Jeżeli dwie krotki maja taki sam numer PESEL, musza odnosić się do osób majacych to samo Nazwisko. Zauważmy, że odwrotna zależnść funkcyjna w ogólności nie musi zachodzić. W powyższym przykładzie dwie osoby powiedzmy, matka i córka moga mieć to samo nazwisko, ale różne numery PESEL. Copyright c 2010-17 P. F. Góra 3 4

Zależności funkcyjne stanowia więz nałożony na dopuszczalne wartości danych (na przykład nie wolno stworzyć dwóch krotek o takich samych PESELach, ale różnych Nazwiskach). Zależności funkcyjne odkrywamy (lub arbitralnie narzucamy) w procesie analizy tego fragmentu rzeczywistości, który projektowana baza danych ma modelować. Zależności funkcyjne należa do schematu bazy. Zależności funkcyjne sa matematycznym modelem więzów jednoznaczności w modelu relacyjnym baz danych. O zależnościach funkcyjnych nie można wnioskować jedynie na podstawie instancji (faktycznych wystapień) tabel. Copyright c 2010-17 P. F. Góra 3 5

Zależności trywialne Zależność funkcyjna A 1, A 2,..., A n B nazywam trywialna, jeśli atrybut B jest równy któremuś atrybutowi A 1,2,...,n. Jeśli przyjmiemy skrótowy zapis zależności z wieloczłonowa prawa strona, zależność jest Trywialna, jeśli zbiór złożony z atrybutów B jest podzbiorem zbioru złożonego z atrybutów A Nietrywialna, jeśli co najmniej jeden B nie jest A Całkowicie nietrywialna, jeśli żadnen B nie jest A. Copyright c 2010-17 P. F. Góra 3 6

Reguły wnioskowania (aksjomaty Armstronga) zwrotność: Jeżeli {B 1, B 2,..., B m } {A 1, A 2,..., A n }, to A 1, A 2,..., A n B 1, B 2,..., B m. rozszerzenie: Jeżeli A 1, A 2,..., A n B 1, B 2,..., B m, to A 1, A 2,..., A n, C 1, C 2,..., C k B 1, B 2,..., B m, C 1, C 2,..., C k dla dowolnych C 1, C 2,..., C k. przechodniość: Jeżeli A 1, A 2,..., A n B 1, B 2,..., B m oraz B 1, B 2,..., B m C 1, C 2,..., C k, to A 1, A 2,..., A n C 1, C 2,..., C k. Copyright c 2010-17 P. F. Góra 3 7

Dodatkowe reguły wnioskowania Można udowodnić, że poniższe reguły wniokowania wynikaja wprost z aksjomatów Armstronga: Relacja zwrotna: X X Rozszerzanie: jeżeli X Y, wtedy X, Z Y Sumowanie: jeżeli X Y oraz X Z, wtedy X Y, Z Rozkład: jeżeli X Y oraz Z Y, to X Z Przechodniość: jeżeli X Y oraz Y Z, to X Z Pseudoprzechodniość: jeżeli X Y oraz Y, Z W, to X, Z W. Copyright c 2010-17 P. F. Góra 3 8

Domknięcia Niech {A 1, A 2,..., A n } będzie pewnym zbiorem atrybutów, S niech będzie zbiorem zależności funkcyjnych. Domknięciem zbioru {A 1, A 2,..., A n } nad S nazywamy taki zbiór atrybutów B, że jeśli jego elementy spełniaja wszystkie zależności funkcyjne z S, to spełniaja także zależność A 1, A 2,..., A n B, a zatem zależność A 1, A 2,..., A n B wynika z S. Domknięcie oznaczam cl{a 1, A 2,..., A n }. Mówiac niezbyt ściśle, domknięcie to zbiór wszystkich atrybutów determinowanych, w sensie zależności funkcyjnych, przez atrybuty zbioru wyjściowego. Copyright c 2010-17 P. F. Góra 3 9

Algorytm obliczania domknięcia 1. Na poczatku X oznacza zbiór {A 1, A 2,..., A n }. 2. Znajdujemy wszystkie zależności funkcyjne postaci B 1, B 2,..., B m C, gdzie B i należa do X, a C nie należy. Dołaczamy C do X. 3. Powtarzamy krok 2 tak długo, jak długo do X można dołaczyć jakiś nowy atrybut. Ponieważ X może się tylko rozszerzać, zaś zbiór atrybutów jest skończony, po skończonej liczbie kroków nastapi moment, w którym do X nie da się niczego dołaczyć. 4. W tym momencie X = cl{a 1, A 2,..., A n }. Copyright c 2010-17 P. F. Góra 3 10

Powyżej przedstawiony algorytm jest poprawny i intuicyjnie prosty, ale nie jest efektywny może być algorytmem kwadratowym (w czasie) w najgorszym przypadku. Znacznie rozsadniej jest tak uporzadkować zależności funkcyjne, aby każda była używana ( odpalana ) dokładnie w tym momencie, w którym wszystkie atrybuty jej lewej strony znajda się w kandydacie X. Dla dużych baz (i tabel) domknięć nie oblicza się ręcznie! software, który to robi. Istnieje specjalny Copyright c 2010-17 P. F. Góra 3 11

Przykład Rozważmy zbiór atrybutów {A, B, C, D, E, F }. Załóżmy, że w tym zbiorze zachodza zależności A, B C, B, C A, D, D E, C, F B. Obliczmy cl{a, B}. X = {A, B}. Wszystkie atrybuty poprzednika zależności A, B C sa w X, więc do X dołaczamy C. X = {A, B, C}. Lewa strona zależności B, C A, D jest w X, A jest już w X, więc do X dołaczamy D. X = {A, B, C, D}. Na mocy zależności D E, dołaczamy do X atrybut E. X = {A, B, C, D, E}. Zleżności C, F B nie możemy wykorzystać, ponieważ F X i nie ma jak dołożyć F do X. Ostatecznie cl{a, B} = {A, B, C, D, E}. Copyright c 2010-17 P. F. Góra 3 12

Bazy zależności funkcyjnych Każdy zbiór zależności funkcyjnych pewnego zbioru atrybutów, z którego można wyprowadzić wszystkie inne zależności funkcyjne zachodzace pomiędzy elementami tego zbioru, nazywam baza zbioru zależności funkcyjnych. Jeśli żaden podzbiór bazy nie jest baza (nie umożliwia wyprowadzenia wszystkich relacji), bazę tę nazywam baza minimalna. Copyright c 2010-17 P. F. Góra 3 13

Przykład Mam atrybuty A, B, C i zależności A B, A C, B A, B C, C A, C B. Można teraz wyprowadzić zależności nietrywialne A, B C, A, C B, B, C A (oraz zależności trywialne). Baza minimalna jest zbiór {A B, B A, B C, C B}. Inna baza minimalna jest A B, B C, C A. Copyright c 2010-17 P. F. Góra 3 14

Pytanie: Po co jemy tę żabę?! Copyright c 2010-17 P. F. Góra 3 15

Klucze Mówimy, że zbiór atrybutów {A 1, A 2,..., A n } tworzy klucz pewnej tabeli, jeśli wszystkie pozostałe atrybuty z tej tabeli sa funkcyjnie zależne od wskazanego zbioru. Dwie różne krotki nie moga mieć tych samych kluczy (jeśli maja takie same klucze, musza mieć równe także pozostałe atrybuty, a zatem nie sa różne). Jeżeli przyjmujemy, że tabele sa zbiorami krotek w zabiorze każdy element występuje co najwyżej raz widzimy, że klucz jednoznacznie identyfikuje krotkę. Copyright c 2010-17 P. F. Góra 3 16

Klucz o tej własności, że żaden jego podziór właściwy nie jest kluczem, nazywamy kluczem minimalnym. Terminologia alternatywna: W niej to, co powyżej nazwaliśmy kluczem minimalnym, nazywa się po prostu kluczem, natomiast każdy nadzbiór klucza nazywamy nadkluczem. Copyright c 2010-17 P. F. Góra 3 17

Zauważmy, że zbiór cl{a 1, A 2,..., A n } zawiera wszystkie atrybuty pewnej tabeli wtedy i tylko wtedy, gdy {A 1, A 2,..., A n } jest (nad)kluczem tej tabeli. Sprawdzenie, czy dany zbiór elementów stanowi klucz tabeli, sprowadza się do sprawdzenia, czy wszystkie atrybuty tabeli należa do domknięcia klucza kandydujacego, czy jakiś właściwy podzbiór klucza kandydujacego także nie ma tej właściwości. Obliczanie domknięć nad zadanym zbiorem zależności funkcyjnych jest formalnym narzędziem służacym do identyfikowania kluczy tabel. Copyright c 2010-17 P. F. Góra 3 18

Pierwsza postać normalna Tabela jest w pierwszej postaci normalnej (1PN), jeżeli 1. Tabela posiada klucz. 2. Wszystkie składowe krotek sa atomowe. Można powiedzieć, że pierwsza postać normalna jest warunkiem tego, żeby w ogóle można było mówić o sytemie relacyjnym. Warunek posiadania klucza jest równoważny temu, że tabela jest zbiorem krotek. Copyright c 2010-17 P. F. Góra 3 19

Atomowość danych Atomowość danych oznacza, że składowych krotek nie można podzielić. Warunek atomowości uniemożliwia to, żeby składowymi krotek były złożone struktury danych, takie jak tablice, listy itp. W zasadzie wymóg atomowości nakazuje dzielić też atrybuty, które można podzielić, na części logicznie niepodzielne. Na przykład zamiast atrybutu Imię i Nazwisko, powinniśmy mieć dwa atrybuty: Imię, Nazwisko. Można sobie jednak wyobrazić sytuacje, w których taki podział byłby niepotrzebny lub niewskazany. O ile zatem pierwsza postać normalna z cała pewnościa wyklucza złożone struktury danych, o tyle interpretacja pojęcia można podzielić może niekiedy zależeć od natury samych danych, które reprezentować ma konstruowana przez nas baza danych. Rozważmy na przykład nazwy osobowe z Chin czy Korei. Copyright c 2010-17 P. F. Góra 3 20

Anomalie baz danych Redundancja ta sama informacja jest niepotrzebnie przechowywana w kilku krotkach. Anomalia modyfikacji informacja zostanie zmodyfikowana w pewnych krotkach, a w innych nie. Która informacja jest wówczas prawdziwa? Anomalia usuwania usuwanie części informacji powoduje utratę innej informacji, której nie chcielibyśmy stracić. Anomalia dołaczania wprowadzenie pewnej informacji jest możliwe tylko wtedy, gdy jednocześnie wprowadzamy jakaś inna informację, która może być obecnie niedostępna. Celem normalizacji baz danych jest unikanie powyższych anomalii. Copyright c 2010-17 P. F. Góra 3 21

Druga postać normalna Tabela jest w drugiej postaci normalnej (2PN), jeżeli 1. Tabela jest 1PN. 2. Wszystkie atrybuty niekluczowe zależa funkcyjnie od pełnego klucza. Atrybuty niekluczowe maja zależeć od pełnego klucza, a nie od jego podzbioru właściwego (który nie musi być kluczem!). Wszystkie tabele 1PN, które maja klucze jednokolumnowe, sa automatycznie 2PN. Copyright c 2010-17 P. F. Góra 3 22

Przykład Załóżmy, że zależności funkcyjne pomiędzy pewnymi atrybutami maja postać A, B C, A D. Poniższa tabela (podkreślenia oznaczaja klucz) A B C D a 1 b 1 c 1 d 1 a 1 b 2 c 2 d 1 a 1 b 3 c 3 d 1 a 2 b 1 c 4 d 2 nie jest 2PN, gdyż atrybut D zależy tylko od atrybutu A, a więc od części klucza, nie od całego klucza. Copyright c 2010-17 P. F. Góra 3 23

Schemat tabeli ze strony 23 nie chroni przed wymienionymi wyżej anomaliami: Nie można wprowadzić informacji o tym, że a 3 d 3, nie wprowadzajac jednocześnie informacji, że (a 3, b ) c (anomalia dołaczania). Usunięcie informacji o tym, że a 2 d 2 wymaga jednoczesnego usunięcia informacji, iż (a 2, b 1 ) c 4 (anomalia usuwania). Wartość d 1 przechowywana jest niepotrzebnie w trzech różnych krotkach (redundancja). Copyright c 2010-17 P. F. Góra 3 24

Po rozbiciu powyższej tabeli na dwie tabele będace w 2PN, anomalie dołacza- nia i usuwania nie występuja, a wartość d 1 przechowywana jest tylko w jednej krotce. A B C a 1 b 1 c 1 a 1 b 2 c 2 a 1 b 3 c 3 a 2 b 1 c 4 A D a 1 d 1 a 2 d 2 Proszę pomyśleć, że w poczatkowym przykładzie d 1 mogłoby występować nie w 3, ale w 300 lub w 3000 krotek. Copyright c 2010-17 P. F. Góra 3 25

Bezstratne złaczenie (ang. lossless join) Normalizację baz danych (powyżej 1PN) przeprowadza się dzielac tabele wertykalnie na tabele potomne. Tabele te jednak musza pozwalać na pełne odtworzenie wyjściowej informacji po dokonaniu naturalnego złaczenia. Niedopuszczalne jest także, aby naturalne złaczenia kreowały informację fałszywa. Dekompozycję tabeli R na tabele R 1, R 2,..., R n nazywamy dekompozycja bezstratnego złaczenia (ze względu na pewien zbiór zależności funkcyjnych), jeśli naturalne złaczenie R 1, R 2,..., R n jest równe tabeli R. Copyright c 2010-17 P. F. Góra 3 26

Dekompozycja tabeli R na dwie tabele R 1, R 2 jest dekompozycja bezstratnego złaczenia, jeśli spełniony jest jeden z dwu warunków (symbol oznacza zależność funkcyjna): lub (R 1 R 2 ) (R 1 R 2 ) (R 1 R 2 ) (R 2 R 1 ) Innymi słowy, wspólna część atrybutów R 1, R 2 musi zawierać klucz kandydujacy R 1 lub R 2. Copyright c 2010-17 P. F. Góra 3 27

Twierdzenie Heatha Tabelę R o atrybutach X, Y, Z, spełniajac a zależność funkcyjna X Y można bezstratnie zdekomponować na wyniki rzutowania R 1 = π XY (R) oraz R 2 = π XZ (R). Copyright c 2010-17 P. F. Góra 3 28

Przykład Rozpatrzmy tabelę, spełniajac a zależność funkcyjna ID Imię: Tabela S ID Imię Przedmiot 17 Alicja Bazy danych 17 Alicja Teoria języków formalnych 17 Alicja SPK 112 Bogdan Bazy danych 112 Bogdan Systemy czasu rzeczywistego 119 Czesław Teoria języków formalnych 119 Czesław SPK Tabela ta zawiera zależności wielowartościowe, do których jeszcze wrócimy. Copyright c 2010-17 P. F. Góra 3 29

Tabelę tę można bezstratnie podzielić na następujace dwie tabele: Tabela S 1 Tabela S 1 ID Imię ID Przedmiot 17 Alicja 17 Bazy danych 112 Bogdan 17 Teoria języków formalnych 119 Czesław 17 SPK 112 Bazy danych 112 Systemy czasu rzeczywistego 119 Teoria języków formalnych 119 SPK Zachodzi S = S 1 S 2. Zauważmy, że taka dekompozycja pozwala uniknać anomalii redundancji, a przede wszystkim anomalii modyfikacji: Gdyby student o ID = 17 zmienił imię, zmianę tę trzeba by wprowadzić w trzech miejscach przed dekompozycja, ale tylko w jednym po dekompozycji. Copyright c 2010-17 P. F. Góra 3 30

Trzecia postać normalna Tabela jest w trzeciej postaci normalnej (3PN), jeżeli 1. Tabela jest 2PN. 2. Dla wszystkich atrybutów tabeli zachodzi: Jeżeli A 1, A 2,..., A n A m, to albo {A 1, A 2,..., A n } jest nadkluczem, albo A m jest elementem innego klucza. Trzecia postać normalna jest postacia najczęściej występujac a w zastosowaniach praktycznych. Druga część warunku definicyjnego ( albo A m jest elementem innego klucza ) ma znaczenie tylko wówczas, gdy w tabeli występuja zależności cykliczne (lub częściowe zależności cykliczne). Copyright c 2010-17 P. F. Góra 3 31

Zależności przechodnie Jeżeli w tabeli nie występuja zależności cykliczne, powiada się, że 3PN zakazuje wsytępowania zależności przechodnich. Istotnie, przyjmijmy, że spełnione sa zależności funkcyjne A B, B C, A C; ostatnia z tych zależności wynika z dwu pierwszych na zasadzie przechodniości. Następujaca tabela A B C jest 2PN, ale nie jest 3PN, gdyż zachodzi zależność B C, zaś atrybut B nie jest nadkluczem. Sprowadzenie do 3PN oznacza rozbicie powyższej tabeli na dwie tabele: A B B C Copyright c 2010-17 P. F. Góra 3 32

Przykład Niech zależności funkcyjne będa takie, jak na poprzednim ekranie. Rozważmy następujac a instancję pierwszej tabeli: A B C a 1 b 1 c 1 a 2 b 1 c 1 a 3 b 1 c 1 a 4 b 2 c 2 Copyright c 2010-17 P. F. Góra 3 33

Występuja anomalie dołaczania (nie można wprowadzić a 5 b 3 bez jednoczesnego wprowadzenia b 3 c 3 ), usuwania (nie można usunać b 2 c 2 bez jednoczesnego usunięcia a 4 b 2 ) oraz redundancja (wielkość c 1 przechowywana jest w trzech krotkach). Po sprowadzeniu do 3PN A B a 1 b 1 a 2 b 1 a 3 b 1 a 4 b 2 B C b 1 c 1 b 2 c 2 anomalie te znikaja. Copyright c 2010-17 P. F. Góra 3 34

Cykliczne zależności funkcyjne Przykładem cyklicznych zależności funkcyjnych jest A B, B C, C A. W takiej sytuacji atrybuty A, B, C sa sobie równoważne określenie wartości jednego z nich, jednoznacznie ustala wartość dwu pozostałych. Każda z trzech tabel A B C A B C A B C jest 3PN, gdyż co prawda występuja zależności przechodnie, ale atrybuty niekluczowe sa elementami innych kluczy (de facto sa innymi kluczami). Copyright c 2010-17 P. F. Góra 3 35

Uwaga! Przy cyklicznych zależnościach funkcyjnych jak poprzednio, tabele rozbite w taki sposób: A B B C C A technicznie rzecz biorac także sa 3PN, a nie zawieraja zależności przechodnich. Jednak taki projekt nie zapobiega redundancji, przeciwnie, wymusza ja, gdyż każda wartość każdego z atrybutów A, B, C jest przechowywana dwa razy. Projekty z poprzedniej strony sa z tego względu zdecydowanie lepsze. Copyright c 2010-17 P. F. Góra 3 36

Procedura postępowania 1. Dany jest zbiór atrybutów, które chcemy reprezentować, i zbiór zależności funkcyjnych pomiędzy atrybutami. 2. Znajdujemy bazę minimalna zbioru zależności funkcyjnych. 3. Majac bazę minimalna, sumujemy zależności funkcyjne o takich samych lewych stronach i dla każdej wysumowanej zależności tworzymy tabelę z odpowiednia lewa strona zależności jako kluczem. Taki sposób postępowania prowadzi do projektu bazy, w której tabele sa 3PN. Copyright c 2010-17 P. F. Góra 3 37

Procedura szukania bazy minimalnej 1. Każdy atrybut musi występować z lewej lub z prawej strony jednej zależności funkcyjnej w zbiorze. 2. Jeśli jakaś zależność funkcyjna jest właczona do zbioru, nie wszystkie zależności funkcyjne potrzebne do jej wyprowadzenia moga występować w tym zbiorze. 3. Jeśli jakaś zależność funkcyjna zostaje wyłaczona ze zbioru, zależności funkcyjne potrzebne do jej wyprowadzenia musza zostać doń dołaczone. Jeżeli w zbiorze zależności funkcyjnych występuja (częściowe) cykle, może istnieć więcej niż jedna baza minimalna. Copyright c 2010-17 P. F. Góra 3 38

Przykład 1 Zaprojektujmy tabele będace (co najmniej) w trzeciej postaci normalnej, spełniajace zależności funkcyjne P, Q R, S, T (1a) R S, T (1b) Czasami wygodnie narysować jest graf skierowany, obrazujacy analizowane zależności funkcyjne. Dla zależności (1) graf taki ma postać P S R Q T Copyright c 2010-17 P. F. Góra 3 39

Zależności P, Q S, T można usunać, gdyż na mocy przechodniości wynikaja one z zalezności P, Q R, R S, T. Ostatecznie tabele maja postać T 1 (P, Q, R) T 2 (R, S, T ), gdzie podkreślone atrybuty stanowia klucz. Copyright c 2010-17 P. F. Góra 3 40

Przykład 2 Zaprojektujmy tabele będace (co najmniej) w trzeciej postaci normalnej, spełniajace zależności funkcyjne A B, C (2a) B C, D (2b) E, F G, H (2c) G H (2d) A, E D (2e) Zależności A C oraz E, F H eliminujemy na mocy przechodniości. Na pierwszy rzut oka pewna trudność może sprawiać ostatnia z zależności (2). Wiemy jednak, że na mocy przechodniości A D, a poprzednik każdej zależności funkcyjnej można rozszerzyć. Zatem zależność A, E D wynika z pozostałych zależności funkcyjnych (2) i można ja pominać. Copyright c 2010-17 P. F. Góra 3 41

Jako graf zależności funkcyjnych (2) otrzymujemy zaś jako tabele A E F B G C D H T 1 (A, B), T 2 (B, C, D), T 3 (E, F, G), T 4 (G, H). Copyright c 2010-17 P. F. Góra 3 42

Przykład 3 Zaprojektujmy tabele będace (co najmniej) w trzeciej postaci normalnej, spełniajace zależności funkcyjne A B, D, E (3a) B C, D, E (3b) C A, D, E (3c) D E (3d) Widać, że atrybuty D, E zależa od każdego z atrybutów A, B, C, te zaś trzy tworza cykl. Zależność C E można wyeliminowac na mocy przechodniości. Copyright c 2010-17 P. F. Góra 3 43

Grafem zależności funkcyjnych jest natomiast tabele maja postać A B C D E T 1 (A, B, C), T 2 (C, D), T 3 (D, E) W tabeli T 1 kluczem móglby być dowolny spośród atrybutów A, B, C. Podobnie w tabeli T 2 kluczem mógłby być któryś z atrybutów A, B, nie zaś koniecznie C. Copyright c 2010-17 P. F. Góra 3 44

Postać normalna Boyce a-codda Tabela jest w postaci normalnej Boyce a-codda (BCNF, PNBC), jeżeli 1. Tabela jest 2PN. 2. Dla każdej zależności nietrywialnej, jeżeli A 1, A 2,..., A n A m, to zbiór {A 1, A 2,..., A n } jest nadkluczem. PNBC jest silniejsza wersja 3PN. Każda tabela będaca PNBC jest także 3PN, ale wynikanie odwrotne nie musi zachodzić. Copyright c 2010-17 P. F. Góra 3 45

Do czego dażymy? Przeprowadzajac normalizację bazy danych, staramy się jednocześnie spełnić trzy warunki: 1. Bezstratne złaczenie. 2. Zachowanie wszystkich zależności funkcyjnych. 3. PNBC. Czy zawsze jest to możliwe? Copyright c 2010-17 P. F. Góra 3 46

Rozważmy tabelę A B C z następujacymi zależnościami funkcyjnymi: C A A, B C (Na przykład: A nazwa banku, B nazwisko klienta uprawnionego do personal banking, C nazwisko bankiera. Pierwsza zależność mówi, że każdy bankier pracuje w określonym banku, druga, że każdego uprawnionego klienta w danym banku obsługuje określony bankier. Ale klient może mieć konta w więcej niż jednym banku... ) Copyright c 2010-17 P. F. Góra 3 47

Powyższa tabela nie jest PNBC, gdyż C nie może być nadkluczem. Jednak żadne rozbicie na dwie tabele dwuatrybutowe albo nie zachowuje kompletu zależności funkcyjnych, albo nie jest dekompozycja bezstratnego złaczenia, albo jedno i drugie. W tej sytuacji zadowalamy się niższa postacia normalna. Zachowanie kompletu zależności funkcyjnych oraz bezstratność złaczeń musza mieć priorytet! Nie każda tabelę daje się znormalizować do PNBC. Copyright c 2010-17 P. F. Góra 3 48

Zależności wielowartościowe Przypuśćmy, że kolumny (atrybuty) pewnej tabeli możemy podzielić na trzy wzajemnie rozłaczne podzbiory: X, Y, Z. Wybierzmy teraz pewna wartość x c X faktycznie występujac a w tabeli. Mówimy, że zbiory X, Y zwiazane sa zależnościa wielowartościowa, co zapisujemy X Y, jeżeli po utworzeniu zbioru wszystkich kombinacji x c yz faktycznie występujacych w tabeli stwierdzamy, że x c jest stowarzyszone z tymi samymi wartościami y bez względu na wartości z. Oznacza to, że zbiory Y, Z sa niezależne, czyli nie sa ze soba powiazane bezpośrednio, a co najwyżej poprzez zbiór X. Copyright c 2010-17 P. F. Góra 3 49

Mówimy, że zależność wielowartościowa X Y jest trywialna, jeżeli Y X lub X Y stanowi zbiór wszystkich atrybutów tabeli. Każda zależność funkcyjna jest zarazem zależnościa wielowartościowa (być może trywialna), jednak zależność wielowartościowa odnosi się do faktycznej instancji tabeli. Przykład tabeli z zależnościa wielowartościowa już się pojawił na stronie 29. Redundancja i niebezpieczeństwo anomalii modyfikacji sa oczywiste. Copyright c 2010-17 P. F. Góra 3 50

Czwarta postać normalna Tabela jest w czwartej postaci normalnej (4PN), jeżeli 1. Tabela jest 3PN. 2. Dla każdej nietrywialnej zależności wielowartościowej A B, A jest nadkluczem. Każda tabela PNBC, która nie zawiera nietrywialnych zależności wielowartościowych, jest automatycznie w 4PN. Copyright c 2010-17 P. F. Góra 3 51

W przykładzie ze strony 29 podana tabelę należy rozbić na dwie mniejsze: ID Imię...... ID Przedmiot...... Pewne badania wskazuja, że około 20% praktycznie działajacych systemów bazodanowych zawiera tabele nie spełniajace czwartej postaci normalnej, choć spełniajace wymagania niższych postaci. Zapewnienie spełniania 4PN jest więc ważnym, choć najwyraźniej niedocenianym problemem praktycznym. Jest on ważny w szczególności dla tabel pomostowych, opisujacych zwiazki wieloargumentowe. Można co prawda zastanawiać się, czy przynajmniej część z tych tabel jest w 1PN, w szczególności, czy posiadaja klucz. Jednak wiele praktycznie działajacych RDMS dopuszcza duplikaty. Copyright c 2010-17 P. F. Góra 3 52

Normalizacja a wydajność Normalizacja baz danych dostarcza mechanizmu pozwalajacego unikać anomalii. Ma to jednak swoja cenę: Dostęp do danych w bazie znormalizowanej może być wolniejszy, gdyż RDBMS musi wykonywać złaczenia. W praktyce czas wykonania zapytania ze złaczeniem lub bez może zależeć od fizycznego stanu instancji bazy (np. fragmentacja plików dyskowych itp.). Dlatego w wielkich bazach danych zoptymalizowanych na odczyt (na przykład w hurtowniach danych) często rezygnuje się z wyższych postaci normalnych, przechowujac dane w tabelach 1PN. To także ma swoja cenę: Wprowadzajac dane do takich tabel lub modyfikujac istniejace dane należy dołożyć szczególnej staranności, aby nie dopuścić do anomalii usuwania lub dołaczania, a szczególnie do anomalii modyfikacji (redundancja jest w tego typu bazy niejako wbudowana). Copyright c 2010-17 P. F. Góra 3 53