W A R S Z A W S K A W Y Ż S Z A S Z K O Ł A I N F O R M A T Y K I

Podobne dokumenty
Definicja bazy danych TECHNOLOGIE BAZ DANYCH. System zarządzania bazą danych (SZBD) Oczekiwania wobec SZBD. Oczekiwania wobec SZBD c.d.

Technologia informacyjna

Systemy baz danych. mgr inż. Sylwia Glińska

Relacyjny model baz danych, model związków encji, normalizacje

Projektowanie Systemów Informacyjnych

Normalizacja baz danych

Moduł mapowania danych

ć Ł Ł ć Ż Ż Ł Ż

Ł Ł Ź

Instytut Technik Innowacyjnych Semantyczna integracja danych - metody, technologie, przykłady, wyzwania

WPROWADZENIE DO BAZ DANYCH

Wykład II Encja, atrybuty, klucze Związki encji. Opracowano na podstawie: Podstawowy Wykład z Systemów Baz Danych, J.D.Ullman, J.

Baza danych. Baza danych to:

Bazy danych. wprowadzenie teoretyczne. Piotr Prekurat 1

Bazy danych. Algebra relacji

Cel normalizacji. Tadeusz Pankowski

Technologie baz danych

Modelowanie hierarchicznych struktur w relacyjnych bazach danych

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Załącznik 1. Nazwa kierunku studiów: FIZYKA Techniczna Poziom kształcenia: II stopień (magisterski) Profil kształcenia: ogólnoakademicki Symbol

Część II. Zadanie 3.2. (0 3)

Rok szkolny 2015/16 Sylwester Gieszczyk. Wymagania edukacyjne w technikum. ADMINISTROWANIE BAZAMI DANYCH kl. 4c

Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi

Baza danych. Modele danych

Wykład 2. Relacyjny model danych

Księgarnia PWN: Michael J. Hernandez Bazy danych dla zwykłych śmiertelników

BAZY DANYCH model relacyjny. Opracował: dr inż. Piotr Suchomski

030 PROJEKTOWANIE BAZ DANYCH. Prof. dr hab. Marek Wisła

Model relacyjny. Wykład II

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

Uwaga: Akceptowane są wszystkie odpowiedzi merytorycznie poprawne i spełniające warunki zadania.

- Przedmiot kończy się egzaminem - Egzamin ma formę testu teoretycznego

Pojęcie zależności funkcyjnej

Moduł mapowania danych

1 Wstęp do modelu relacyjnego

Technologie informacyjne - wykład 12 -

Normalizacja. Pojęcie klucza. Cel normalizacji

BAZY DANYCH NORMALIZACJA BAZ DANYCH. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza

BAZY DANYCH NORMALIZACJA BAZ DANYCH. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza

Tabele przestawne jako narzędzie analizy biznesowej

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Bazy Danych. C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000

Zagadnienia egzaminacyjne INFORMATYKA. Stacjonarne. I-go stopnia. (INT) Inżynieria internetowa STOPIEŃ STUDIÓW TYP STUDIÓW SPECJALNOŚĆ

PLAN WYKŁADU BAZY DANYCH MODEL DANYCH. Relacyjny model danych Struktury danych Operacje Integralność danych Algebra relacyjna HISTORIA

PLAN WYKŁADU BAZY DANYCH ZALEŻNOŚCI FUNKCYJNE

Bazy danych - wykład wstępny

Bazy danych. Plan wykładu. Zależności funkcyjne. Wykład 2: Relacyjny model danych - zależności funkcyjne. Podstawy SQL.

Agnieszka Ptaszek Michał Chojecki

Część II Uwaga: wszystkie wyniki muszą być odzwierciedleniem dołączonej komputerowej realizacji obliczeń.

Bazy danych. Andrzej Łachwa, UJ, /15

Jak wiernie odzwierciedlić świat i zachować występujące w nim zależności? Jak implementacja fizyczna zmienia model logiczny?

ANALITYKA GOSPODARCZA, STUDIA MAGISTERSKIE WIEDZA

Zasady transformacji modelu DOZ do projektu tabel bazy danych

DiaSter - system zaawansowanej diagnostyki aparatury technologicznej, urządzeń pomiarowych i wykonawczych. Politechnika Warszawska

Wykład XII. optymalizacja w relacyjnych bazach danych

MSI dr. Inż. Mariusz Trzaska. obiektowych językach programowania

Metody analizy przestrzennej. Liczba godzin stacjonarne: Wykłady: 30 Ćwiczenia: 30. niestacjonarne: Wykłady: 18 Ćwiczenia: 18

Bazy danych i ich aplikacje

Kurs MATURA Z INFORMATYKI

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

INFORMATYKA POZIOM ROZSZERZONY

Załącznik 1. Nazwa kierunku studiów: FIZYKA Poziom kształcenia: II stopień (magisterski) Profil kształcenia: ogólnoakademicki Symbol

Efekty kształcenia na kierunku AiR drugiego stopnia - Wiedza Wydziału Elektrotechniki, Automatyki i Informatyki Politechniki Opolskiej

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

EGZAMIN MATURALNY W ROKU SZKOLNYM 2014/2015

Ź Ć Ż Ż Ź Ź ż ż Ć Ć

Załącznik nr 2 do uchwały nr 100/2012 Senatu UP. Efekty kształcenia dla kierunku studiów inżynieria rolnicza i ich odniesienie do efektów obszarowych

1. Mapowanie diagramu klas na model relacyjny.

Szczegółowy program kursów szkoły programowania Halpress

Automatyka i sterowanie w gazownictwie wstęp. Autor: dr inż. Iwona Oprzędkiewicz Nazwa wydziału: WIMiR Nazwa katedry: Katedra Automatyzacji Procesów

Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym

P1P efekty kształcenia w obszarze nauk przyrodniczych dla studiów pierwszego stopnia o

EGZAMIN MATURALNY W ROKU SZKOLNYM 2014/2015

Relacyjne bazy danych

OdświeŜanie hurtownie danych - wykład IV. Zagadnienia do omówienia. Wprowadzenie

Plan wykładu. Problemy w bazie danych. Problemy w bazie danych BAZY DANYCH. Problemy w bazie danych Przykład sprowadzenia nieznormalizowanej SQL

Relacyjny model danych

Bazy danych 2. Wykład 1

Normalizacja relacyjnych baz danych. Sebastian Ernst

Ż ć

Nie święci garnki lepią. czyli wprowadzenie do programowania

WYKAZ KIERUNKOWYCH EFEKTÓW KSZTAŁCENIA KIERUNEK: MATEMATYKA, SPS WIEDZA

Podrozdziały te powinny zawierać informacje istotne z punktu widzenia przyjętego celu pracy

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

BAZY DANYCH. Anomalie. Rozkład relacji i normalizacja. Wady redundancji

KIERUNKOWE EFEKTY KSZTAŁCENIA

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

ż Ę Ę ż ż

Bazy danych Wykład zerowy. P. F. Góra

ć ż ż ć ż Ł ć ż ć

Dział Temat lekcji Ilość lekcji. godz. 1 Organizacja zajęć Omówienie programu nauczania 3


Alicja Marszałek Różne rodzaje baz danych

Ą

Metody automatyzacji sprawozdawczości w systemie asist. Agnieszka Hołownia-Niedzielska

Normalizacja baz danych

Ż ć Ż ż ć ż Ż Ż Ż ć ż Ż Ż ć

Transkrypt:

W A R S Z A W S K A W Y Ż S Z A S Z K O Ł A I N F O R M A T Y K I

W A R S Z A W S K A W Y Ż S Z A S Z K O Ł A I N F O R M A T Y K I PRACA MAGISTERSKA Piotr MACIEJEWSKI Numer albumu 2393 Autonormalizujące się bazy danych Promotor: dr hab. Michał GRABOWSKI profesor WWSI

CEL PRACY Opracowanie i przetestowanie metody służącej do automatyzacji procesu normalizacji relacyjnych baz danych, wykorzystującej w swoim działaniu wykryte zależności funkcyjne zachodzące pomiędzy atrybutami tabel.

OBSZAR DZIAŁANIA

Administracja publiczna Instytucje naukowe Instytucje wojskowe Szkolnictwo...

ANALIZA PROBLEMU PROJEKT LOGICZNY PROJEKT TECHNOLOGICZNY

ANALIZA PROBLEMU PROJEKT LOGICZNY PROJEKT TECHNOLOGICZNY Dlaczego przechowujemy dane, czyli skąd wypływa źródło tej potrzeby? Wybór rodzaju metody, która zastąpi czynnik ludzki w procesie normalizacji? Określenie niezbędnych środków technicznych do realizacji zadania?

ANALIZA PROBLEMU PROJEKT LOGICZNY PROJEKT TECHNOLOGICZNY

ANALIZA PROBLEMU PROJEKT LOGICZNY PROJEKT TECHNOLOGICZNY

ANALIZA PROBLEMU PROJEKT LOGICZNY PROJEKT TECHNOLOGICZNY

ANALIZA PROBLEMU PROJEKT LOGICZNY PROJEKT TECHNOLOGICZNY zbiór danych zorganizowanych zgodnie z pojęciową strukturą opisującą charakterystyki tych danych oraz związki między ich odpowiednimi elementami, stosowany w jednym lub wielu zastosowaniach PN-ISO/IEC 2382-1:1996 01.08.05

ANALIZA PROBLEMU PROJEKT LOGICZNY PROJEKT TECHNOLOGICZNY

ANALIZA PROBLEMU PROJEKT LOGICZNY PROJEKT TECHNOLOGICZNY

ANALIZA PROBLEMU PROJEKT LOGICZNY PROJEKT TECHNOLOGICZNY

ANALIZA PROBLEMU PROJEKT LOGICZNY PROJEKT TECHNOLOGICZNY

Edgar Frank Codd 23 VIII 1923 18 IV 2003 Źródło: http://upload.wikimedia.org/wikipedia/en/5/58/edgar_f_codd.jpg

ANALIZA PROBLEMU PROJEKT LOGICZNY PROJEKT TECHNOLOGICZNY

SŁOWNIK OPRACOWANEJ METODY Relacja pierwotna Autonormalizacja Mapowanie atrybutów relacji pierwotnej Tymczasowa relacja mapująca Zmapowana relacja pierwotna Relacja macierzysta / Relacja macierzysta (bis) / Relacja obca Atrybut potomny relacji macierzystej Fundamentalna zależność funkcyjna Współczynnik ziarnistości / Granica ziarnistości

Fundamentalna zależność funkcyjna Reguła (4.1): Poprzez występujące fundamentalne zależności funkcyjne, krotki wyznaczajązwiązek atrybutuz pozostałymi atrybutamirelacji. Reguła (4.2): Każdy atrybut typu DC fundamentalnej zależności funkcyjnej zostanie przekształcony w atrybut typu IC w przebiegu procesów autonormalizacji.

Fundamentalna zależność funkcyjna

Współczynnik ziarnistości / Granica ziarnistości seedfactor = s (4.1) Współczynnik ziarnistości lub granulacji atrybutu relacji jest miarą, która określa przeciętną liczność wystąpienia podzbiorów identycznych wartości (inaczej mówiąc: zgrupowanych jednorodnych wartości) rekordów analizowanego atrybutu relacji. Minimalna wartość tego współczynnika zawsze będzie równa jeden, a maksymalna jego wartość jest równa ilości wszystkich rekordów analizowanego atrybutu (jednoznacznie relacji).

Współczynnik ziarnistości / Granica ziarnistości seedfactor = s (4.1) s wartość przeciętna elementów s ze zbioru S. S = s : s : = { } sup( P) x x P x i, s S P (4.2) Z + i= 1

Współczynnik ziarnistości / Granica ziarnistości seedlimes = P 2 (4.3) Granica ziarnistości empiryczny wskaźnik służący do wyznaczania stopnia granulacji badanych atrybutów relacji. Charakterystyczną jego cechą jest możliwość regulowania czułości dot. wykrywania relacji słownikowych dla nowo tworzonegoschematu bazydanych.

Współczynnik ziarnistości / Granica ziarnistości seedlimes P seedlimes = (4.3) 2 oznacza minimalną wartość współczynnika ziarnistości, który rozgranicza średnioziarnistością od gruboziarnistości. P moc zbioru P, ilość wszystkich rekordów pobranych z pola relacji;

ANALIZA PROBLEMU PROJEKT LOGICZNY PROJEKT TECHNOLOGICZNY Algorytm opracowanej metody

1. Mapowanie atrybutów relacji (null 0) 2. Podział atrybutów relacji wg wystąpień 0 3(EC). Separacja atrybutów względem ilości występowania wartości równych 0 (null) Atrybuty EC (0 ) Atrybuty FC (1 ) 4(EC). Separacja atrybutów względem położenia wartości 0 (null) 5(EC). Usunięcie wartości 0 (null) z atrybutów relacji obcych 3(FC). Zgrupowanie atrybutów Relacja macierzysta (1 ) 6. Wyliczenie wsp. ziarnistości Relacje macierzyste (bis) (1 ) 8. Korekta anomalii 7. Wyznaczenie typów fzf atrybutów 9. Redukcja typów fzf DC do IC 10. Budowa schematu DB

1. Mapowanie atrybutów relacji pierwotnej

1. Mapowanie atrybutów relacji pierwotnej

1. Mapowanie atrybutów relacji pierwotnej

1. Mapowanie atrybutów relacji pierwotnej

ANALIZA PROBLEMU PROJEKT LOGICZNY PROJEKT TECHNOLOGICZNY Przykład teoretyczny (ogólny).

1.

2.

3(FC). 3(EC).

4(EC).

6. 7. 5(EC).

9.

9.

9.

10.

10.

10.

10.

ANALIZA PROBLEMU PROJEKT LOGICZNY PROJEKT TECHNOLOGICZNY

ANALIZA PROBLEMU PROJEKT LOGICZNY PROJEKT TECHNOLOGICZNY Opis realnego problemu Analiza struktury danych wejściowych Budowa nowego schematu bazy danych w oparciu o wyniki uzyskane z analizy

8.

8.

2-9.

10.

10.

WIZJA DALSZEGO ROZWOJU

PIERWOTNA ANALIZA Brak dostatecznej wiedzy przy postępowaniu z polami posiadającymi wartości null? Występujące anomalie w polach relacji pierwotnej, będące efektem błędnie wprowadzonych danych?

WNIOSKI KOŃCOWE Współczynnik ziarnistości atrybutów relacji Granica ziarnistości atrybutów relacji Typ fundamentalnej zależności funkcyjnej

WNIOSKI KOŃCOWE ZALETY PRZEDSTAWIONEJ METODY DO AUTONORMALIZACJI Prostota działania opracowanej metody; Wystarczające odtworzenie rzeczywistego schematu bazy danych; Mapowanie relacji zapewnia bezpieczeństwo przetwarzania danych w internetowej chmurze; Zastąpienie w prostych oraz powszechnych problemach wykwalifikowanego personelu analityków; Perspektywa dalszego rozwoju opracowanej metody;...

WNIOSKI KOŃCOWE WADY PRZEDSTAWIONEJ METODY DO AUTONORMALIZACJI brak możliwości dokładnego odtworzenia rzeczywistego schematu relacyjnej; wrażliwość podstawowej metody na wielkość próby statystycznej źródłowego zbioru; wrażliwość na anomalie występujące w polach danych źródłowych;

WNIOSKI KOŃCOWE Przedstawiona praca przyniosła nowe doświadczenia, które umożliwiły mi poszerzenie posiadanej wiedzy teoretycznej oraz praktycznej z dziedziny baz danych. Szczególnie programowanie w dynamicznym SQL u było źródłem ciekawych i fascynujących odkryć, ponieważ pozwoliło na rozwiązanie zaawansowanych problemów logicznych. W głównej mierze źródłem tej wiedzy było rozwiązywanie problemów cząstkowych w trakcie budowy modelu algorytmu do samoczynnej normalizacji relacyjnejbazy danych. Praca ta umożliwiła, mi także poczuć istotę badania naukowego, w tym sposobów prowadzenia testów eksperymentalnych z wykorzystaniem dostępnych narzędzi informatycznych.

Fotografie użyte w prezentacji zostały pobrane ze stron internetowych http://t2.gstatic.com/images?q=tbn:and9gcqnzeydaorcacgtlrpfhe3xgo5p83j72jewe Zon2PcRCZg4cOw3ZA http://t1.gstatic.com/images?q=tbn:and9gcqfw92itjemfq35w8sntklju2_krz_cwmq- 8C7hQ8YTbsd672iQ http://t2.gstatic.com/images?q=tbn:and9gcsegykvfrir9g3ngvhaicpr- ZOmlYANB90gdj02APJQzZ_Q-5z7 http://t1.gstatic.com/images?q=tbn:and9gcrtaavhtfij9w0h0nytfd1z4upfssdceyimwm SXZXd3oVk_DtiQ