Ewolucja systemów baz danych

Podobne dokumenty
Modele danych i ewolucja systemów baz danych

Modele danych i ewolucja systemów baz danych

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Modele danych i ewolucja systemów baz danych

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Bazy danych 2. Wykład 1

Hurtownie danych. 31 stycznia 2017

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Wykład I. Wprowadzenie do baz danych

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Systemy baz danych i hurtowni danych

Pojęcie bazy danych. Funkcje i możliwości.

Transformacja wiedzy w budowie i eksploatacji maszyn

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Bazy danych i ich aplikacje

Liczba godzin 1,2 Organizacja zajęć Omówienie programu nauczania 2. Tematyka zajęć

Integracja systemów transakcyjnych

LITERATURA. C. J. Date; Wprowadzenie do systemów baz danych WNT Warszawa 2000 ( seria Klasyka Informatyki )

Bazy danych. Dr Henryk Telega. BD 10/11 Wykład 1 1

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Technologia informacyjna (IT - Information Technology) dziedzina wiedzy obejmująca:

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Bazy Danych. C. J. Date, Wprowadzenie do systemów baz danych, WNT - W-wa, (seria: Klasyka Informatyki), 2000

Specjalizacja magisterska Bazy danych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Co to jest Business Intelligence?

Informatyzacja przedsiębiorstw

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

BAZY DANYCH wprowadzenie. Opracował: dr inż. Piotr Suchomski

Podstawowe pojęcia dotyczące relacyjnych baz danych. mgr inż. Krzysztof Szałajko

ORGANIZACJA ZAJĘĆ BAZY DANYCH PLAN WYKŁADU SCHEMAT SYSTEMU INFORMATYCZNEGO

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Bazy danych Wykład zerowy. P. F. Góra

INFORMATYKA Pytania ogólne na egzamin dyplomowy

mail: strona: konsultacje: na stronie (po wcześniejszym umówieniu drogą mailową)

Ewolucja technik modelowania hurtowni danych

Architektury i technologie integracji danych

Budowa systemu wspomagającego podejmowanie decyzji. Metodyka projektowo wdrożeniowa

Ramowy plan kursu. Lp. Moduły Wyk. Lab. Przekazywane treści

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

Włodzimierz Dąbrowski, Przemysław Kowalczuk, Konrad Markowski. Bazy danych ITA-101. Wersja 1

Problematyka hurtowni danych

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Bazy danych i usługi sieciowe

Hurtownia danych praktyczne zastosowania

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Podstawy Systemów Zarządzania Baz Danych

Hurtownie danych - przegląd technologii

PRZEWODNIK PO PRZEDMIOCIE

SZKOLENIE: Administrator baz danych. Cel szkolenia

Pojęcie systemu baz danych

Proces ekstrakcji, transformacji i ładowania danych (Proces ETL)

poziom: Core wersja: 2.6 moduł: B : Wytwarzanie SYLLABUS

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Szczegółowy opis przedmiotu zamówienia

Hurtownie danych a transakcyjne bazy danych

Proces ekstrakcji, transformacji i ładowania danych (Proces ETL)

Problemy optymalizacji, rozbudowy i integracji systemu Edu wspomagającego e-nauczanie i e-uczenie się w PJWSTK

Marcin Adamczak Jakub Gruszka MSP. Business Intelligence

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

5 Moduył do wyboru II *[zobacz opis poniżej] 4 Projektowanie i konfiguracja sieci komputerowych Z

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

LITERATURA. Wprowadzenie do systemów baz danych C.J.Date; WNT Warszawa 2000

4. Znaczenie czasu w modelowaniu i strukturalizacji danych

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

Systemy GIS Systemy baz danych

1. Ewolucja systemów opartych na bazach danych 2. Czym się rożni modelowanie od strukturalizacji danych? Model danych Struktury (danych)

Hurtownie danych. Ładowanie, integracja i aktualizacja danych. INTEGRACJA DANYCH ETL

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

Projektowanie baz danych

Analiza danych i data mining.

Analityka danych w środowisku Hadoop. Piotr Czarnas, 27 czerwca 2017

Pierwsze wdrożenie SAP BW w firmie

SAS OLAP Cube Studio Wprowadzenie

Matematyka kodem nowoczesności. Zaproszenie do składania ofert

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Program wykładu. zastosowanie w aplikacjach i PL/SQL;

Wrocławska Wyższa Szkoła Informatyki Stosowanej. Bazy danych. Dr hab. inż. Krzysztof Pieczarka.

Hurtownie danych. Hurtownie danych. dr hab. Maciej Zakrzewicz Politechnika Poznańska Instytut Informatyki. Maciej Zakrzewicz (1)

Analityka danych w środowisku Hadoop. Piotr Czarnas, 5 czerwca 2017

Spis treści. Część I Wprowadzenie do pakietu oprogramowania Analysis Services

Część I Istota analizy biznesowej a Analysis Services

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

Oracle11g: Wprowadzenie do SQL

Bazy danych 1. Podstawowe pojęcia

KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5

Wprowadzenie do projektowania i wykorzystania baz danych Relacje i elementy projektowania baz

Transkrypt:

Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr letni 2004/05

Plan wykładu Relacyjne systemy baz danych i język SQL Projektowanie baz danych i ochrona danych Optymalizacja i struktury danych Systemy OLAP I Systemy OLAP II Modelowanie wielowymiarowe Proces ekstrakcji, transformacji i ładowania danych (Proces ETL)

Plan wykładu 1 Zarzadzanie danymi 2 System plików 3 Systemy baz danych 4 Operacyjne systemy baz danych 5 Systemy baz danych w wspomaganiu decyzji i analize danych 6 Proces ekstrakcji, transformacji i ładowania 7 Od hurtowni danych do ekploracji danych

Plan wykładu 1 Zarzadzanie danymi 2 System plików 3 Systemy baz danych 4 Operacyjne systemy baz danych 5 Systemy baz danych w wspomaganiu decyzji i analize danych 6 Proces ekstrakcji, transformacji i ładowania 7 Od hurtowni danych do ekploracji danych

Zarzadzanie danymi Dane sa jednym z najważniejszych zasobów organizacyjnych. Dane musza być zarzadzane tak samo jak inne ważne aktywa i majatek. Wiele organizacji nie jest w stanie przeżyć bez dobrych jakościowo danych na temat wewnętrznych operacji i zewnętrznego środowiska. Zbiór powiazanych i uporzadkowanych danych trwałych (niekoniecznie elektronicznych), które wykorzystywane sa przez organizację w obrębie swojej działalności to baza danych.

Podejścia do zarzadzania danymi Podejście tradycyjne: system zarzadzania plikami Podejście nowoczesne: systemy baz danych Operacyjne systemy baz danych wspieraja zadania biurowe, administracyjne i organizacyjne. Systemy baz danych ukierunkowane na wspomaganie decyzji i analizę danych wspieraja kadrę kierownicza w podejmowaniu decyzji. Internet jako baza danych: Hipermedialne bazy danych, Wyszukiwanie informacji w zasobach Internetu. Bazy danych plików XML

Plan wykładu 1 Zarzadzanie danymi 2 System plików 3 Systemy baz danych 4 Operacyjne systemy baz danych 5 Systemy baz danych w wspomaganiu decyzji i analize danych 6 Proces ekstrakcji, transformacji i ładowania 7 Od hurtowni danych do ekploracji danych

System plików (system zarzadzania plikami) jest oprogramowaniem tworzacym, usuwajacym i manipulujacym plikami Pliki sa wykorzystywane w różnych celach Każdy plik jest wykorzystywany niezależnie Przykład Uczelnia może przechowywać osobne pliki zawierajace: przedmioty i oceny studentów oraz dane personalne studentów Zmiana adresu studenta może wymagać zmiany w obydwóch plikach!!!

System plików charakteryzuje się wieloma wadami, jednak jest bardzo często używany :) Redundancja danych Brak spójności danych Brak niezależności danych Brak struktury danych

Plan wykładu 1 Zarzadzanie danymi 2 System plików 3 Systemy baz danych 4 Operacyjne systemy baz danych 5 Systemy baz danych w wspomaganiu decyzji i analize danych 6 Proces ekstrakcji, transformacji i ładowania 7 Od hurtowni danych do ekploracji danych

Baza danych to zbiór powiazanych i uporzadkowanych danych. System zarzadzania baza danych (SZBD) to zbiór programów umożliwiajacy tworzenie i eksploatację bazy danych. System baz danych to baza danych i SZBD.

Systemy baz danych Baza danych jest odzwierciedleniem fragmentu rzeczywistości (konceptualnej lub fizycznej). Baza danych musi tworzyć logiczna spójność wiernie odzwierciedlać modelowana rzeczywistość. Baza danych posiada źródło danych, użytkowników oraz zwiazki z reprezentowanym światem.

Zadaniem Systemu Zarzadzania Baza Danych jest serwowanie danych. Wszystkie żadania użytkowników o dostęp do bazy danych sa obsługiwane przez SZBD. Definiowanie, dodawanie, usuwanie, aktualnienie i wyszukiwanie danych jest obsługiwane przez SZBD. Główna funkcja SZBD to uwalnianie użytkowników bazy danych od konieczności znajomości szczegółów technicznych.

Języki baz danych Język definiowania danych (Data Definition Language DLL) Język sterowania danymi (Data Control Language DCL) Język manipulowania danymi (Data Manipulation Language DML) Język zapytań (Query Language)

System bazy danych jako system fizyczny: komputer pracujacy jako serwer (może to być komputer osobisty), komputery terminalne (dostęp dla użytkowników), system zarzadzania baza danych, baza danych w postaci elektronicznej, program kliencki dostępu do systemu bazy danych, programy administracyjne.

Użytkownicy systemu baz danych: użytkownicy naiwni (poprzez aplikacje, strony WWW), okolicznościowi (poprzez język zapytań), programiści aplikacji, administrator bazy danych (DBA).

Trzy poziomy architektury systemów bazodanowych (ANSI/SPARC): Poziom wewnętrzny jest najbliższy fizycznej pamięci dotyczy fizycznego sposobu przechowywania danych. Poziom zewnętrzny jest najbliższy użykownikowi dotyczy sposobu, w jaki poszczególnie użytkownicy widza dane. Poziom pojęciowy jest poziomem pośrednim między nimi.

Architektura ANSI/SPARC

Zalety systemów baz danych: brak redundancji danych (lub prawie całkowity brak), spójność i integralnośc danych, różnorodność sposobów widzenia danych i współdzielenie danych, wymuszenie zachowania standardów, bezpieczeństwo danych: autoryzacja dostępu do danych oraz ochrona systemu przed awariami, abstrakcyjna reprezentacja danych i łatwy dostęp do nich, fizyczna i logiczna niezależność danych, możliwość sterowania wydajnościa systemu (zarzadzanie strukturami danych, optymalizacja, ustawianie priorytetów), niezależność aplikacji i danych.

Systemy baz danych wykorzystuja rózne modele danych. Model danych określa sposób w jakim dane sa koncepcyjnie ustrukturalizowane. Model danych definiuje typy danych, zwiazki pomiędzy danymi i ograniczenia na nie nałożone oraz zbiór operacji służacych do definiowania, wyszukiwania i uaktualniania bazy danych.

Przykładowe modele danych: hierarchiczny, sieciowy, relacyjny, wielowymiarowy, obiektowy, postrelacyjny, hipermedialny. rozmyty.

Pytanie Czy zawsze potrzebujemy system bazodanowy? Odpowiedź Do pewnego czasu wdrożenie systemu bazodanowego wiazało się z bardzo dużymi kosztami, Nie zawsze potrzebne sa zaawansowane mechanizmy systemów baz danych, jednak coraz częściej stosowane sa modele wielowarstwowe (nawet tych prostych) aplikacji, Warto pamiętać o złożoności procesu wdrażania systemu baz danych, ale i korzyściach, jakie ono przynosi :)

Projektowanie i rozwijanie systemu bazy danych Zamodelowanie procesów biznesowych przedsiębiorstwa Rozpoznanie danych Model przedsiębiorstwa Zdefiniowanie informacji potrzebnej użytkownikom końcowym Specyfikacja wymagań Opis potrzeb użytkowników Model abstrakcyjny systemu bazy danych Projekt koncepcyjny Modele danych Przeniesienie modelu abstrakcyjnego do SZBD Projekt logiczny Modele logiczne (obiektowe, relacyjne, itp.) Zdefiniowanie stuktur przechowywania danych i metod dostępu Projekt fizyczny Postać fizyczna systemu bazy danych

Plan wykładu 1 Zarzadzanie danymi 2 System plików 3 Systemy baz danych 4 Operacyjne systemy baz danych 5 Systemy baz danych w wspomaganiu decyzji i analize danych 6 Proces ekstrakcji, transformacji i ładowania 7 Od hurtowni danych do ekploracji danych

Operacyjne systemy baz danych Cel: wspomaganie pracowników w codziennej pracy w celu polepszanie produktywności; przetwarzanie danych biurowych (operacyjnych).

Operacyjne systemy baz danych sa to najczęsciej Transakcyjne SZBD. OLTP (On-line transaction processing) przetwarzanie transakcji na bieżaco. Transakcja jest atomowa jednostka pracy. Komunikacja odbywa się za pomoca transakcji. Zadania: duża liczba transakcji, spójność danych.

Transakcyjny system baz danych:

Zadania stawiane systemom operacyjnym zarzadzania danymi: ułatwienie przechowywania (często w sposób skomplikowany) powiazanych zbiorów danych, prosty dostęp do danych: ułatwienie definiowania, manipulowania oraz wyszukiwania danych, dostarczenie abstrakcyjnego języka zarzadzania danymi (łatwego w obsłudze), krótki czas odpowiedzi i duża wydajność, zapewnienie współbieżności, bezpieczeństwa i spójności danych.

Zastosowania: systemy bankowe, systemy zawierajace informacje o kadrach, systemy zawierajace informacje o studentach, systemy administracyjne, itp..

Plan wykładu 1 Zarzadzanie danymi 2 System plików 3 Systemy baz danych 4 Operacyjne systemy baz danych 5 Systemy baz danych w wspomaganiu decyzji i analize danych 6 Proces ekstrakcji, transformacji i ładowania 7 Od hurtowni danych do ekploracji danych

Analityczne systemy baz danych Cel: wspomaganie decydentów przy podejmowaniu szybszych i lepszych decyzji systemy wspomagania decyzji.

Systemy baz danych w analizie danych i wspomaganiu decyzji: potrzeba integracji systemów analizy danych i wspomagania decyzji z systemami baz danych: SAS, WEKA i inne systemy współpracuja z SZBD, Oracle i DB2 sa wzbogacane o narzędzia analityczne, SQL99, przetwarzanie bardzo dużych zbiorów danych, analiza danych zgromadzonych w operacyjnych bazach danych, tworzenie hurtowni danych, systemy statystycznych baz danych, systemy zarzadzania relacjami z klientami (CRM), elastyczne i eksploracyjne zapytania do baz danych, eksploracja danych, eksploracja zasobów Internetu.

Zastosowania: medyczne systemy wspomagania decyzji, systemy finansowe, systemy wspomagania decyzji biznesowych, systemy statystyczne administracji państwowej, itp..

Hurtownie danych i technologia OLAP: Hurtownia danych służa do magazynowania informacji z różnych źródeł w celu dostarczenia spójnego źródła danych dla zapytań wspomagajacych decyzje. OLAP (On-Line Analytical Processing) przetwarzanie analityczne na bieżaco, Zadania: efektywne wielowymiarowe przetwarzanie ogromnej ilości danych. W większości organizacji dane biznesowe sa dostępne na miejscu bardzo dużo, gdzieś, w pewnej nieokreślonej formie. Dane sa dostępne, ale nie informacja (wiedza). Trudny dostęp do odpowiedniej informacji w odpowiednim czasie.

Systemy wspomagania decyzji (DSS Decision Support Systems) maja na celu przyśpieszanie podejmowania lepszych dezycji. Idea systemów wspomagania decyzji powstała dużo wcześniej niż zaawansowane systemy zarzadzania bazami danych. Ich zadaniem jest dostarczanie informacji ludziom podejmujacym decyzje. Uzyskane informacje wzbogacaja wiedzę decydentów, dopomagajac im w podejmowaniu decyzji dotyczacych działań taktycznych i strategicznych.

Systemy wspomagania decyzji można scharakteryzować następujaco: sa ukierunkowane na mniej ustrukturalizowane, wymykajace się opisom problemy, przed jakimi z reguły staja kierownicy wyższego szczebla, maja właściwość czyniace je łatwymi do interakcyjnego użycia przez ludzi niezbyt dobrze obeznanymi z komputerem, sa elastyczne i dość łatwo daja się dostosować do zmian zachodzacych w środowisku, a także w sposobach podejmowania decyzji przez użytkownika.

Najczęściej zadaniem systemu wspomagania decyzji jest udzielenie rzeczowej odpowiedzi na pytania postawione przez użytkownika: Zapytanie: Dlaczego moja sprzedaż nie osiaga wymaganego poziomu? Powyższe pytanie jest trudne do realizacji przez system komputerowy (może kiedyś... :) Na pewno można kierować zapytania typu: Zapytania: Ile sprzedano samochodów w Wielkopolsce podczas ostatniego roku? Ile sprzedano samochodów osobowych w Poznaniu w ostatnich 10 latach?

Hurtownia danych może być podstawa DSS OLAP jest częścia systemów wspomagania decyzji Eksploracja danych (ang. Data Mining) jest silnym, o dużej wydajności narzędziem analizy danych w systemach DSS Wielokryterialna analiza decyzji

Inteligentne systemy wspomagania decyzji:

Porównanie OLTP i OLAP Kryterium OLTP OLAP Użytkownicy Urzędnicy Decydenci Funkcja Codzienne operacje Wspomaganie decyzji Projekt bazy Zorientowane na aplikacje Zorientowane na temat danych Dane Bieżace, aktualne, szczegółowe, Historyczne, sumowane, płaskie, relacyjne, wyodrębnione wielowymiarowe, zintegrowane Używanie Powtarzalne Ad-hoc Dostęp Odczyt/zapis Wiele przeszukiwań Jednostka Transakcje Złożone zapytania pracy Liczba krotek Rzędu 10 Rzędu miliona w operacji Użytkownicy Tysiace Setki Rozmiar bazy 100 MB-GB 100 GB-TB danych Metryka Wydajność transakcji Odpowiedź na zapytanie

Co to jest hurtownia danych? Definicja 1 (Bill Inmon) Jest to ukierunkowana, zintegrowana, czasowa, nieulotna kolekcja danych wspomagajaca proces wspomagania decyzji Definicja 2 Kolekcja danych wykorzystywane do wspomagania decyzji Definicja 3 Baza danych wspomagajaca podejmowanie decyzji odseparowana od operacyjnej bazy danych Dwa ważne nazwiska: Bill Inmon i Ralph Kimball

Ukierunkowana Ukierunkowana na dobrze zdefiniowany cel biznesowy przedsiębiorstwa Ukierunkowanie inne niż operacyjna baza danych Zintegrowana Usunięte niespójności w zbieranych danych (konwencje nazewnictwa, kodowania pomiędzy różnymi źródłami danych) Różne (heterogeniczne) źródła danych Konwersja i integracja przenoszonych danych

Czasowa Horyzont czasowy jest dłuższy niż w przypadku operacyjnej bazy danych Hurtownia danych zawsze zawiera elementy zwiazane z czasem Nieulotna Dane operacyjne sa regularnie uaktualniane W hurtowniach danych dane sa doładowywane W hurtowniach danych nie ma uaktualnianie danych w tradycyjnym znaczeniu

Wydajność i separowalność hurtowni danych: specjalna organizacja danych, metody dostępu i implementacja metod jest wymagana do wspomagania złożonych, wielowymiarowych zapytań, złożone zapytania mogłyby obniżyć wydajność transakcji operacyjnych, kontrola współbieżności oraz moduły odzyskiwania sa różne dla OLTP i OLAP, wspomaganie decyzji wymaga danych historycznych, które nie sa przechowywane w operacyjnych bazach danych, systemy wspomagania decyzji operuja na agregacjach danych z różnych źródeł, różne źródła przechowuja dane w niespójnej postaci.

Zalety systemów hurtowni danych: wysoka wydajność zapytań, zapytania sa niewidoczne poza hurtownia, brak ingerencji w dane operacyjne, możliwość pracy w przypadku braku dostępu do źródła danych, wspieranie specjalnych rodzajów zapytań, dodatkowe informacje udostępniane przez hurtownie danych.

Systemy mediacyjne (wcześniejsze podejście): tradycyjne podejście do integracji heterogenicznych baz danych, niepotrzebny proces magazynowania danych, dane bieżace (również bardziej aktualne), potrzeba tłumaczenia zapytań do systemów heterogenicznych, zakłócenia procesów operacyjnych, wirtualna odmiana hurtowni danych.

Plan wykładu 1 Zarzadzanie danymi 2 System plików 3 Systemy baz danych 4 Operacyjne systemy baz danych 5 Systemy baz danych w wspomaganiu decyzji i analize danych 6 Proces ekstrakcji, transformacji i ładowania 7 Od hurtowni danych do ekploracji danych

Proces ETL - proces ekstrakcji-transformacji-ładowania (ang. extraction-transformation-load): ekstrakcja danych, transformacja i integracja danych, ładowanie danych. Odświeżanie hurtowni danych Projektowanie i zarzadzanie procesem magazynowania danych

Tworzenie i wykorzystanie hurtowni danych wymaga dostępu do danych z wielu różnorodnych źródeł informacji: systemów baz danych (relacyjnych, obiektowych, hierarchicznych, sieciowych, itp.), źródeł zewnętrznych (uzyskanych od innych przedsiębiorstw, z wyników badań, specjalnych serwisów), plików standardowych typów (np. MS Excel), innych dokumentów (.doc, XML, WWW). Informacje sa integrowane, czyszczone i ładowane do hurtowni danych.

Architektura hurtowni danych:

Architektura hurtowni danych:

Zadania narzędzi ETL (ich automatyzacja lub ułatwienie): ekstrakcja (dostęp do różnorodnych źródeł danych), czyszczenie (wykrywanie i rozwiazywanie niespójności) transformacje (np. pomiędzy formatami danych, językami) ładowanie (wprowadzanie danych do hurtowni) replikacja (tworzenie kopii danych źródłowych w hurtowniach danych) odświeżanie danych analiza i sprawdzanie jakości danych (np. wykrywanie w danych wartości nieprawidłowych, nieoczekiwanych lub niekompletności) szybki transfer danych (ważne dla bardzo dużych hurtowni danych) analiza i zarzadzanie metadanymi (podczas zarzadzania procesem magazynowania danych)

Odświeżanie hurtowni danych: odświeżanie hurtowni danych oznacza wprowadzanie uaktualnień ze źródeł danych do danych składowanych w hurtowni danych, odświeżania ma podobna strukturę jak proces ETL, dostęp do świeżych danych jest jedna z kluczowych własności decydujacych o sukcesie hurtowni danych, wymagania zwiazane z dziedzina zastosowań (np. świeżość danych, czas obliczania perspektyw i odpowiedzi na zapytania, dokładność danych), ograniczenia zwiazane ze źródłami danych (np. okna dyspozycyjności, częstotliwość zmian), ograniczenia systemowe hurtowni danych (np. wielkość dostępnego miejsca).

Główne trudności: ilość danych przechowywana w hurtowniach danych jest bardzo duża i rośnie z czasem, odświeżanie hurtowni danych wymaga uruchomienia wielu transakcji o różnym stopniu złożoności, niektóre bardzo złożone co osłabia wydajność procesu, odświeżania odbywa się równolegle z obsługa zapytań, częste odświeżanie jest bardzo kosztowne.

Proces ETL:

Plan wykładu 1 Zarzadzanie danymi 2 System plików 3 Systemy baz danych 4 Operacyjne systemy baz danych 5 Systemy baz danych w wspomaganiu decyzji i analize danych 6 Proces ekstrakcji, transformacji i ładowania 7 Od hurtowni danych do ekploracji danych

Zastosowanie hurtowni danych: przetwarzanie informacji: zadawanie zapytań, podstawowa analiza statystyczna, tworzenie raportów, wykresów itp.. przetwarzanie analityczne: podstawowe operacje OLAP zaawansowane przetwarzanie analityczne: rozszerzone operacje OLAP eksploracja danych: odkrywanie ukrytych i nietrywialnych wzrorców, zwiazków w danych poprzez tworzenie modeli analitycznych; wizualizacja

Przetwarzanie eksploracyjne na bieżaco (On-line Analytical Mining)

Plan wykładu Relacyjne systemy baz danych i język SQL Projektowanie baz danych i ochrona danych Optymalizacja i struktury danych Systemy OLAP I Systemy OLAP II Modelowanie wielowymiarowe Proces ekstrakcji, transformacji i ładowania danych (Proces ETL)