Proces ETL MS SQL Server Integration Services (SSIS)



Podobne dokumenty
Kostki OLAP i język MDX

OnLine Analytical Processing (OLAP) Kostki OLAP i zapytania MDX

Maciej Kiewra Quality Business Intelligence Consulting

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Procesy ETL - wykład V. Struktura. Wprowadzenie. 1. Wprowadzenie. 2. Ekstrakcja 3. Transformacja 4. Ładowanie 5. Studium przypadków.

Microsoft Access materiały pomocnicze do ćwiczeń cz. 1

LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS

Modelowanie wielowymiarowe i transformacja danych

Microsoft.NET: ASP.NET MVC + Entity Framework (Code First)

Systemy baz danych Prowadzący: Adam Czyszczoń. Systemy baz danych. 1. Import bazy z MS Access do MS SQL Server 2012:

Instrukcja laboratoryjna

Podstawy technologii WWW

ZAPOZNANIE SIĘ ZE SPOSOBEM PRZECHOWYWANIA

STWORZENIE BIBLIOTEKI SŁUŻĄCEJ DO WCZYTYWANIA

Uruchamianie bazy PostgreSQL

Budowa aplikacji ASP.NET współpracującej z bazą dany do obsługi przesyłania wiadomości

Microsoft.NET: ASP.NET MVC + Entity Framework (Code First)

Leszek Stasiak Zastosowanie technologii LINQ w

Rozwiązanie. Uruchom program Access 2007.

Założenia do ćwiczeń: SQL Server UWM Express Edition: \SQLEXPRESS. Zapoznaj się ze sposobami użycia narzędzia T SQL z wiersza poleceń.

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Programowanie obiektowe

INSTRUKCJA OTWIERANIA PLIKU DPT (data point table)

Instrukcja użytkownika programu QImport (wydanie I r.)

Migracja Business Intelligence do wersji

Spis tre±ci. Przedmowa... Cz ± I

Klasyfikacja i regresja Wstęp do środowiska Weka

Instrukcja użytkownika programu QImport (wydanie II r.)

Microsoft.NET: LINQ to SQL, ASP.NET AJAX

Import danych z plików CSV

Moduł Handlowo-Magazynowy Przeprowadzanie inwentaryzacji z użyciem kolektorów danych

5. Uruchomienie SQL Server Business Intelligence Development Studio Menu Start -> SQL Server Business Intelligence Development Studio

UNIWERSYTET RZESZOWSKI KATEDRA INFORMATYKI

Tabele przestawne tabelą przestawną. Sprzedawcy, Kwartały, Wartości. Dane/Raport tabeli przestawnej i wykresu przestawnego.

Część I Istota analizy biznesowej a Analysis Services

16) Wprowadzenie do raportowania Rave

Konwerter XML Dla Programów Symfonia Kadry i Płace oraz Forte Kadry i Płace

Budowa aplikacji ASP.NET współpracującej z bazą danych do obsługi przesyłania wiadomości

Szkolenie autoryzowane. MS Wdrażanie hurtowni danych w Microsoft SQL Server 2012

1 LINQ. Zaawansowane programowanie internetowe Instrukcja nr 1

Projektowanie baz danych za pomocą narzędzi CASE

Migracja Comarch ERP Altum Business Intelligence do wersji

Migracja Comarch ERP Altum Business Intelligence do wersji 2019

Jako lokalizację, w której będzie kontynuowana praca w przyszłym roku szkolnym, warto wybrać tę, w której zgromadzonych jest więcej danych.

Informatyzacja Przedsiębiorstw

ASP.NET MVC. Podstawy. Zaawansowane programowanie internetowe Instrukcja nr 3

Reporting Services. WinProg 2011/2012. Krzysztof Jeliński Dawid Gawroński 1 / 11

Laboratorium Technologii Informacyjnych. Projektowanie Baz Danych

Politechnika Poznańska Wydział Budowy Maszyn i Zarządzania

Microsoft SQL Server Integration Services

Przewodnik Szybki start

Problemy techniczne SQL Server

Ulotka skrócona Moduł Analizy BI. Wersja:

Bazodanowe usługi sieciowe w technologii ASP.NET. dr inż. Tomasz Tatoń

Baza danych sql. 1. Wprowadzenie

Migracja Business Intelligence do wersji

Problemy techniczne SQL Server

ANALYSIS SERVICES. 1. Tworzymy połączenie ze źródłem danych. 2. Tworzymy nowy widok dla źródła danych

Kadry Optivum, Płace Optivum. Jak przenieść dane na nowy komputer?

Instrukcja migracji z programu Proste Faktury do programu DuoKomp Sprzedaż i Magazyn

Kadry Optivum, Płace Optivum. Jak przenieść dane na nowy komputer?

Laboratorium nr 4. Temat: SQL część II. Polecenia DML

Część 1: OLAP. Raport z zajęć laboratoryjnych w ramach przedmiotu Hurtownie i eksploracja danych

Migracja XL Business Intelligence do wersji

Sposób tworzenia tabeli przestawnej pokażę na przykładzie listy krajów z podstawowymi informacjami o nich.

Płace Optivum. 1. Zainstalować serwer SQL (Microsoft SQL Server 2008 R2) oraz program Płace Optivum.

WYKONANIE APLIKACJI OKIENKOWEJ OBLICZAJĄCEJ SUMĘ DWÓCH LICZB W ŚRODOWISKU PROGRAMISTYCZNYM. NetBeans. Wykonał: Jacek Ventzke informatyka sem.

Zapytania i wstawianie etykiet z bazy danych do rysunku

System imed24 Instrukcja Moduł Analizy i raporty

Informatyka Ćwiczenie 10. Bazy danych. Strukturę bazy danych można określić w formie jak na rysunku 1. atrybuty

Arkusz Optivum. Jak eksportować do SIO dane z Arkusza Optivum?

Modelowanie wielowymiarowe hurtowni danych

Migracja Business Intelligence do wersji 11.0

Migracja Business Intelligence do wersji

LK1: Wprowadzenie do MS Access Zakładanie bazy danych i tworzenie interfejsu użytkownika

1. Zaloguj się do systemu UONET+ jako administrator i uruchom moduł Administrowanie.

PRZESTRZENNE BAZY DANYCH WYKŁAD 2

Bazy danych Ćwiczenie 1 Instrukcja strona 1 Wersja ogólna

Program Lojalnościowy by CTI. Instalacja

COMARCH DATA WAREHOUSE MANAGER 6.2

Budowa aplikacji ASP.NET współpracującej z bazą danych do obsługi przesyłania wiadomości

BOC INFORMATION TECHNOLOGIES CONSULTING. Zadania. Przykład bankowy

Połączenie AutoCad'a z bazą danych

OnLine Analytical Processing (OLAP) Zapytania SQL

Instrukcja użytkownika ARSoft-WZ3

Gra-zabawka dla niemowląt przygotowana z użyciem w Unity 3D

5.3. Tabele. Tworzenie tabeli. Tworzenie tabeli z widoku projektu. Rozdział III Tworzenie i modyfikacja tabel

Hurtownie danych - przegląd technologii

Programowanie w środowisku graficznym GUI

Przedszkolaki Przygotowanie organizacyjne

Wprowadzenie do projektowania i wykorzystania baz danych Relacje

Program szkoleniowy Efektywni50+ Moduł V Raportowanie dla potrzeb analizy danych

NIEZBĘDNIK UŻYTKOWNIKA

Podstawy Pentaho Data Integration

Instrukcja importu przesyłek. z Menedżera Sprzedaży do aplikacji Webklient

1. Podręcznik instalacji aplikacji EXR Creator Wstęp Instalacja Instalacja aplikacji EXR Creator z płyty CD

Instrukcja użytkownika aplikacji modernizowanego Systemu Informacji Oświatowej PRACA NA WIELU BAZACH DANYCH

MentorGraphics ModelSim

TEMAT ĆWICZENIA Zapoznanie z technologią LINQ

Transkrypt:

Proces ETL MS SQL Server Integration Services (SSIS) 3 kwietnia 2014 Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików PDF sformatowanych jak ten. Będą się na nie składały różne roadzje zadań, ale za każdym razem będą odpowiednio oznaczone: Zadania do wykonania na zajęciach oznaczone są symbolem nie są one punktowane, ale należy je wykonać w czasie zajęć. Punktowane zadania do wykonania na zajęciach oznaczone są symbolem należy je wykonać na zajęciach i zaprezentować prowadzącemu. Zadania do wykonania w domu oznaczone są symbolem - są one punktowane, należy je dostarczyć w sposób podany przez prowadzącego i w wyznaczonym terminie (zwykle do dwóch dni przed kolejnymi zajęciami). Po zakończeniu zajęć proszę o udzielenie odpowiedzi na kilka pytań zebranych w ankietę dostępną pod adresem http://goo.gl/utyhtx 1

1 Dyskusja dotycząca prac domowych Treść Transformacja danych do nowego schematu Internetowa wypożyczalnia filmów schemat gwiazdy 2

2 Million Song Dataset w SSIS 2p. Treść Microsoft SQL Server Integration Services (SSIS) jest platformą przeznaczoną do budowania wydajnych rozwiązań migracji danych, czyli ekstrakcji, transformacji i wczytywania (ang. extract, transform, load ETL) w obszarze hurtowni danych. Funkcje i możliwości SSIS: narzędzia graficzne oraz kreatory projektowania i debugowania, narzędzia modelowania workflow (przepływu pracy), wykonywanie zapytań SQL, narzędzia do ekstrakcji danych z różnych źródeł, narzędzia służące do transformacji, czyszczenia, agregowania, łączenia i kopiowania danych, usługi administracyjne, interfejsy programistyczne (API) dla modelu obiektowego Integration Services. Projekty SSIS tworzymy za pomocą narzędzia Microsft SQL Server Data Tools, które jest część MS SQL Server i MS Visual Studio. 2.1 Proces ETL dla MSD krok po kroku (część I) Krok 1: Stworzenie nowego projektu i połączenia do bazy danych Z okna New Project należy wybrać Integration Services Project. 3

Projektem możemy zarządzać za pomocą widoku Solution Explorer: W widoku Server Explorer dodajemy nowe połączenie dla naszej bazy danych, którą możemy nazwać MSD (jeżeli baza nie istnieje, MS Visual Studio utworzy ją automatycznie). 4

Krok 2: Połączenia do bazy i plików z danymi wejściowymi W widoku Connection Managers tworzymy: OLE DB Connection, które łączy nas do wcześniej zdefiniowanej bazy danych. Flat File Connection, który jest menedżerem połączenia do pliku z informacjami o piosenkach unique tracks.txt. Flat File Connection, który jest menedżerem połączenia do pliku z trójkami odsłuchań triplets sample 20p.txt. Należy pamiętać o odpowiednim ustawieniu separatora dla rozdzielenia kolumn. Pomocne będzie też nadanie nazw i typów kolumnom. Krok 3: Tworzenie tabel users i dates Nasz proces ETL będziemy projektować w widoku Control Flow: Aby dodać zadanie zapytania SQL należy do Control Flow przenieść moduł Execute SQL Task z widoku SSIS Toolbox: 5

W naszym zadaniu będziemy potrzebować zapytania SQL dla tworzenia tabel users, dates i songs. Na tym etapie zatrzymamy się na tych dwóch pierwszych oraz dodatkowo stworzymy tymczasowe tabele tmp users i tmp dates, które później przydadzą nam się do założenia kluczy zastępczych (surrogate keys). Struktura tych tabel będzie nam potrzebna przy edytowaniu kolejnych workflowów, zatem stworzone zadania można wykonać. W tym celu należy je klinąć prawym przyciskiem myszy i wybrać Execute Task. Krok 4: Wczytanie użytkowników i dat z pliku W celu stworzenia workflow dla wczytywania danych z pliku do odpowiednich tabel musimy dodać moduł Data Flow Task do Control Flow. Data Flow Task edytujemy w widoku Data Flow: 6

Nasze zadanie data flow wykorzystuje moduł Flat File Source z ustawionym menedżerem połączenia Triplets Connection Manager (odpowiadającym za połączenie z plikiem triplets sample 20p.txt). Jako, że w pliku z trójkami odsłuchań mamy m.in. informacje o użytkownikach i datach, musimy wykonać dwa podprocesy, które rozdziela moduł Multicast. W pierwszym podprocesie wykorzystujemy OLE DB Destination do zamapowania tekstowego ID użytkownika (z pliku) do naszej tymczasowej tabeli tmp users. Drugi podproces wykonuje podobną operację dla dat, tyle że tutaj musimy dokonać konwersji daty zapisanej w timestampie do daty zapisanej jako dzień, miesiąc i rok. Do tego celu potrzebne nam będą dwa moduły Derived Column: pierwszy konwertuje timestamp do formatu yyyy-mm-dd, a drugi ekstrahuje numer dnia, miesiąca i roku. Do Control Flow musimy też dodać dwa proste Data Flow Tasks (Users Unique Task i Dates Unique Task), które przepiszą wcześniej wyekstrahowane informacje do tabel users i dates. Nasz proces powinien wyglądać w tej chwili następująco: 7

W tym kroku możemy stworzyć jeszcze jeden Data Flow Task o nazwie Triplets Import Task, który połączy nam informacje o użytkownikach, piosenkach i datach wczytując je do tabeli faktów. Wcześniej jednak należy wykonać dwa proste zadania: 2.2 Zadanie 1 - krok 5: Stworzenie tabeli faktów (1p.) Zadanie polega na dodaniu do schematu przepływu (Control Flow) zadania, które stworzy pustą tabelę faktów dla rozważanego problemu Million Song Dataset. Pamiętaj o wczesniejszym usunięciu poprzedniej wersji tabeli (poprzez odpowiednie zapytanie SQL). Uwaga: na tym etapie nie nakładamy kluczy na atrybuty. Połącz utworzone zadanie do zadania data flow o nazwie Triplets Import Task. 2.3 Zadanie 2 - krok 6: Stworzenie tabeli faktów (2p.) Naszym celem jest stworzenie zadań, które zrealizują import piosenek do tabeli songs zawierającej następujące atrybuty: song id, typu int, song text id, typu varchar, track text id, typu varchar, artist, typu varchar, title, typu varchar. Stwórz odpowiednie zadanie przygotowujące tablicę oraz data flow, w którym 1) odwołamy się do Songs File Connection Managera oraz 2) wykorzystamy odpowiednie moduły (które już znasz) do zamapowania danych źródłowych na dane docelowe (dane z pliku unique tracks.txt do tabeli songs). 8

2.4 Proces ETL dla MSD krok po kroku (część II) Krok 7: Wczytanie danych do tabeli faktów W tym kroku edytujemy flow Triplets Import Task, który pozwoli nam zaimportować trójki, biorąc pod uwagę wcześniej zaimportowanych użytkowników i daty. Moduł Flat File Source dostarcza nam dane z pliku triplets sample 20p.txt. Następnie wykorzystujemy moduły Lookup. Tranformacja Lookup wykonuje wyszukiwanie przez połączenie danych w kolumnach wejściowych z kolumnami w danych referencyjnych, tzn. daje nam dostęp do dodatkowych informacji z powiązanej tabeli które bazują na wartościach we wspólnych kolumnach. W naszym przypadku pierwszy lookup pobiera zastępczy ID piosenki bazując na oryginalnym tekstowym ID, natomiast drugi lookup analogicznie pobiera zastępczy ID użytkownika. Dalej dokonujemy podobnej konwersji daty jak w kroku 4 oraz za pomocą trzeciego modułu lookup pobieramy ID daty bazując na dniu, miesiącu oraz roku. OLE DB Destination mapuje te wszystkie informacje na odpowiednie atrybuty w tabeli faktów. 9

Krok 8: Integralność danych Na końcu naszego procesu musimy wprowadzić ograniczenia do naszych danych w celu wymuszania ich integralnoci. Aby to zrobić należy wykonać odpowiednie zapytanie SQL ALTER TABLE w module Execute SQL Task. Finalny schemat procesu ETL można pobrać ze strony przedmiotu. Krok 9: Uruchomienie Aby uruchomić nasz proces ETL należy kliknąć przycisk Start Debugging: 10