Hurtownie danych i przetwarzanie analityczne - projekt

Hurtownie danych i przetwarzanie analityczne - projekt Warunki zaliczenia projektu: 1. Za projekt można zdobyć maksymalnie 40 punktów. 2. Projekt należy regularnie konsultować z jego koordynatorem. 3. Wynikiem projektu jest: dokumentacja techniczna (inżynierska) opisująca m.in. analizę wymagań, przyjętą koncepcję rozwiązania problemu, proponowaną architekturę techniczną, procedurę instalacji i konfiguracji systemu, metodykę przeprowadzenia testów, wyniki testów, ocena wyników wraz z wnioskami (uwaga: szczegółowa zawartość dokumentacji może się różnić w zależności od projektu, zawartość ta jest ustalana z koordynatorem projektu); fizycznie działający system/aplikacja; "obrona" projektu w formie prezentacji działania na żywo, slajdów i dyskusji z koordynatorem. Tematy projektów 1. Porównanie efektywności struktur fizycznych w IBM DB2 v.9.7 (2 osoby) porównad w oparciu o schemat gwiazdy efektywnośd wykonywania zapytao dla następujących scenariuszy testowych: utworzono standardowe indeksy na atrybutach połączeniowych i występujących w klauzuli WHERE; zdefiniowano multidimensional clusters o strukturach odpowiednich do zapytao (dobrad te struktury); zdefiniowano clustered indexes o strukturach odpowiednich do zapytao (dobrad te struktury); przedstawid plany wykonania zapytao wraz z kosztami (liczba operacji dyskowych, całkowity czas wykonania zapytania) dla ww. scenariuszy testowych. Uwaga: ten temat jest kontynuacją tematu z ubiegłego roku. Bazując na wynikach ubiegłorocznego projektu, należy zaprojektowad i wykonad scenariusze testowe na dużych wolumenach danych. Zespół projektowy: Jan Mizgajski, +2 osoby Koordynator projektu: Robert Wrembel 2. Porównanie obsługi zmian struktury danych źródłowych w najnowszych narzędziach ETL (2 osoby) Oracle Data Integrator, Oracle Warehouse Builder,

zgodny z założeniami benchmark'u TPC-DI, dane powinny byd odczytywane z bazy, plików CSV i plików XML, powinien zawierad komponent skryptowy, Zespół projektowy: Maria Jankowiak, Jakub Gardo 3. Porównanie obsługi zmian struktury danych źródłowych w najnowszych narzędziach ETL (3 osoby) IBM Information Server (Datastage), DB2 Infosphere Warehouse Edition, zgodny z założeniami benchmark'u TPC-DI, dane powinny byd odczytywane z bazy, plików CSV i plików XML, powinien zawierad komponent skryptowy, Zespół projektowy: Sebastian Malioski, Marek Lewandowski, Maja Wachowiak 4. Porównanie obsługi zmian struktury danych źródłowych w najnowszych narzędziach ETL (3 osoby) SQL Server Integration Services 2012, SAP Business Objects Data Services, zgodny z założeniami benchmark'u TPC-DI, dane powinny byd odczytywane z bazy, plików CSV i plików XML, powinien zawierad komponent skryptowy, Zespół projektowy:

5. Porównanie obsługi zmian struktury danych źródłowych w narzędziach ETL open source (2 osoby) Pentaho, Talend, zgodny z założeniami benchmark'u TPC-DI, dane powinny byd odczytywane z bazy, plików CSV i plików XML, powinien zawierad komponent skryptowy, Zespół projektowy: Wojciech Panek, Krzysztof Urbaniak 6. Porównanie obsługi zmian struktury danych źródłowych w narzędziach ETL open source (2 osoby) CloverETL, Scriptella, zgodny z założeniami benchmark'u TPC-DI, dane powinny byd odczytywane z bazy, plików CSV i plików XML, powinien zawierad komponent skryptowy, Zespół projektowy: Jakub Bacic, Marcin Kubacki 7. Porównanie możliwości rozpoznawania wzorców w sekwencji danych w Oracle i Teradata (2 osoby) dokonad analizy i porównania funkcji służących do rozpoznawania wzorców w sekwencji danych w Oracle 11g i Teradata Aster; przygotowad dane testowe;

przedstawid implementacje zapytao dla każdego z rozwiązao; zidentyfikowad zapytania, które nie mogą byd zaimplementowane albo w obu albo w jednym z ww. systemów. Zespół projektowy: Artur Sarbak, Artur Sitrarski Koordynator projektu: Łukasz Nienartowicz, Robert Wrembel 8. Analiza efektywności HadoopDB (4 osoby) wykonanie testów efektywności w architekturze hadoop + map-reduce + postgresql + heterogeniczne środowiska przetwarzania dla obliczeo analitycznych w systemach e-learning Zespół projektowy: Maciej Kruszwicki, Tomasz Wujec, Robert Głowski, Krzysztof Szlachetka 9. Chmury obliczeniowe (cloud computing) (3 osoby) Porównanie infrastruktur chmur obliczeniowych do obliczeo analitycznych przy pomocy agregatora chmur AppFog Zespół projektowy: Katarzyna Darłak, Michał Czyżycki, Michał Kleszcz 10. Windows Azure (3 osoby) Analiza efektywności Windows Azure Zespół projektowy: Jarosław Jankun, Jakub Kliszkowiak, Michał Dobrosierski 11. Standaryzacja rozwiązania raportowego do wizualizacji na mapach (projekt zgłoszony przez Roche, 4 osoby) Cel Stworzenie uniwersalnego rozwiązania raportowego pozwalającego na wizualizację danych biznesowych na interaktywnych mapach geograficznych Zdefiniowanie konfiguracji POI w MDMS i/lub Saleforce.com Stworzenie analitycznego modelu danych Stworzenie modułu integracji (zasilenie modelu danych na podstawie konfiguracji) Integracja z wybranym procesem biznesowym Stworzenie modułu raportowego (świat obiektów, raporty i kokpity) Narzędzia Oracle DB, Saleforce.com, MDMS

SAP Business Objects (Designer, Web Intelligence, SAP Mobile, Dashboard Design) Zespół projektowy: Agnieszka Nowak, Kamil Czyżnielewski, Szymon Dolata Koordynator projektu: Mariusz Pyka - Roche, Robert Wrembel