Tematy projektów Edycja 2014 Robert Wrembel Poznan University of Technology Institute of Computing Science Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Reguły Projekty zespołowe max. 4 osoby w zespole Zaliczenie studium dyplom 60% egzamin pisemny 40% projekt Zaliczenie projektu prezentacja końcowa (obrona): ocenie podlega zawartość struktura sposób prezentacji raport techniczny: ocenie podlega jakość produktu projektu zawartość raportu struktura raportu język (czytelność prezentacji) 2
Reguły Realizacja projektu metodyka (Scrum, Prince2,...) manager zespół cykliczne prezentacje na zajęciach postęp problemy 3 Tematy 1. Efektywność clustering index i MDC w zapytaniach analitycznych w IBM DB2 (2 osoby) 2. Analiza jakościowa i ilościowa zmian w strukturach źródeł danych (2 lub 3 osoby) 3. Porównanie wydajności HBase i Cassandra (3 osoby) 4. Porównanie wydajności Storm i Kafka (3 osoby) 5. Efektywność przeszukiwania dokumentów ze wsparciem Elasticsearch (3 osoby) 6. Wirtualna integracja danych sektora publicznego (open data, linked data) i ich analiza (4 osoby) 7. Test funkcjonalności Splice Machine (2 osoby) 4
1. Clustering index i MDC System: IBM DB2 Star Schema Benchmark (SSB) Porównanie, w oparciu o SSB, efektywności wykonywania zapytań dla następujących testowych scenariuszy obciążenia standardowe indeksy na atrybutach połączeniowych i występujących w klauzuli WHERE MDC o strukturach odpowiednich do zapytań clustering index o strukturach odpowiednich do zapytań Analiza planów wykonania zapytań kosztów wykonania zapytań (liczba operacji dyskowych, całkowity czas wykonania zapytania) Wnioski dot. wykorzystania ww. struktur dla scenariuszy obciążenia 5 2. Analiza zmian w źródłach Rzeczywisty system informatyczny Analiza zmian struktury źródeł danych jakościowa - klasyfikacja zmian ilościowa - jak często się pojawiały Analiza wpływu zmian na warstwę ETL hurtownię danych aplikacje 6
3. Wydajność HBase i Cassandra Opracowanie benchmarku opartego na analizie tweet'ów schemat repozytorium zapytania rozmiar repozytorium Wczytanie nowych tweet'ów do istniejącego repozytorium Wykonanie eksperymentów pomiaru wydajności obu systemów w oparciu o opracowany benchmark 7 4. Wydajność Storm i Kafka Opracowanie benchmarku przepustowość systemu w zależności od rozmiaru przetwarzanej paczki danych skalowalność dla parametryzowanej liczby spout/producer i bolt/consumer Wczytanie nowych tweet'ów do istniejącego repozytorium Wykonanie eksperymentów pomiaru wydajności obu systemów w oparciu o opracowany benchmark 8
5. Wydajność Elasticsearch Opracowanie benchmarku dokumentowej bazy danych schemat repozytorium zapytania rozmiar repozytorium struktury indeksowe Wykonanie eksperymentów mierzących efektywność wykonania zapytań z benchmarku 9 6. Wirtualna integracja danych Dane sektora publicznego (open data, linked data) Implementacja architektury integracji o nast. funkcjonalności: odkrywanie źródeł danych integrowanie wybranych źródeł danych możliwość wykonywania prostych zapytań Proponowane źródła danych: transport publiczy, np. MPK dane demograficzne, np. aglomeracja poznańska dane geograficzne, np. system GEOPOZ 10
7. Splice Machine Instalacja systemu Ocena funkcjonalności architektura instalacja wparcie SQL transakcyjność wsparcie struktur NoSQL i relacyjnych wsparcie języków proceduralnych współbieżność administrowanie 11