Tematy projektów HDiPA 2015

Tematy projektów HDiPA 2015 Robert Wrembel Poznan University of Technology Institute of Computing Science Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Reguły Projekty zespołowe 2-4 osoby w zespole Zaliczenie projektu produkt projektu (50%) czy spełnia wymagania jakość rozwiązania i otrzymanych wyników terminowość dokumentacja techniczna (40%) zawartość raportu struktura raportu język (czytelność prezentacji) prezentacja końcowa (10%) zawartość struktura sposób prezentacji 2

Reguły Realizacja projektu metodyka manager zespół cykliczne prezentacje na każdych zajęciach postęp problemy Projekt oddany później niż 30 czerwca może otrzymać maksymalnie ocenę dobrą 3 1. Analyzing adverse events from the Internet (3 pers.) For Roche Motivation: Roche as a pharmaceutical company is obligated to gather adverse event from its employees, doctors, clinical trials, etc. Adverse event undesired harmful effect resulting from a medication. It's law regulation. So far company is not obligated to gather such data from the Internet, but it might happened in the future, and we want to be prepared. That's why we want to create process that will simulate such gathering. Concept: Gather information about defects of cars of chosen company (VW, Honda etc.). Such defects would mimic somehow adverse event: patient-car, doctor-mechanic, adverse eventcar defect, drug portfolio-different cars from given company. 4

1. Analyzing adverse events from the Internet (cd.) Requirements: Collect data from various Internet sources such as: Facebook, Tweeter, various forums, wikis, and possibly other data sources. We want to get know how such data can be accessed, on which conditions, how much would it cost etc. Next step would be unifying this data in some storage. Next step would be text analysis of given data using data mining and find "adverse events-car defects" in those data set. Technologies: Data storage: Cassandra/Hypertable DynamoDB/Azure Table Storage Analytics: data mining, R 5 1. Analyzing adverse events from the Internet (cd.) Kontynuacja projektu ubiegłorocznego Opiekun projektu: Krzysztof Koschany Skład zespołu studenckiego 6

2. Odkrywanie źródeł danych w Internecie Dla Roche Opracowanie i zaimplementowanie architektury odkrywania i integrowania źródeł danych na zadany temat w Inernecie Technologie Open Linked Data NoSQL RDF Opiekun projektu: Krzysztof Koschany 7 3. Dokumentacja Tableau Dla Roche Opis problemu: w każdym projekcie proces developmentu raportów składa się m.in. przygotowywania dokumentacji technicznej (dla każdego raportu). Dokumentacja zawiera informacje dot. konstrukcji raportu, połączenia etc. Jest to powtarzalne zadanie więc poszukujemy rozwiązania, które zautomatyzuje ten proces. Ponieważ każdy raport Tableau (.twb) jest zapisywany jako plik xml opisujący strukturę to parsując go można przygotować dokumentację. 8

3. Dokumentacja Tableau Wynik: Automatyczne narzędzie do dokumentowania raportów przygotowanych w Tableau + dokumentacja (opis analizy struktury pliku xml, instrukcja obsługi, kod źródłowy) Dodatkowe wymagania: prosta instalacja narzędzia, łatwość dzielenia się z innymi instalacją, Tableau 8.2.2 (ew. 8.3) projekt interfejsu i zawartość dokumentacji zostaną zdefiniowane po wstępnej analizie pliku xml Opiekun projektu: Agnieszka Baran-Iwaszko 9 4. Połączenie Tableau i R Dla Roche Opis problemu: R staje się coraz bardziej popularnym narzędziem do analizy danych. W Tableau zaimplementowane zostały funkcje R narzędzia raportowe jednocześnie Tableau jest wykorzystywane jako narzędzie do wizualizacji Wynik: analiza, dokumentacja i demo przedstawiające zagadnienia: jak wygląda połączenie Tableau + serwera R jak można wykorzystać funkcje R wbudowane w Tableau jak można przygotować narzędzie do analizy danych przyjazne dla użytkownika biznesowego Opiekun projektu : Agnieszka Baran-Iwaszko 10

5. Porównanie baz column-family Dla Pearson/IOKI Źródło danych: posty Faebook'a Zaprojektowanie struktury bazy danych Utworzenie struktur fizycznych Zaprojektowanie benchmarku zasilanie odczyt zmienny % odczytów do zapisów Ocena efektywności rozwiązań Technologie: Cassandra i HBase Opiekun projektu: Sławomir Grzmiel 11 6. Storm i Kafka Dla Pearson/IOKI Ocena funkcjonalności i wydajności Storm i Kafka w architekturze ETL Zainstalowanie i skonfigurowanie środowiska Opracowanie benchmarku Wykonanie testów Analiza wyników Opiekun projektu: Sławomir Grzmiel 12

7. Generator danych testowych Dla IBM Zaprojektowanie i zaimplementowanie programu do generowania danych testowych. Mając do dyspozycji zapytanie SQL i/lub plan wykonania danego zapytania oraz statystyki dla poszczególnych tabel uczestniczących w zapytaniu (mierzone jako: wartość minimalna, maksymalna, ilość unikalnych wartości oraz dyspersja) program powinien generować dane spełniające warunki zapytania. Należy tutaj wziąć pod uwagę restrykcje oraz warunki łączenia. Uwaga: celem nie jest generowanie losowych danych dla wszystkich tabel, lecz takich, które pozwolą przetestować różne warianty zapytania pod względem wydajności oraz poprawności zwracanego wyniku. Opiekun projektu: Michał Baranowski, Robert Wrembel 13 8. Regresja liniowa w Netezza Dla IBM Implementacja rozproszonego algorytmu regresji liniowej na Netezza Performance Server Założenia dane wejściowe dla wyznaczania współczynników znajdują się w tabeli, jako parametr wejściowy podajemy nazwę kolumny algorytm zwraca tabelę zawierającą wartości współczynników Opiekun projektu: Michał Baranowski, Robert Wrembel 14

9. Integracja map z Cognos Dla IBM Cel: stworzenie aplikacji umożliwiającej graficzną prezentację raportów wygenerowanych w Cognos Zadania szczegółowe: rozszerzenie istniejącego schematu bazy o dane adresowe (schemat dostarcza IBM) wygenerowanie danych dla modelu (dane adresowe: nazwy państw, miast, ulic muszą być rzeczywiste) rozszerzenie modelu Cognos o dane adresowe (model dla Congos dostarcza IBM) dodanie raportów wykorzystujących dane adresowe integracja z Google Maps (poprzez API), wykorzystanie graficznej prezentacji map w raportach 15 9. Integracja map z Cognos Baza testowa powinna zawierać ok 100 000 rekordów Baza będzie zawierać ponad 1 000 000 000 rekordów Implementacja i testy na symulatorze Netezza Performance Server Opiekun projektu: Michał Baranowski, Robert Wrembel 16