Tematy projektów HDiPA 2015

Podobne dokumenty
Tematy projektów Edycja 2014

Tematy projektów Edycja 2017

Hurtownie danych i przetwarzanie analityczne - projekt

Tematy projektów Edycja 2019

Instrukcja obsługi narzędzia API

PROJEKT Z BAZ DANYCH

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

Przetwarzanie danych z wykorzystaniem technologii NoSQL na przykładzie serwisu Serp24

Monitoring procesów z wykorzystaniem systemu ADONIS

Portale raportowe, a narzędzia raportowe typu self- service

Szkolenie: Jak mieć więcej czasu na wyciąganie wniosków

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Projekt przejściowy 2015/2016 BARTOSZ JABŁOŃSKI, TOMASZ JANICZEK

FORMULARZ OFERTOWY. Termin dostarczenia dokumentu 1

Tematy prac dyplomowych inżynierskich

Szkolenia SAS Cennik i kalendarz 2017

Wdrożenie technologii procesowej IBM BPM w EFL

Zarządzaj projektami efektywnie i na wysokim poziomie. Enovatio Projects SYSTEM ZARZĄDZANIA PROJEKTAMI

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

Tworzenie aplikacji bazodanowych

Referat pracy dyplomowej

REFERAT PRACY DYPLOMOWEJ

COMARCH DATA WAREHOUSE MANAGER 6.2

16:30-20:00 (4x45min) Wykład: Architektury i technologie integracji danych (Robert Wrembel) Sala 13

Międzyplatformowy interfejs systemu FOLANessus wykonany przy użyciu biblioteki Qt4

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

SNP Business Partner Data Checker. Prezentacja produktu

Projektowanie baz danych za pomocą narzędzi CASE

IO - Plan testów. M.Jałmużna T.Jurkiewicz P.Kasprzyk M.Robak. 5 czerwca 2006

XIII International PhD Workshop OWD 2011, October 2011 METODA REEINGINEERINGU ORGANIZACJI Z WYKORZYSTANIEM SYMULATORA PROCESÓW BIZNESOWYCH

Monitoring procesów z wykorzystaniem systemu ADONIS. Krok po kroku

Hurtownie danych - przegląd technologii

firmy produkty intranet handel B2B projekty raporty notatki

Projekt przejściowy 2016/2017 BARTOSZ JABŁOŃSKI

Wykład Ćwiczenia Laboratorium Projekt Seminarium

CouchDB. Michał Nowikowski

Bartłomiej Graczyk MCT,MCITP,MCTS

Szczegółowy opis przedmiotu zamówienia

HP Service Anywhere Uproszczenie zarządzania usługami IT

Nowe technologie baz danych

Tworzenie raportów XML Publisher przy użyciu Data Templates

SNP SNP Business Partner Data Checker. Prezentacja produktu

Serwery. Autorzy: Karol Czosnowski Mateusz Kaźmierczak

System Wspomagający Ośrodki Szkolenia w Piłce Ręcznej. Spała, Polska Listopad 2015

Mamy najlepsze ceny na rynku!

Tworzenie wersji demonstracyjnych enova365 na potrzeby prezentacji u Klienta

Pojęcie systemu baz danych

Część I Tworzenie baz danych SQL Server na potrzeby przechowywania danych

Hurtownie danych wykład 5

Automatyczne generowanie testów z modeli. Bogdan Bereza Automatyczne generowanie testów z modeli

Szczegółowy opis przedmiotu umowy. 1. Środowisko SharePoint UWMD (wewnętrzne) składa się z następujących grup serwerów:

EXSO-CORE - specyfikacja

Załącznik nr 1 do Zapytania ofertowego: Opis przedmiotu zamówienia

Integracja systemów sterowania i sterowanie rozproszone 5 R

Specjalizacja magisterska Bazy danych

Tematy dyplomów inżynierskich 2009 Katedra Inżynierii Oprogramowania

Projektowanie rozwiązań Big Data z wykorzystaniem Apache Hadoop & Family

XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Instalacja SQL Server Express. Logowanie na stronie Microsoftu

Sposoby analizy i interpretacji statystyk strony WWW.

Zarządzanie testowaniem wspierane narzędziem HP Quality Center

Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering

PRZEWODNIK PO PRZEDMIOCIE

Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Hbase, Hive i BigSQL

Indeksowanie full text search w chmurze

Jednolity Plik Kontrolny

Generowanie raportów

Od papierowych procedur do automatycznych procesów biznesowych w urzędzie dobre praktyki Michał Prusaczyk

Informatyka I. Standard JDBC Programowanie aplikacji bazodanowych w języku Java

Wprowadzenie do Hurtowni Danych

Praktyczne wykorzystanie elementów raportowania Microsoft Project 2010 /Project Server 2010 Sesja 5 PowerPivot & PowerView Bartłomiej Graczyk

QualitySpy moduł reports

Bazy danych. Plan wykładu. Rozproszona baza danych. Fragmetaryzacja. Cechy bazy rozproszonej. Replikacje (zalety) Wykład 15: Rozproszone bazy danych

Mariusz Dzieciątko. Krótko o sobie / Personal Overview/

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

HARMONOGRAM: DZIEŃ GODZINA MIEJSCE PROWADZĄCY TEMAT OPIS

Praktyczne aspekty pozyskiwania wiedzy z danych z perspektywy matematyka w bankowości (VI zajęcia) Jakub Jurdziak

XII International PhD Workshop OWD 2010, October Metodyka pozyskiwania i analizy wyników badań symulacyjnych ścieżek klinicznych

Grzegorz Ruciński. Warszawska Wyższa Szkoła Informatyki Promotor dr inż. Paweł Figat


Wprowadzenie do metodologii modelowania systemów informacyjnych. Strategia (1) Strategia (2) Etapy Ŝycia systemu informacyjnego

EXR - EASY XBRL REPORTING

Parametry wydajnościowe systemów internetowych. Tomasz Rak, KIA

Automatyka i Robotyka ROK III TEMAT: TWORZENIE I ZARZĄDZANIE INTERNETOWĄ BAZĄ DANYCH


PRZEWODNIK PO PRZEDMIOCIE

Tester oprogramowania 2014/15 Tematy prac dyplomowych

Wprowadzenie do Doctrine ORM

Automatyzacja testowania oprogramowania. Automatyzacja testowania oprogramowania 1/36

Optymalizacja poleceń SQL

Katedra Inżynierii Oprogramowania Tematy prac dyplomowych inżynierskich STUDIA NIESTACJONARNE (ZAOCZNE)

Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science

Zapytanie ofertowe nr 3/B/2013

Informatyka I. Programowanie aplikacji bazodanowych w języku Java. Standard JDBC.

DOKUMENTACJA BI SOW PFRON. Powykonawcza. dla BI INSIGHT S.A. UL. WŁADYSŁAWA JAGIEŁŁY 4 / U3, WARSZAWA. Strona 1 z 23

Transkrypt:

Tematy projektów HDiPA 2015 Robert Wrembel Poznan University of Technology Institute of Computing Science Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Reguły Projekty zespołowe 2-4 osoby w zespole Zaliczenie projektu produkt projektu (50%) czy spełnia wymagania jakość rozwiązania i otrzymanych wyników terminowość dokumentacja techniczna (40%) zawartość raportu struktura raportu język (czytelność prezentacji) prezentacja końcowa (10%) zawartość struktura sposób prezentacji 2

Reguły Realizacja projektu metodyka manager zespół cykliczne prezentacje na każdych zajęciach postęp problemy Projekt oddany później niż 30 czerwca może otrzymać maksymalnie ocenę dobrą 3 1. Analyzing adverse events from the Internet (3 pers.) For Roche Motivation: Roche as a pharmaceutical company is obligated to gather adverse event from its employees, doctors, clinical trials, etc. Adverse event undesired harmful effect resulting from a medication. It's law regulation. So far company is not obligated to gather such data from the Internet, but it might happened in the future, and we want to be prepared. That's why we want to create process that will simulate such gathering. Concept: Gather information about defects of cars of chosen company (VW, Honda etc.). Such defects would mimic somehow adverse event: patient-car, doctor-mechanic, adverse eventcar defect, drug portfolio-different cars from given company. 4

1. Analyzing adverse events from the Internet (cd.) Requirements: Collect data from various Internet sources such as: Facebook, Tweeter, various forums, wikis, and possibly other data sources. We want to get know how such data can be accessed, on which conditions, how much would it cost etc. Next step would be unifying this data in some storage. Next step would be text analysis of given data using data mining and find "adverse events-car defects" in those data set. Technologies: Data storage: Cassandra/Hypertable DynamoDB/Azure Table Storage Analytics: data mining, R 5 1. Analyzing adverse events from the Internet (cd.) Kontynuacja projektu ubiegłorocznego Opiekun projektu: Krzysztof Koschany Skład zespołu studenckiego 6

2. Odkrywanie źródeł danych w Internecie Dla Roche Opracowanie i zaimplementowanie architektury odkrywania i integrowania źródeł danych na zadany temat w Inernecie Technologie Open Linked Data NoSQL RDF Opiekun projektu: Krzysztof Koschany 7 3. Dokumentacja Tableau Dla Roche Opis problemu: w każdym projekcie proces developmentu raportów składa się m.in. przygotowywania dokumentacji technicznej (dla każdego raportu). Dokumentacja zawiera informacje dot. konstrukcji raportu, połączenia etc. Jest to powtarzalne zadanie więc poszukujemy rozwiązania, które zautomatyzuje ten proces. Ponieważ każdy raport Tableau (.twb) jest zapisywany jako plik xml opisujący strukturę to parsując go można przygotować dokumentację. 8

3. Dokumentacja Tableau Wynik: Automatyczne narzędzie do dokumentowania raportów przygotowanych w Tableau + dokumentacja (opis analizy struktury pliku xml, instrukcja obsługi, kod źródłowy) Dodatkowe wymagania: prosta instalacja narzędzia, łatwość dzielenia się z innymi instalacją, Tableau 8.2.2 (ew. 8.3) projekt interfejsu i zawartość dokumentacji zostaną zdefiniowane po wstępnej analizie pliku xml Opiekun projektu: Agnieszka Baran-Iwaszko 9 4. Połączenie Tableau i R Dla Roche Opis problemu: R staje się coraz bardziej popularnym narzędziem do analizy danych. W Tableau zaimplementowane zostały funkcje R narzędzia raportowe jednocześnie Tableau jest wykorzystywane jako narzędzie do wizualizacji Wynik: analiza, dokumentacja i demo przedstawiające zagadnienia: jak wygląda połączenie Tableau + serwera R jak można wykorzystać funkcje R wbudowane w Tableau jak można przygotować narzędzie do analizy danych przyjazne dla użytkownika biznesowego Opiekun projektu : Agnieszka Baran-Iwaszko 10

5. Porównanie baz column-family Dla Pearson/IOKI Źródło danych: posty Faebook'a Zaprojektowanie struktury bazy danych Utworzenie struktur fizycznych Zaprojektowanie benchmarku zasilanie odczyt zmienny % odczytów do zapisów Ocena efektywności rozwiązań Technologie: Cassandra i HBase Opiekun projektu: Sławomir Grzmiel 11 6. Storm i Kafka Dla Pearson/IOKI Ocena funkcjonalności i wydajności Storm i Kafka w architekturze ETL Zainstalowanie i skonfigurowanie środowiska Opracowanie benchmarku Wykonanie testów Analiza wyników Opiekun projektu: Sławomir Grzmiel 12

7. Generator danych testowych Dla IBM Zaprojektowanie i zaimplementowanie programu do generowania danych testowych. Mając do dyspozycji zapytanie SQL i/lub plan wykonania danego zapytania oraz statystyki dla poszczególnych tabel uczestniczących w zapytaniu (mierzone jako: wartość minimalna, maksymalna, ilość unikalnych wartości oraz dyspersja) program powinien generować dane spełniające warunki zapytania. Należy tutaj wziąć pod uwagę restrykcje oraz warunki łączenia. Uwaga: celem nie jest generowanie losowych danych dla wszystkich tabel, lecz takich, które pozwolą przetestować różne warianty zapytania pod względem wydajności oraz poprawności zwracanego wyniku. Opiekun projektu: Michał Baranowski, Robert Wrembel 13 8. Regresja liniowa w Netezza Dla IBM Implementacja rozproszonego algorytmu regresji liniowej na Netezza Performance Server Założenia dane wejściowe dla wyznaczania współczynników znajdują się w tabeli, jako parametr wejściowy podajemy nazwę kolumny algorytm zwraca tabelę zawierającą wartości współczynników Opiekun projektu: Michał Baranowski, Robert Wrembel 14

9. Integracja map z Cognos Dla IBM Cel: stworzenie aplikacji umożliwiającej graficzną prezentację raportów wygenerowanych w Cognos Zadania szczegółowe: rozszerzenie istniejącego schematu bazy o dane adresowe (schemat dostarcza IBM) wygenerowanie danych dla modelu (dane adresowe: nazwy państw, miast, ulic muszą być rzeczywiste) rozszerzenie modelu Cognos o dane adresowe (model dla Congos dostarcza IBM) dodanie raportów wykorzystujących dane adresowe integracja z Google Maps (poprzez API), wykorzystanie graficznej prezentacji map w raportach 15 9. Integracja map z Cognos Baza testowa powinna zawierać ok 100 000 rekordów Baza będzie zawierać ponad 1 000 000 000 rekordów Implementacja i testy na symulatorze Netezza Performance Server Opiekun projektu: Michał Baranowski, Robert Wrembel 16