Data Warehouses and Data Mining



Podobne dokumenty
Systemy baz danych i hurtowni danych

Dlaczego my? HARMONOGRAM SZKOLEŃ październik - grudzień ACTION Centrum Edukacyjne. Autoryzowane szkolenia. Promocje

Dlaczego my? HARMONOGRAM SZKOLEŃ kwiecień - czerwiec ACTION Centrum Edukacyjne. Autoryzowane szkolenia. Promocje

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

PLAN STUDIÓW Wydział Elektroniki, Telekomunikacji i Informatyki, Wydział Zarządzania i Ekonomii Inżynieria danych

Dlaczego my? HARMONOGRAM SZKOLEŃ lipiec - wrzesień ACTION Centrum Edukacyjne. Autoryzowane szkolenia. Promocje

HARMONOGRAM SZKOLEŃ styczeń - marzec 2017

Terminarz Szkoleń ACTION CE

Terminarz Szkoleń ACTION CE

CENNIK SZKOLEO MICROSOFT OFFICE

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Dlaczego my? HARMONOGRAM SZKOLEŃ kwiecień - czerwiec ACTION Centrum Edukacyjne. Autoryzowane szkolenia. Promocje RODO / GDPR

Wydział Informtyki i Nauki o Materiałach Kierunek Informatyka

Cel szkolenia. Konspekt

Terminarz szkoleń, II półrocze, 2015 rok Microsoft

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to teachers

Terminarz szkoleń, I półrocze, 2015 rok Microsoft

CENNIK I TERMINARZ SZKOLEŃ

Microsoft Certified Solutions Associate (MCSA) ścieżki certyfikacji

HARMONOGRAM SZKOLEŃ. październik - grudzień 2019

Terminarz Szkoleń II kwartał 2013 ACTION CE

KATALOG SZKOLEŃ. Windows Server 2016 Liczba dni STYCZEŃ LUTY MARZEC KWIECIEŃ MAJ CZERWIEC

Faculty: Management and Finance. Management

PROGRAM STAŻU. Nazwa podmiotu oferującego staż / Company name IBM Global Services Delivery Centre Sp z o.o.

Załącznik nr 4 do Zarządzenia Nr.. KARTA KURSU. Kod Punktacja ECTS* 2. Koordynator Dr Stanisław Skórka Zespół dydaktyczny

CENNIK I TERMINARZ SZKOLEŃ

Zaawansowane bazy danych i hurtownie danych Wydział Informatyki Politechnika Białostocka

Auditorium classes. Lectures

WYDZIAŁ NAUK EKONOMICZNYCH

PRZEWODNIK PO PRZEDMIOCIE. Negotiation techniques. Management. Stationary. II degree

Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.

CENNIK I TERMINARZ SZKOLEŃ

Informatyzacja przedsiębiorstw

Course syllabus. Mathematical Basis of Logistics. Information Technology in Logistics. Obligatory course. 1 1 English

Projekt: Mikro zaprogramowane na sukces!

Kierunek: Informatyka rev rev jrn Stacjonarny EN 1 / 6

CENNIK I TERMINARZ SZKOLEŃ

Szkolenia informatyczne Vavatech

TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction

CENNIK I TERMINARZ SZKOLEŃ

Tychy, plan miasta: Skala 1: (Polish Edition)

PROJECT. Syllabus for course Global Marketing. on the study program: Management

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

PROJECT. Syllabus for course Principles of Marketing. on the study program: Management

PROJECT. Syllabus for course Negotiations. on the study program: Management

archivist: Managing Data Analysis Results

Wprowadzenie Introduction. Podstawy Technologii Informatycznych Fundamentals of Information Technology

CENNIK I TERMINARZ SZKOLEŃ

Specialist training services

Prof. Peter Nijkamp (Tinbergen Institute, Jheronimus Academy of Data Science, 's-hertogenbosch, The Netherlands )

Hurtownie Danych i Business Intelligence: przegląd technologii

Opisy przedmiotów do wyboru

CENNIK I TERMINARZ SZKOLEŃ

CENNIK I TERMINARZ SZKOLEŃ SZKOLENIA OTWARTE DLA UŻYTKOWNIKÓW SYSTEMÓW INFORMATYCZNYCH

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

Presented by. Dr. Morten Middelfart, CTO

Krzysztof Dubowski. Doświadczenie zawodowe

Hurtownie danych - opis przedmiotu

Wymiar godzin Pkt Kod Nazwa przedmiotu Egz. ECTS W C L P S P Physics I E P Mathematical analysis I P Linear algebra and analytic E 2 2 7

CENNIK I TERMINARZ SZKOLEŃ

Badania w sieciach złożonych

Szkolenia SAS Cennik i kalendarz 2017

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

Hurtownie danych a transakcyjne bazy danych

Lab. Poznanie procesu modelowania świata wirtualnego. Zaznajomienie z algorytmami symulacji zjawisk fizycznych w świecie wirtualnym.

Lab. Efekt 1 - kolokwium wykładowe. Efekt 2, 3 i 4 - samodzielnie rozwiązywane ćwiczenia laboratoryjne.

Field of study: Computer Science Study level: First-cycle studies Form and type of study: Full-time studies. Auditorium classes.

Kalendarium szkoleo Kwiecieo - Czerwiec 2010

LITERATURA I TREŚCI PROGRAMOWE STUDIÓW PODYPLOMOWYCH IT W BIZNESIE SPECJALNOŚĆ: ELEKTRONICZNY BIZNES

Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)

PROGRAM STAŻU. Nazwa podmiotu oferującego staż / Company name IBM Global Services Delivery Centre Sp z o.o.

Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)

Zaawansowana eksploracja danych Jerzy Stefanowski Instytut Informatyki Politechnika Poznańska

CENNIK I TERMINARZ SZKOLEŃ

CENNIK I TERMINARZ SZKOLEŃ

BigData. Czy zawsze oznacza BigProblem? Artur Górnik, SAP Polska Piotr Zacharek, HP Polska 14 kwietnia, 2015

Usługi IBM czyli nie taki diabeł straszny

TERMINY SZKOLEŃ W WARSZAWIE: wrzesień - grudzień 2012

OPIS PRZEDMIOTU/MODUŁU KSZTAŁCENIA (SYLABUS)

Probabilistic Methods and Statistics. Computer Science 1 st degree (1st degree / 2nd degree) General (general / practical)

IBM Skills Academy SZKOLENIA I CERTYFIKATY

Field of study: Computer Science Study level: First-cycle studies Form and type of study: Full-time studies. Auditorium classes.

PROJEKT WSPÓŁFINANSOWANY ZE ŚRODKÓW UNII EUROPEJSKIEJ W RAMACH EUROPEJSKIEGO FUNDUSZU SPOŁECZNEGO OPIS PRZEDMIOTU. Rozproszone Systemy Baz Danych

Computer Science 1 st degree (1st degree / 2nd degree) General (general / practical)

Analiza Sieci Społecznych Pajek

Z-LOG-1070 Towaroznawstwo Commodity Studies. Logistics 1st degree (1st degree / 2nd degree) General (general / practical)

PROGRAM STAŻU. IBM Global Services Delivery Centre Sp z o.o. Nazwa podmiotu oferującego staż / Company name. Muchoborska 8, Wroclaw

Ankiety Nowe funkcje! Pomoc Twoje konto Wyloguj. BIODIVERSITY OF RIVERS: Survey to students

Data Warehouses and Business Intelligence: Technology Overview

PLANY I PROGRAMY STUDIÓW

Rada do spraw cyfryzacji Zespół: Edukacja cyfrowa

Wprowadzenie do Hurtowni Danych

CENNIK I TERMINARZ SZKOLEŃ

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Miasto Białystok Białystok ul. Słonimska 1

Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)

Praktyczne aspekty pozyskiwania wiedzy z danych z perspektywy matematyka w bankowości (VI zajęcia) Jakub Jurdziak

Windows Server 2012/2012R2 styczeń czerwiec 2016

Transkrypt:

Data Warehouses and Data Mining Izabela Szczęch Szymon Wilk Jerzy Stefanowski Institute of Computing Science Laboratory of Intelligent Decision Support Systems Poznań University of Technology Software Development Technologies Master studies, third semester Academic year 2008/09 (winter course)

1 Data Warehouses and Data Mining 2 Information about the Course

1 Data Warehouses and Data Mining 2 Information about the Course

Goal: supporting decision makers.

Main Tasks: Information processing: querying, basic statistical analysis, reporting using cross-tabs, tables, charts, or graphs, low-cost Web-based accessing tools integrated with Web browsers. Analytical processing: OLAP operations for multidimensional data view and analysis. Knowledge discovery: finding hidden patterns and associations, analytical models for prediction and clustering, visualization.

Applications: Business data analysis (sales prediction, stock market prediction, direct marketing, CRM) Computer vision and pattern recognition Web mining (personalization, text categorization, recommender systems) Forecast prediction Computer Aided Diagnostic Prediction of gene structure...

Main Players on the Market: IBM, Oracle, Microsoft, Sybase, SAS, Cognos, Informatica, Business Objects, SPSS, Statistica, Insightful (S-Plus), R, Weka :) but also: Google and Yahoo!

Data mining is predicted to be one of the most revolutionary developments of the next decade. Data mining is one of 10 emerging technologies that will change the world. Life after ERP. What now? Your ERP system is in place. Now it s time for intelligence. It s often more important to creatively invent new data sources than to implement the latest academic variations on an algorithm. Those who ignore Statistics are condemned to reinvent it.

To be learned in the coming semester...

The aim of the course is to get to know how to store, process and analyze large volumes of data. Two perspectives are presented: Basic skills for: Design, implementation and use of data warehouse and data mining systems. Design of algorithms for storing, processing and analyzing data. Designing, implementing and using data warehouse and data mining systems. Implementing an efficient data analysis tools for dedicated applications. Solving data analysis problems.

Data Models and Evolution of Database Systems Data models: hierarchical, network, relational, object-oriented, multidimensional. Database systems: operational (OLTP), analytical (OLAP).

Modeling of Data Warehouses Complex entity-relationship diagrams (ERD) for OLTP. Simple star schema for OLAP. Specific approach to data warehouse modeling. Example: mobile phone operator.

OLAP Systems and MDX Language OLAP provides an effective solution for accessing and processing large volumes of high dimensional data: parallel access to data, sophisticated data structures, optimization. Access through multidimensional reports and query languages like MDX.

Processing of Very Large Data Data denormalization. Data aggregation. Materialized perspectives. Query re-write. Partitioning. Joins. Indexes. Optimization of query processing.

ETL Process Extraction, transformation and loading of data. Heterogeneous data sources: database systems, WWW, services, specific databases,.txt,.doc and.xls files. Data is integrated, transformed and cleansed. Data is loaded and data warehouse is refreshed.

1 Data Warehouses and Data Mining 2 Information about the Course

Time and Place Lecture: Thursday 13.30, room no. 6. Labs: Wednesday 9.45 and 11.45, room no. 44. Project: Tuesday 9.45, room no. 45 and Thursday 16:50, room no. 44.

Instructors dr inż. Izabela Szczęch izabela.szczech@cs.put.poznan.pl dr inż. Szymon Wilk szymon.wilk@cs.put.poznan.pl prof. Jerzy Stefanowski jerzy.stefanowski@cs.put.poznan.pl Web site ophelia.cs.put.poznan.pl/webdav/dm/ students/.../winter_2009/

Schedule of the Lectures 10-01-2009 Data Warehouses and Data Mining 10-08-2009 Data Models and Evolution of Database Systems 10-15-2009 Modeling of Data Warehouses 10-22-2009 OLAP Systems and MDX Language 10-29-2009 Processing of Very Large Data 11-05-2009 ETL Process...... Exam to be announced

Schedule of the Laboratories 10-07-2008 Introduction to Data Warehouses (MS SQL2008) 10-14-2008 Modeling of Data Warehouses 10-21-2008 Modeling of Data Warehouses (Case Study) 10-28-2008 OLAP Systems Multidimensional Reports 11-04-2008 MDX Language 11-11-2008 Holiday 11-18-2008 ETL Process 11-25-2008 OLAP, MDX, ETL (Case Study)......

Schedule of the Laboratories Send me an email (before next Monday, 12.00) with a list of students in each lab group using a format: Family_name \t First_name \t student_id \t email

Project ophelia.cs.put.poznan.pl/webdav/dm/ students/.../winter_2009/projects/projects.html Work in groups of 2 persons. 3 presentations: preliminary, middle, final. ophelia.cs.put.poznan.pl/webdav/dbdw/ students/.../dbdw-summer_2008/projects/projects.html

Tematy projektów Algorytmy generowania reguł asocjacyjnych Klasyfikacja dokumentów tekstowych Automatyczne czyszczenie danych Język i aplikacja przetwarzania i eksploracji danych Porównanie serwerów OLAP Zapytania do strumieni danych własne propozycje tematów należy opisać i przysłać prowadzacemu projekt do poniedziałku

Final Evaluation Lectures Egzam/Test (min. 50%) Labs Case study: modeling data warehouses 10 points (min. 50%) Case study: OLAP, MDX, ETL 10 points (min. 50%) Evaluation of labs about Data Mining 20 points (min. 50%) Scale 90% points 5.0% 80% points 4.5% 70% points 4.0 60% points 3.5% 50% points 3.0% otherwise 2.0

Bibliography C.J. Date, Wprowadzenie do systemów baz danych, Wydawnictwa Naukowo-Techniczne 1999. Z. Królikowski, Hurtownie danych: logiczne i fizyczne struktury danych, Wydawnictwo Politechniki Poznańskiej 2007 Ch. Todman, Projektowanie hurtowni danych. Zarzadzanie kontaktami z klientami (CRM), Wydawnictwa Naukowo-Techniczne 2003 M. Jarke, M. Lenzerini, Y. Vassiliou, P. Vassiliadis, Hurtownie danych. Podstawy organizacji i funkcjonowania, Wydawnictwa Szkolne i Pedagogiczne 2003 V. Poe, P. Klauer, S. Brobst, Tworzenie hurtowni danych, wspomaganie podejmowania decyzji, Wydawnictwa Naukowo-Techniczne 2000 R. Kimball, L. Reeves, M. Ross, W. Thornthwaite, The Data Warehouse Lifecycle Toolkit: Expert Methods for Designing, Developing, and Deploying Data Warehouses, John Wiley & Sons 1998 R. Kimball, M. Ross, The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling, John Wiley & Sons 2002

Bibliography J. Koronacki, J. Ćwik, Statystyczne systemy uczace się, Wydawnictwa Naukowo-Techniczne 2005 P. Cichosz, Systemy uczace się, Wydawnictwa Naukowo-Techniczne 2000 D. Hand, H. Mannila, P. Smyth, Eksploracja danych, Wydawnictwa Naukowo-Techniczne 2006 J. Han, M. Kamber, Data Mining: Concepts and Techniques, Morgan-Kaufmann 2000 T. Hastie, R. Tibshirani, J.H Friedman, Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer 2003 R. O. Duda, P. E. Hart, D. G. Stork, Pattern Classification, 2nd Edition, Wiley-Interscience 2000 A. R. Webb, Statistical Pattern Recognition, 2nd Edition Wiley 2002 Ch. D. Manning, P. Raghavan, H. Schütze, Introduction to Information Retrieval, Cambridge University Press 2008, http://www-csli.stanford.edu/~hinrich/ information-retrieval-book.html