Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Podobne dokumenty
Proces odkrywania wiedzy z baz danych

Techniki i algorytmy eksploracji danych. Geneza (1) Geneza (2)

Eksploracja Danych. podstawy

Eksploracja Danych. Wprowadzenie. Co to jest eksploracja danych? Metody Zastosowania. Eksploracja danych. Wprowadzenie

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Analiza danych i data mining.


Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Eksploracja danych (data mining)

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Odkrywanie wiedzy. Marcin Szeląg Zakład ISWD, Instytut Informatyki, Politechnika Poznańska

Eksploracja danych. Wielkie bazy danych. Zależności w bazach danych Przykład 1. Zależności w bazach danych Przykład 2

Wprowadzenie do technologii informacyjnej.

Business Intelligence jako narzędzie do walki z praniem brudnych pieniędzy

w ekonomii, finansach i towaroznawstwie

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Matematyka kodem nowoczesności. Zaproszenie do składania ofert

KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5

Specjalizacja magisterska Bazy danych

Razem godzin w semestrze: Plan obowiązuje od roku akademickiego 2014/15 - zatwierdzono na Radzie Wydziału w dniu r.

POLITECHNIKA LUBELSKA Wydział Elektrotechniki Kierunek: INFORMATYKA II stopień niestacjonarne i Informatyki. Część wspólna dla kierunku

Data Mining Kopalnie Wiedzy

data mining machine learning data science

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Analiza i wizualizacja danych Data analysis and visualization

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

Wydział Informatyki i Zarządzania SWD NS 3. Marek Lubicz. kbo.pwr.edu.pl/pracownik/lubicz

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Metody Inżynierii Wiedzy

Wielkie wolumeny danych są trudne w analizowaniu. system satelitarnej obserwacji EOS zbudowany przez NASA generuje

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Implementacja metod eksploracji danych - Oracle Data Mining

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA realizacja w roku akademickim 2016/17

Opis efektów kształcenia dla modułu zajęć

Eksploracja danych. Plan prezentacji. Problemy eksploracji danych. Wielkie bazy danych SCHEMATY. zakresie baz danych, uczenia maszynowego i statystyki

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

Hurtownie danych - przegląd technologii

Hurtownie danych - opis przedmiotu

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Eksploracja danych TADEUSZ MORZY

Kierunek Informatyka stosowana Studia stacjonarne Studia pierwszego stopnia

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

INŻYNIERIA OPROGRAMOWANIA

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja

Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

Business Intelligence

Business Intelligence narzędziem wsparcia sprzedaży

Rozumie istotę i znacznie procesów ekstrakcji, transformacji i ładowania danych (ETL), zna wybrany język ETL oraz odpowiednie narzędzia.

INŻYNIERIA OPROGRAMOWANIA

Szczegółowy opis przedmiotu zamówienia

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Analiza internetowa czyli Internet jako hurtownia danych

Trendy BI z perspektywy. marketingu internetowego

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

Matryca pokrycia efektów kształcenia. Efekty kształcenia w zakresie wiedzy (cz. I)

Co to jest Business Intelligence?

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Hurtownie danych. Rola hurtowni danych w systemach typu Business Intelligence

Uniwersytet Śląski. Wydział Informatyki i Nauki o Materiałach PROGRAM KSZTAŁCENIA. Studia III stopnia (doktoranckie) kierunek Informatyka

Prezentacja firmy WYDAJNOŚĆ EFEKTYWNOŚĆ SKUTECZNOŚĆ.

Analiza danych. TEMATYKA PRZEDMIOTU

Ćwiczenia z Zaawansowanych Systemów Baz Danych

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

Zastosowania metod odkrywania wiedzy do diagnostyki maszyn i procesów

Alicja Marszałek Różne rodzaje baz danych

Ewelina Dziura Krzysztof Maryański

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Implementacja wybranych algorytmów eksploracji danych na Oracle 10g

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Eksploracja danych Jacek Rumiński

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Matryca pokrycia efektów kształcenia

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Spojrzenie na systemy Business Intelligence

Modele danych - wykład V

Razem godzin w semestrze: Plan obowiązuje od roku akademickiego 2016/17 - zatwierdzono na Radzie Wydziału w dniu r.

Instytut Nauk Technicznych, PWSZ w Nysie Kierunek: Informatyka Specjalność: Systemy internetowe, SI studia niestacjonarne Dla rocznika:

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

METODY EKSPLORACJI DANYCH I ICH ZASTOSOWANIE

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną. ćwiczenia 30 zaliczenie z oceną

Transkrypt:

Data Mining Wykład 1 Wprowadzenie do Eksploracji Danych Prowadzący Dr inż. Jacek Lewandowski Katedra Genetyki Wydział Biologii i Hodowli Zwierząt Uniwersytet Przyrodniczy we Wrocławiu ul. Kożuchowska 7, pok. 22 e-mail: jacek.lewandowski@up.wroc.pl Wprowadzenie Organizacja przedmiotu 12 wykładów (2h) Listy ćwiczeniowe (2h) Zasady zaliczenia ćwiczeń: 2 x Projekt z eksploracji danych: Projekt 1 termin 05/12/2016 Projekt 2 termin 30/01/2017 Zasady zaliczenia wykładu: Egzamin termin 06/02/2017 1

Zagadnienia 1. Eksploracja Danych i Uczenie Maszynowe x 1 2. Reguły Asocjacyjne Istota Asocjacji w Danych x 2 3. Wzorce sekwencji x 2 4. Klasyfikacja danych x 3 5. Analiza skupień (klasteryzacja) danych x 2 6. Eksploracja tekstu x 2 Plan wykładu Wprowadzenie do eksploracji danych Czym jest eksploracja danych? Proces odkrywania wiedzy Co można eksplorować Metody eksploracji danych Problemy odkrywania wiedzy Dziedziny zastosowań Toniemy w danych 2

Źródła danych Rozwój technologii baz danych, hurtowni danych oraz automatycznych narzędzi do gromadzenia danych; Upowszechnienie systemów informatycznych w szczególności mobilnych; banki, ubezpieczalnie, firmy, sieci handlowe, szpitale; Elektroniczna Dokumentacja Medyczna (EDM); dane eksperymentalne: fizyka, astronomia, biologia, genetyka; web, tekst, i e-handel, itd. Największe bazy danych świata (2010 r.) World Data Centre for Climate 220 TB danych online + dodatkowe 6 PB offline National Energy Research Scientific Computing Center 2.8 PB danych AT&T (dane telekomunikacyjne) 323 TB danych + 1,9 tryliona rozmów telefonicznych 10 12 Google 91 milionów zapytań dziennie + 33 tryliona rekordów Youtube 45 TB danych + 100 milionów filmów oglądanych dziennie + 65,000 filmów dodawanych dziennie Amazon 42TB danych + 59 milionów użytkowników.. Czym jest eksploracja danych? Eksploracja danych: proces automatycznego odkrywania nietrywialnych, dotychczas nieznanych, potencjalnie użytecznych reguł, zależności, wzorców schematów, podobieństwa lub trendów w dużych repozytoriach danych (bazach danych, hurtowniach danych, itp.) Cel eksploracji danych: analiza danych i procesów w celu lepszego ich rozumienia 3

Typy zapytań do repozytoriów danych Eksploracja danych = złożone zapytania Zapytanie operacyjne do bazy danych: Np.: Ile butelek wina sprzedano w I kwartale 2006 w sklepie w Poznaniu? Zapytanie analityczne do hurtowni danych: Np.: Ile sprzedano butelek wina w sieci Auchan na terenie kraju z podziałem na województwa, gatunki win oraz kwartały, w ciagu ostatnich 5 lat? Zapytania eksploracyjne (1) Przykłady zapytań eksploracyjnych: Jakie inne jeszcze produkty, najczęściej, kupują klienci, którzy kupują wino? Czym różnią się koszyki klientów kupujących wino i piwo? W jaki sposób można scharakteryzować klientów kupujących wino? W jaki sposób pogrupować klientów kupujących wino? Czy można dokonać predykcji, że dany klient kupi wino? Zapytania eksploracyjne (2) Dany jest zbiór danych opisujących pacjentów szpitala. Czy potrafimy w oparciu o ten zbiór danych: Poprawnie zdiagnozować pacjenta (określić chorobę)? Przewidzieć poprawnie wynik terapii? Zaproponować najlepsza terapie? 4

Czym jest eksploracja danych? (1) Alternatywne określenia technologii eksploracji danych: odkrywanie wiedzy w bazach danych ang. Knowledge Discovery in Databases (KDD), ekstrakcja wiedzy ang. Knowledge Extraction, intelligencja binzesowa ang. Business Intelligence (BI), pozyskiwanie wiedzy ang. Knowledge Retrieval Czym jest eksploracja danych? (2) Ciekawe określenia: archeologia danych, kopanie w danych, eksploatacja złóż danych Czym nie jest eksploracja danych: Systemy eksperckie OLAP Czym jest eksploracja danych? (3) Eksploracja danych (ang. Data Mining): zbiór technik automatycznego odkrywania nietrywialnych zależnosci, schematów, wzorców, reguł (ang. patterns) w dużych zbiorach danych (bazach danych, hurtowniach danych) DANE DATA MINING SCHEMATY 5

Proces odkrywania wiedzy (1) Odkrywanie wiedzy a eksploracja danych Eksploracja danych stanowi jeden z etapów procesu odkrywania wiedzy Etapy procesu odkrywania wiedzy (ang. KDD process): 1. Zapoznanie się z wiedza dziedzinowa aplikacji - aktualna wiedza i cele aplikacji 2. Integracja danych 3. Selekcja danych Proces odkrywania wiedzy (2) 1. Czyszczenie danych: (około 60% czasu) 2. Konsolidacja i transformacja danych 3. Wybór metody (metod) eksploracji danych 4. Wybór algorytmów eksploracji danych 5. Eksploracja danych 6. Interpretacja, analiza i ocena wyników wizualizacja, transformacja, usuwanie redundantnych wzorców, itd. 7. Wykorzystanie pozyskanej wiedzy Mieszanka wielu dyscyplin Systemy baz danych, hurtownie danych, OLAP Statystyka Uczenie maszynowe i odkrywanie wiedzy Techniki wizualizacji danych Teoria informacji Wyszukiwanie informacji Inne dyscypliny: Sieci neuronowe, modelowanie matematyczne, rozpoznawanie obrazów, technologie internetowe, itd.. 6

Co można eksplorować? Relacyjne bazy danych Hurtownie danych Repozytoria danych Zaawansowane systemy informatyczne Obiektowe i obiektowo-relacyjne bazy danych Przestrzenne bazy danych Przebiegi czasowe i temporalne bazy danych Tekstowe i multimedialne bazy danych WWW itd. Metody eksploracji danych klasyfikacja/regresja grupowanie odkrywanie sekwencji odkrywanie charakterystyk analiza przebiegów czasowych odkrywanie asocjacji wykrywanie zmian i odchyleń eksploracja WWW eksploracja tekstów Metody eksploracji: klasyfikacja Metoda analizy danych, której celem jest predykcja wartości określonego atrybutu w oparciu o pewien zbiór danych treningowych Wiele technik: statystyka, drzewa decyzyjne, sieci neuronowe,... 7

Metody eksploracji: grupowanie Znajdź naturalne pogrupowanie obiektów w oparciu o ich wartości zastosowania grupowania: - grupowanie dokumentów - grupowanie klientów - segmentacja rynku Metody eksploracji: odkrywanie asocjacji znajdowanie związków pomiędzy występowaniem grup elementów w zbiorach danych przykłady asocjacji: klienci, którzy kupują pieluszki, kupują również piwo klienci, którzy kupują chleb, masło i ser, kupują również wodę mineralna i ketchup Metody eksploracji: odkrywanie wzorców sekwencji znajdowanie najczęściej występujących sekwencji elementów przykłady odkrywania wzorców sekwencji: kurs akcji BPH, który podczas ostatnich trzech sesji wzrósł o 0.5%, 0.9%, 0.1%, na następnej sesji spadnie o 0.5% klienci, którzy kupili farbę emulsyjna, kupią w najbliższym czasie pędzel płaski 8

Metody eksploracji: odkrywanie charakterystyk znajdowanie zwięzłych opisów (charakterystyk) podanego zbioru danych przykłady odkrywania charakterystyk: opis pacjentów chorujących na anginę pacjenci chorujący na anginę cechują się temperatura ciała większą ni 37.5 C, bólem gardła, osłabieniem organizmu Problemy odkrywania wiedzy w dużych bazach danych mogą zostać odkryte tysiące reguł człowiek nie potrafi rozumieć i przeanalizować bardzo dużych zbiorów informacji różni użytkownicy systemu bazy danych są zainteresowani różnymi typami reguł z różnych relacji odkrywanie reguł jest procesem bardzo złożonym obliczeniowo Dziedziny zastosowań Nauka Biznes Web Administracja Handel i Marketing Finanse i Bankowość Telekomunikacja Medycyna Inne 9

Podsumowanie Systemy baz danych narzędzie do przechowywania danych Hurtownie danych narzędzie do wspomagania podejmowania decyzji Eksploracja danych narzędzie do analizy zgromadzonych danych 10