Eksploracja danych. Wielkie bazy danych. Zależności w bazach danych Przykład 1. Zależności w bazach danych Przykład 2



Podobne dokumenty
Wielkie wolumeny danych są trudne w analizowaniu. system satelitarnej obserwacji EOS zbudowany przez NASA generuje

Eksploracja danych. Plan prezentacji. Problemy eksploracji danych. Wielkie bazy danych SCHEMATY. zakresie baz danych, uczenia maszynowego i statystyki

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Proces odkrywania wiedzy z baz danych

Eksploracja Danych. podstawy

Implementacja metod eksploracji danych - Oracle Data Mining

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Techniki i algorytmy eksploracji danych. Geneza (1) Geneza (2)

Eksploracja Danych. Wprowadzenie. Co to jest eksploracja danych? Metody Zastosowania. Eksploracja danych. Wprowadzenie

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Data Mining i odkrywanie wiedzy w bazach danych

Analiza danych i data mining.

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Wprowadzenie do technologii informacyjnej.

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

w ekonomii, finansach i towaroznawstwie

Szczegółowy opis przedmiotu zamówienia

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Rozdział 1 Wprowadzenie do baz danych. (c) Instytut Informatyki Politechniki Poznańskiej 1

INŻYNIERIA OPROGRAMOWANIA

Eksploracja danych (data mining)

POLITECHNIKA LUBELSKA Wydział Elektrotechniki Kierunek: INFORMATYKA II stopień niestacjonarne i Informatyki. Część wspólna dla kierunku

Wprowadzenie do technologii Business Intelligence i hurtowni danych

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Data Mining Kopalnie Wiedzy

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"


Razem godzin w semestrze: Plan obowiązuje od roku akademickiego 2014/15 - zatwierdzono na Radzie Wydziału w dniu r.

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

Pojęcie systemu baz danych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Wykład I. Wprowadzenie do baz danych

Inżynieria biomedyczna

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Metody eksploracji danych. Reguły asocjacyjne

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

5 Moduył do wyboru II *[zobacz opis poniżej] 4 Projektowanie i konfiguracja sieci komputerowych Z

data mining machine learning data science

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Ewelina Dziura Krzysztof Maryański

Programowanie obiektowe

5 Moduył do wyboru II *[zobacz opis poniżej] 4 Projektowanie i konfiguracja sieci komputerowych Z

Hurtownie danych - przegląd technologii

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną. ćwiczenia 30 zaliczenie z oceną

Systemy Wspomagania Decyzji

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

Analiza i wizualizacja danych Data analysis and visualization

METODY EKSPLORACJI DANYCH I ICH ZASTOSOWANIE

Odkrywanie wiedzy. Marcin Szeląg Zakład ISWD, Instytut Informatyki, Politechnika Poznańska

AUTOMATYKA INFORMATYKA

INŻYNIERIA OPROGRAMOWANIA

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Specjalizacja magisterska Bazy danych

Hurtownie danych - przegląd technologii

LITERATURA. C. J. Date; Wprowadzenie do systemów baz danych WNT Warszawa 2000 ( seria Klasyka Informatyki )

rodzaj zajęć semestr 1 semestr 2 semestr 3 Razem Lp. Nazwa modułu E/Z Razem W I

POLITECHNIKA LUBELSKA Wydział Elektrotechniki Kierunek: INFORMATYKA II stopień niestacjonarne i Informatyki. Część wspólna dla kierunku

Ekspert MS SQL Server Oferta nr 00/08

Podyplomowe Studium Informatyki w Bizniesie Wydział Matematyki i Informatyki, Uniwersytet Łódzki specjalność: Tworzenie aplikacji w środowisku Oracle

Investing f or Growth

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

I rok. semestr 1 semestr 2 15 tyg. 15 tyg. Razem ECTS. laborat. semin. ECTS. konwer. wykł. I rok. w tym. Razem ECTS. laborat. semin. ECTS. konwer.

Spis treści. Przedmowa

2

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Hurtownie danych. 31 stycznia 2017

rodzaj zajęć semestr 1 semestr 2 semestr 3 Razem Lp. Nazwa modułu E/Z Razem W I

Portale raportowe, a narzędzia raportowe typu self- service

Transformacja wiedzy w budowie i eksploatacji maszyn

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

Razem godzin w semestrze: Plan obowiązuje od roku akademickiego 2016/17 - zatwierdzono na Radzie Wydziału w dniu r.

Zintegrowany System Informatyczny (ZSI)

Instalacja SQL Server Konfiguracja SQL Server Logowanie - opcje SQL Server Management Studio. Microsoft Access Oracle Sybase DB2 MySQL

LITERATURA. Wprowadzenie do systemów baz danych C.J.Date; WNT Warszawa 2000

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Seeon Enterprise Search Engine. Rozwiązanie obsługiwane przez eo Networks S.A.

Prof. Stanisław Jankowski

ERDAS ADE Suite edytor baz danych Oracle Spatial

Administracja bazami danych. dr inż. Grzegorz Michalski

Szybkość instynktu i rozsądek rozumu$

Grupy pytań na egzamin magisterski na kierunku Informatyka (dla studentów dziennych studiów II stopnia)

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Co to jest Business Intelligence?

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

STUDIA NIESTACJONARNE I STOPNIA Przedmioty kierunkowe

Personalizowane rekomendacje w e-commerce, czyli jak skutecznie zwiększyć przychody w sklepie on-line

Transkrypt:

Wielkie bazy danych Eksploracja danych Marek Wojciechowski Instytut Informatyki Politechnika Poznańska Wielkie bazy danych (Very Large Databases) i hurtownie danych (Data Warehouses) Rozmiary współczesnych baz danych sieć sprzedaży Wal-Mart gromadzi dziennie dane dotyczące ponad 20 milionów transakcji koncern Mobil Oil rozwija magazyn danych pozwalający na przechowywanie ponad 100 terabajtów danych o wydobyciu ropy naftowej system satelitarnej obserwacji EOS zbudowany przez NASA generuje w każdej godzinie dziesiątki gigabajtów danych niewielkie supermarkety rejestrują codziennie sprzedaż tysięcy artykułów Wielkie wolumeny danych są trudne w analizowaniu Informacje o dotychczasowej działalności przedsiębiorstwa, poziomie i strukturze sprzedaży oraz cechach klientów mogą posłużyć do wspomagania podejmowania decyzji Zależności w bazach danych Przykład 1 wiek lat prawo kolor poj. moc razem kierowcy jazdy pojazdu silnika szkody ------------- ------------- -------------- ------------- ------ ------- 42 24 biały 1610 100 0 19 1 czerwony 650 24 2500 28 4 czerwony 1100 40 0 41 20 czarny 1800 130 0 21 3 czerwony 650 24 1300 20 1 niebieski 650 24 0 Kierowcy, którzy jeżdżą czerwonymi samochodami o pojemności 650 ccm, powodują wypadki drogowe Kierowcy w wieku powyżej 40 lat jeżdżą samochodami o pojemności większej niż 1600 ccm Kierowcy, którzy posiadają prawo jazdy dłużej niż 3 lata, nie powodują wypadków Kierowcy w wieku poniżej 30 lat jeżdżą samochodami koloru czerwonego Zależności w bazach danych Przykład 2 transakcja produkt dzień cena ------------ ------------- ------------- -------------- 1 pizza sobota 48,40 1 mleko sobota 2,80 1 chleb sobota 1,50 2 piwo wtorek 16,20 2 orzeszki wtorek 8,50 3 chleb sobota 1,50 3 orzeszki sobota 25,50 3 piwo sobota 32,40 piwo i orzeszki są zawsze kupowane wspólnie chleb uczestniczy w transakcjach na kwotę większą niż 50 złotych

Data Mining - Eksploracja danych Eksploracja danych: zbiór technik automatycznego odkrywania nietrywialnych zależności i schematów (patterns) w dużych zbiorach danych (bazach i hurtowniach danych) Eksploracja danych często nazywana jest również odkrywaniem wiedzy w bazach danych (Knowledge Discovery in Databases) lub eksploracją baz danych (Database Mining) Eksploracja danych leży na przecięciu trzech dziedzin naukowych: baz danych, uczenia maszynowego i statystyki DANE DATA MINING SCHEMATY Dziedziny zastosowań eksploracji danych Handel i marketing identyfikacja profilu klienta na potrzeby marketingu kierunkowego wykrywanie schematów zakupów i planowanie lokalizacji artykułów Finanse i bankowość schematy wykorzystywania kradzionych kart kredytowych przewidywanie dochodowości portfela akcji, znajdowanie korelacji wśród wskaźników finansowych Nauka i technologia analiza strumieni wyników pomiarów wykrywanie alarmów w sieciach telekomunikacyjnych Internet (Web Mining) handel i marketing internetowy analiza zachowań użytkowników WWW personalizacja serwisów WWW Metody eksploracji danych Odkrywanie asocjacji (zbiorów częstych i reguł) Odkrywanie wzorców sekwencyjnych Klasyfikacja Odkrywanie charakterystyk Analiza skupień (klastrowanie) Dyskryminacja Regresja Wykrywanie zmian i odchyleń Metody eksploracji: odkrywanie asocjacji Odkrywanie asocjacji: znajdowanie związków pomiędzy występowaniem grup elementów w zbiorach danych Przykłady asocjacji: klienci, którzy kupują piwo, kupują również orzeszki klienci, którzy kupują chleb, masło i ser, kupują również wodę mineralną i ketchup Zastosowania odkrytych asocjacji: planowanie kampanii promocyjnych planowanie rozmieszczenia stoisk sprzedaży w supermarketach

Metody eksploracji: odkrywanie wzorców sekwencyjnych Odkrywanie wzorców sekwencyjnych: znajdowanie najczęściej występujących sekwencji elementów Przykłady wzorców sekwencyjnych: 10% klientów, kupiło wędkę, a następnie kalosze 5% użytkowników serwisu WWW odwiedziło w ciągu jednej sesji najpierw stronę wakacje.html, później promocje.html, a następnie dojazd_wlasny.html Zastosowania odkrytych sekwencji: przewidywanie sprzedaży marketing kierunkowy wykrywane symptomów wskazujących na możliwość awarii analiza zachowań użytkowników WWW Metody eksploracji: klasyfikacja Klasyfikacja: znajdowanie sposobu odwzorowywania danych w zbiór predefiniowanych klas (podzbiorów) Przykład klasyfikacji: automatyczny podział kierowców na powodujących i niepowodujących wypadków drogowych: kierowcy prowadzący czerwone pojazdy o pojemności 650 ccm powodują wypadki drogowe kierowcy, którzy posiadają prawo jazdy ponad 3 lata lub jeżdżą niebieskimi samochodami nie powodują wypadków drogowych Zastosowania klasyfikacji: diagnostyka medyczna rozpoznawanie trendów na rynkach finansowych automatyczne rozpoznawanie obrazów przydział kredytów bankowych Metody eksploracji: odkrywanie charakterystyk Odkrywanie charakterystyk: znajdowanie zwięzłych opisów (charakterystyk) podanego zbioru danych Przykład odkrywania charakterystyk: opis pacjentów chorujących na anginę pacjenci chorujący na anginę cechują się temperaturą ciała wyższą niż 37.5 C, bólem gardła, osłabieniem organizmu Zastosowania odkrywania charakterystyk: znajdowanie zależności funkcyjnych pomiędzy zmiennymi określanie profilu klienta - zbioru cech charakterystycznych Metody eksploracji: analiza skupień Analiza skupień (klastrowanie): znajdowanie skończonego zbioru klas (podzbiorów) w bazie danych wiek 50 25 3 6 klasa 1: wiek<25 i pensja<3 klasa 2: 25<wiek<50 i pensja<3 klasa 3: wiek>25 i 3<pensja<6 pensja [tys.] Zastosowania analizy skupień: określanie segmentów rynku na podstawie cech klientów odkrywanie grup podobnie zachowujących się użytkowników WWW na potrzeby personalizacji

Formy reprezentacji odkrytych schematów Znane w dziedzinach uczenia maszynowego i sztucznej inteligencji: sieci neuronowe drzewa decyzyjne listy decyzyjne sieci semantyczne proste i złożone reguły logiczne Założenie: wiedza powinna być reprezentowana w prostej i czytelnej dla człowieka postaci Eksploracja danych najczęściej wykorzystuje: wzorce częste (zbiory, sekwencje) reguły logiczne drzewa decyzyjne Reguły logiczne (1/2) Przykład prostej reguły logicznej: kolor_poj=czerwony AND pojemnosc=650 -> szkoda=tak Definicja reguły logicznej: r1(a1, v1) AND r2(a2, v2)... rj(aj, vj) -> -> rk(ak, vk) AND rl(al, vl)... rn(an, vn) ai jest atrybutem, vi jest wartością prostą (np. liczba, ciąg znaków) lub złożoną (np. zbiór), ri jest predykatem (np. równość, zawieranie) Lewa strona reguły nazywa się ciałem reguły (body), prawa strona nazywa się głową reguły (head) Reguła może być potwierdzana lub naruszana przez wybraną krotkę relacji Reguły logiczne (2/2) Każda reguła posiada wskaźniki statystycznej ważności i siły: wsparcie (support) i zaufanie (confidence) Wsparcie reguły odpowiada liczbie krotek potwierdzających daną regułę Zaufanie reguły odpowiada jej wiarygodności, tj. poprawności reguły w zbiorze krotek Temperat ura Ból _gł owy Ból _gardł a Di agnoza wysoka tak nie zatrucie wysoka tak nie zdrowy wysoka t ak t ak angi na wysoka ni e t ak angi na Drzewa decyzyjne Drzewo decyzyjne jest formą opisu wiedzy klasyfikującej Węzłom drzewa odpowiadają atrybuty eksplorowanej relacji Krawędzie opisują wartości atrybutów Liśćmi drzewa są wartości atrybutu klasyfikującego Adres Dochód Samochód Warszawa 4000 BMW Poznań 2900 Ford Poznań 1400 Toyota Warszawa 1000 Fiat Poznań 1600 Ford Poznań 3500 Ford Warszawa dochód adres Poznań dochód >1000 <=1000 >1400 <=1400 Ból _gardł a = t ak Di agnoza = angi na (S=50% C=100%) Temperat ura= wysoka Ból _gł owy= t ak Ból _gardł a= ni e Di agnoza= zat ruci e (S=25% C=100%) Temperat ura= wysoka Ból _gł owy= t ak Ból _gardł a= ni e Di agnoza= zdr owy ( S=25% C=100%) SAMOCHÓD BMW Fiat Ford Toyota

Eksploracja danych jako zaawansowane zapytania do bazy danych (1/2) Podejście szczególnie uzasadnione dla asocjacji i wzorców sekwencyjnych Użytkownik specyfikuje: klasę szukanych wzorców zbiór danych wejściowych kryteria selekcji (ograniczenia) dla wzorców System eksploracji danych (KDDMS): dobiera odpowiedni algorytm zwraca odkryte wzorce jako wynik zapytania kryteria selekcji (ograniczenia) dla wzorców Eksploracja danych ma charakter interaktywny i iteracyjny użytkownik zapytanie eksploracyjne odkryte wzorce KDDMS baza danych Eksploracja danych jako zaawansowane zapytania do bazy danych (2/2) Wiele prototypowych rozszerzeń SQL zaproponowanych w literaturze MineSQL (Politechnika Poznańska): mysets i 1 2... s {a,b,d,e,f} {a,c,d,h}... mine itemset from (select s from mysets where i<=100) where support(itemset) > 10 Rozszerzenie standardu SQL o funkcje eksploracji danych mało prawdopodobne Eksploracji danych poświęcono oddzielne standardy część z nich "współpracuje" z językiem SQL Eksploracja danych dotychczasowe kierunki badań Najpopularniejsze dotychczasowe kierunki badań: coraz efektywniejsze algorytmy eksploracji danych skalowalne algorytmy eksploracji danych języki zapytań eksploracyjnych przetwarzanie zapytań eksploracyjnych algorytmy odkrywania wzorców częstych i reguł z ograniczeniami inkrementalne algorytmy eksploracji danych narzędzia graficzne dla eksploracji danych (wizualizacja) integracja eksploracji danych z systemami zarządzania bazami danych eksploracja rozproszonych baz danych architektury równoległe w eksploracji danych text mining, web mining Eksploracja danych nowe trendy Eksploracja strumieni danych jedno spojrzenie na dane Eksploracja danych w biologii molekularnej analiza sekwencji DNA, protein Eksploracja danych semi-strukturalnych kolekcje dokumentów XML Eksploracja danych multimedialnych np. wykrywanie podobieństw, plagiatów Kwestie prywatności w eksploracji danych

Standardy dla eksploracji danych SQL/MM Part 6 specyfikacja standardowej biblioteki typów obiektowych SQL Java Data Mining API interfejs do eksploracji danych z poziomu języka Java PMML język na bazie XML do opisu zadań (procesów) eksploracji danych Umożliwia współdzielenie (wymianę) modeli między aplikacjami Microsoft OLE DB for Data Mining protokół umożliwiający wykorzystywanie funkcji eksploracji danych z poziomu SQL uwzględnia PMML Oprogramowanie komercyjne dla eksploracji danych IBM Intelligent Miner, współpracuje z DB2, Oracle, Sybase, przeznaczony na platformy AIX, AS, OS Oracle9i Database Server with Data Mining Option Integral Solutions Clementine, współpracuje z Oracle, Sybase, Informix, Ingres, SAS Enterprise Miner... Data Mining - success stories Database Marketing w American Express analiza danych o klientach w celu znajdowania schematów ich preferencji wykorzystanie schematów dla precyzyjnej selekcji kolejnych klientów Efekt: ok. 10% wzrost zakupów z wykorzystaniem kart kredytowych Weryfikacja poprawności danych w Reuters wykrywanie prawdopodobnych przekłamań w wysokości publikowanych kursów wymiany walut Profil słuchacza w BBC odkrywanie profili widowni programów telewizyjnych w celu wyboru optymalnych pór ich nadawania Skład zespołu w Orlando Magic odkrywanie optymalnego składu i ustawienia zespołu rezultat: likwidacja trendu spadkowego Przyszłość eksploracji danych Eksploracja danych z nowej dziedziny naukowej staje się dziedziną dojrzałą Przyszłość dziedziny zależy od jej upowszechnienia się i praktycznej przydatności Problemy upowszechniania się eksploracji danych: ciągle wysoki koszt narzędzi eksploracji danych złożoność problemów eksploracji danych wiele instytucji dopiero wdraża hurtownie danych i jest na etapie analiz OLAP Sygnały pozytywne: powstawanie standardów regulujących sposoby wykorzystywania eksploracji danych dostęp wielu narzędzi komercyjnych, w tym przede wszystkim tych związanych z serwerami baz danych pozytywne doświadczenia wielu przedsiębiorstw i instytucji