Wielkie wolumeny danych są trudne w analizowaniu. system satelitarnej obserwacji EOS zbudowany przez NASA generuje

Podobne dokumenty
Eksploracja danych. Wielkie bazy danych. Zależności w bazach danych Przykład 1. Zależności w bazach danych Przykład 2

Eksploracja danych. Plan prezentacji. Problemy eksploracji danych. Wielkie bazy danych SCHEMATY. zakresie baz danych, uczenia maszynowego i statystyki

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Proces odkrywania wiedzy z baz danych

Implementacja metod eksploracji danych - Oracle Data Mining

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Eksploracja Danych. podstawy

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Techniki i algorytmy eksploracji danych. Geneza (1) Geneza (2)

Metody eksploracji danych. Reguły asocjacyjne

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Eksploracja Danych. Wprowadzenie. Co to jest eksploracja danych? Metody Zastosowania. Eksploracja danych. Wprowadzenie

Data Mining i odkrywanie wiedzy w bazach danych

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Analiza danych i data mining.

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Wprowadzenie do technologii informacyjnej.

Ewelina Dziura Krzysztof Maryański

Hurtownie danych - przegląd technologii Robert Wrembel Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl

Hurtownie danych - przegląd technologii

Inżynieria biomedyczna

Eksploracja danych (data mining)

Rozdział 1 Wprowadzenie do baz danych. (c) Instytut Informatyki Politechniki Poznańskiej 1

INŻYNIERIA OPROGRAMOWANIA

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

data mining machine learning data science

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Szczegółowy opis przedmiotu zamówienia

POLITECHNIKA LUBELSKA Wydział Elektrotechniki Kierunek: INFORMATYKA II stopień niestacjonarne i Informatyki. Część wspólna dla kierunku

w ekonomii, finansach i towaroznawstwie

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Data Mining Kopalnie Wiedzy

Wykład I. Wprowadzenie do baz danych

Razem godzin w semestrze: Plan obowiązuje od roku akademickiego 2014/15 - zatwierdzono na Radzie Wydziału w dniu r.

Pojęcie systemu baz danych

Modelowanie Data Mining na wielką skalę z SAS Factory Miner. Paweł Plewka, SAS

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Ćwiczenie 5. Metody eksploracji danych

5 Moduył do wyboru II *[zobacz opis poniżej] 4 Projektowanie i konfiguracja sieci komputerowych Z


Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu

Programowanie obiektowe

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Odkrywanie wiedzy. Marcin Szeląg Zakład ISWD, Instytut Informatyki, Politechnika Poznańska

5 Moduył do wyboru II *[zobacz opis poniżej] 4 Projektowanie i konfiguracja sieci komputerowych Z

Hurtownie danych - przegląd technologii

INŻYNIERIA OPROGRAMOWANIA

METODY EKSPLORACJI DANYCH I ICH ZASTOSOWANIE

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Systemy Wspomagania Decyzji

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

Algorytmy optymalizacji zapytań eksploracyjnych z wykorzystaniem materializowanej perspektywy eksploracyjnej

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 30 zaliczenie z oceną. ćwiczenia 30 zaliczenie z oceną

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Analiza i wizualizacja danych Data analysis and visualization

Odkrywanie asocjacji

I rok. semestr 1 semestr 2 15 tyg. 15 tyg. Razem ECTS. laborat. semin. ECTS. konwer. wykł. I rok. w tym. Razem ECTS. laborat. semin. ECTS. konwer.

AUTOMATYKA INFORMATYKA

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

Spis treści. Przedmowa

Hurtownie danych. 31 stycznia 2017

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Hurtownie danych - przegląd technologii

Specjalizacja magisterska Bazy danych

Portale raportowe, a narzędzia raportowe typu self- service

rodzaj zajęć semestr 1 semestr 2 semestr 3 Razem Lp. Nazwa modułu E/Z Razem W I

Co to jest Business Intelligence?

LITERATURA. C. J. Date; Wprowadzenie do systemów baz danych WNT Warszawa 2000 ( seria Klasyka Informatyki )

POLITECHNIKA LUBELSKA Wydział Elektrotechniki Kierunek: INFORMATYKA II stopień niestacjonarne i Informatyki. Część wspólna dla kierunku

Ekspert MS SQL Server Oferta nr 00/08

Podyplomowe Studium Informatyki w Bizniesie Wydział Matematyki i Informatyki, Uniwersytet Łódzki specjalność: Tworzenie aplikacji w środowisku Oracle

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

Investing f or Growth

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

MECHANIZM PERSPEKTYW MATERIALIZOWANYCH W EKSPLORACJI DANYCH

2

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

rodzaj zajęć semestr 1 semestr 2 semestr 3 Razem Lp. Nazwa modułu E/Z Razem W I

Transformacja wiedzy w budowie i eksploatacji maszyn

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Bazy danych. Zenon Gniazdowski WWSI, ITE Andrzej Ptasznik WWSI

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Prof. Stanisław Jankowski

Inteligentne wydobywanie informacji z internetowych serwisów społecznościowych

ERDAS ADE Suite edytor baz danych Oracle Spatial


Administracja bazami danych. dr inż. Grzegorz Michalski

Seeon Enterprise Search Engine. Rozwiązanie obsługiwane przez eo Networks S.A.

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

STUDIA NIESTACJONARNE I STOPNIA Przedmioty kierunkowe

Razem godzin w semestrze: Plan obowiązuje od roku akademickiego 2016/17 - zatwierdzono na Radzie Wydziału w dniu r.

Transkrypt:

Eksploracja danych - Odkrywanie wiedzy w danych Marek Wojciechowski Instytut Informatyki Politechnika Poznańska Zależności w bazach danych Przykład 1 wiek lat prawo kolor poj. moc razem kierowcy jazdy pojazdu silnika szkody ------------- ------------- -------------- ------------- ------ ------- 42 24 biały 1610 100 0 19 1 czerwony 650 24 2500 28 4 czerwony 1100 40 0 41 20 czarny 1800 130 0 21 3 czerwony 650 24 1300 20 1 niebieski 650 24 0 Kierowcy, którzy jeżdżą czerwonymi samochodami o pojemności 650 ccm, powodują wypadki drogowe Kierowcy w wieku powyżej 40 lat jeżdżą samochodami o pojemności większej niż 1600 ccm Kierowcy, którzy posiadają prawo jazdy dłużej niż 3 lata, nie powodują wypadków Kierowcy w wieku poniżej 30 lat jeżdżą samochodami koloru czerwonego Wielkie bazy danych Wielkie bazy danych (Very Large Databases) i hurtownie danych (Data Warehouses) Rozmiary współczesnych baz danych sieć sprzedaży Wal-Mart gromadzi dziennie dane dotyczące ponad 20 milionów transakcji koncern Mobil Oil rozwija magazyn danych pozwalający na przechowywanie ponad 100 terabajtów danych o wydobyciu ropy naftowej system satelitarnej obserwacji EOS zbudowany przez NASA generuje w każdej godzinie dziesiątki gigabajtów danych niewielkie supermarkety rejestrują codziennie sprzedaż tysięcy artykułów Wielkie wolumeny danych są trudne w analizowaniu Informacje o dotychczasowej działalności przedsiębiorstwa, poziomie i strukturze sprzedaży oraz cechach klientów mogą posłużyć do wspomagania podejmowania decyzji Zależności w bazach danych Przykład 2 transakcja produkt dzień cena ------------ ------------- ------------- -------------- 1 pizza sobota 48,40 1 mleko sobota 2,80 1 chleb sobota 1,50 2 piwo wtorek 16,20 2 orzeszki wtorek 8,50 3 chleb sobota 1,50 3 orzeszki sobota 25,50 3 piwo sobota 32,40 piwo i orzeszki są zawsze kupowane wspólnie chleb uczestniczy w transakcjach na kwotę większą niż 50 złotych

Data Mining - Eksploracja danych Eksploracja danych: zbiór technik automatycznego odkrywania nietrywialnych zależności i schematów (patterns) w dużych zbiorach danych (bazach i hurtowniach danych) Eksploracja danych często nazywana jest również odkrywaniem wiedzy w bazach danych (Knowledge Discovery in Databases) lub eksploracją baz danych (Database Mining) Eksploracja danych leży na przecięciu trzech dziedzin naukowych: baz danych, uczenia maszynowego i statystyki DANE DATA MINING SCHEMATY Metody eksploracji danych Odkrywanie asocjacji (zbiorów częstych i reguł) Odkrywanie wzorców sekwencyjnych Klasyfikacja Odkrywanie charakterystyk Analiza skupień (klastrowanie) Dyskryminacja Regresja Wykrywanie zmian i odchyleń Dziedziny zastosowań eksploracji danych Handel i marketing identyfikacja profilu klienta na potrzeby marketingu kierunkowego wykrywanie schematów zakupów i planowanie lokalizacji artykułów Finanse i bankowość schematy wykorzystywania kradzionych kart kredytowych przewidywanie dochodowości portfela akcji, znajdowanie korelacji wśród wskaźników finansowych Nauka i technologia analiza strumieni wyników pomiarów wykrywanie alarmów w sieciach telekomunikacyjnych Internet (Web Mining) handel i marketing internetowy analiza zachowań użytkowników WWW personalizacja serwisów WWW Metody eksploracji: odkrywanie asocjacji Odkrywanie asocjacji: znajdowanie związków pomiędzy występowaniem grup elementów w zbiorach danych Przykłady asocjacji: klienci, którzy kupują piwo, kupują również orzeszki klienci, którzy kupują chleb, masło i ser, kupują również wodę mineralną i ketchup Zastosowania odkrytych asocjacji: planowanie kampanii promocyjnych planowanie rozmieszczenia stoisk sprzedaży w supermarketach

Metody eksploracji: odkrywanie wzorców sekwencyjnych Odkrywanie wzorców sekwencyjnych: znajdowanie najczęściej występujących sekwencji elementów Przykłady wzorców sekwencyjnych: 10% klientów, kupiło wędkę, a następnie kalosze 5% użytkowników serwisu WWW odwiedziło w ciągu jednej sesji najpierw stronę wakacje.html, później promocje.html, a następnie dojazd_wlasny.html Zastosowania odkrytych sekwencji: przewidywanie sprzedaży marketing kierunkowy wykrywane symptomów wskazujących na możliwość awarii analiza zachowań użytkowników WWW Metody eksploracji: odkrywanie charakterystyk Odkrywanie charakterystyk: znajdowanie zwięzłych opisów (charakterystyk) podanego zbioru danych Przykład odkrywania charakterystyk: opis pacjentów chorujących na anginę pacjenci chorujący na anginę cechują się temperaturą ciała wyższą niż 37.5 C, bólem gardła, osłabieniem organizmu Zastosowania odkrywania charakterystyk: znajdowanie zależności funkcyjnych pomiędzy zmiennymi określanie profilu klienta - zbioru cech charakterystycznych Metody eksploracji: klasyfikacja Klasyfikacja: znajdowanie sposobu odwzorowywania danych w zbiór predefiniowanych klas (podzbiorów) Przykład klasyfikacji: automatyczny podział kierowców na powodujących i niepowodujących wypadków drogowych: kierowcy prowadzący czerwone pojazdy o pojemności 650 ccm powodują wypadki drogowe kierowcy, którzy posiadają prawo jazdy ponad 3 lata lub jeżdżą niebieskimi samochodami nie powodują wypadków drogowych Zastosowania klasyfikacji: diagnostyka medyczna rozpoznawanie trendów na rynkach finansowych automatyczne rozpoznawanie obrazów przydział kredytów bankowych Metody eksploracji: analiza skupień Analiza skupień (klastrowanie): znajdowanie skończonego zbioru klas (podzbiorów) w bazie danych wiek 50 25 klasa 1: wiek<25 i pensja<3 klasa 2: 25<wiek<50 i pensja<3 klasa 3: wiek>25 i 3<pensja<6 3 6 Zastosowania analizy skupień: pensja [tys.] określanie segmentów rynku na podstawie cech klientów odkrywanie grup podobnie zachowujących się użytkowników WWW na potrzeby personalizacji

Formy reprezentacji odkrytych schematów Znane w dziedzinach uczenia maszynowego i sztucznej inteligencji: sieci neuronowe drzewa decyzyjne listy decyzyjne sieci semantyczne proste i złożone reguły logiczne Założenie: wiedza powinna być reprezentowana w prostej i czytelnej dla człowieka postaci Eksploracja danych najczęściej wykorzystuje: wzorce częste (zbiory, sekwencje) reguły logiczne drzewa decyzyjne Reguły logiczne (2/2) Każda reguła posiada wskaźniki statystycznej ważności i siły: wsparcie (support) i zaufanie (confidence) Wsparcie reguły odpowiada liczbie krotek potwierdzających daną regułę Zaufanie reguły odpowiada jej wiarygodności, tj. poprawności reguły w zbiorze krotek Temperatura Ból _gł owy Ból _gardł a Di agnoza wysoka t ak ni e zat ruci e wysoka tak nie zdrowy wysoka t ak t ak angi na wysoka ni e t ak angi na Ból _gar dł a = t ak Di agnoza = angi na ( S=50% C=100%) Temperat ura= wysoka Ból _gł owy= t ak Ból _gar dł a= ni e Di agnoza= zat ruci e (S=25% C=100%) Temperat ura= wysoka Ból _gł owy= t ak Ból _gar dł a= ni e Di agnoza= zdr owy ( S=25% C=100%) Reguły logiczne (1/2) Przykład prostej reguły logicznej: kolor_poj=czerwony AND pojemnosc=650 -> szkoda=tak Definicja reguły logicznej: r1(a1, v1) AND r2(a2, v2)... rj(aj, vj) -> -> rk(ak, vk) AND rl(al, vl)... rn(an, vn) ai jest atrybutem, vi jest wartością prostą (np. liczba, ciąg znaków) lub złożoną (np. zbiór), ri jest predykatem (np. równość, zawieranie) Lewa strona reguły nazywa się ciałem reguły (body), prawa strona nazywa się głową reguły (head) Reguła może być potwierdzana lub naruszana przez wybraną krotkę relacji Drzewa decyzyjne Drzewo decyzyjne jest formą opisu wiedzy klasyfikującej Węzłom drzewa odpowiadają atrybuty eksplorowanej relacji Krawędzie opisują wartości atrybutów Liśćmi drzewa są wartości atrybutu klasyfikującego Adres Dochód Samochód Warszawa 4000 BMW Poznań 2900 Ford Poznań 1400 Toyota adres Warszawa 1000 Fiat Poznań 1600 Ford Warszawa P ozna ń Poznań 3500 Ford dochód dochód >1000 <=1000 >1400 <=1400 SAMOCHÓD BMW Fiat Ford Toyota

Algorytmy eksploracji danych Przykład (1/2) Problem odkrywania zbiorów częstych (ang. frequent itemsets) database D {a,b,d,f} {a,d,e,f,g} {a,b,c,d,e,f} minumum support = 3 frequent itemsets L {a} (3) {d} (3) {f} (4) {a,d} (3) {f,h,i,j} {a,f} (3) {d,f} (3) {a,d,f} (3) itemset = a set of items D = a set of itemsets support(t) = number of itemsets in D that contain T frequent itemset = an itemset with support above user defined minumum Eksploracja danych jako zaawansowane zapytania do bazy danych (1/2) Podejście szczególnie uzasadnione dla asocjacji i wzorców sekwencyjnych Użytkownik specyfikuje: klasę szukanych wzorców zbiór danych wejściowych kryteria selekcji (ograniczenia) dla wzorców System eksploracji danych (KDDMS): dobiera odpowiedni algorytm zwraca odkryte wzorce jako wynik zapytania kryteria selekcji (ograniczenia) dla wzorców Eksploracja danych ma charakter interaktywny i iteracyjny zapytanie eksploracyjne użytkownik odkryte wzorce KDDMS baza danych Algorytmy eksploracji danych Przykład (2/2) Algorytm Apriori (Agrawal, Srikant, 1994) {a,b,d,f} {a,d,e,f,g} C 1 = {all 1-itemsets from D} for (k=1; C k ; k++) {a,b,c,d,e,f} count(c k, D); {f,h,i,j} L k = {c C k c.count minsup}; C k+1 = generate_candidates(l k ); Answer = U k L k ; minsup=3 C 1 ={{a},{b},{c},{d},{e},{f},{g},{h},{i},{j}} C 1 ={{a}(3),{b}(2),{c}(1),{d}(3),{e}(2),{f}(4),{g}(1),{h}(1),{i}(1),{j}(1)} L 1 ={{a},{d},{f}} C 2 ={{ad},{af},{df}} C 2 ={{ad}(3),{af}(3),{df}(3)} L 2 ={{ad},{af},{df}} C 3 ={{adf}} C 3 ={{adf}(3)} L 3 ={{adf}} Answer={{a},{d},{f},{ad},{af},{df},{adf}} Eksploracja danych jako zaawansowane zapytania do bazy danych (2/2) Wiele prototypowych rozszerzeń SQL zaproponowanych w literaturze MineSQL (Politechnika Poznańska): mysets i 1 2... s {a,b,d,e,f} {a,c,d,h}... mine itemset from (select s from mysets where i<=100) where support(itemset) > 10 Rozszerzenie standardu SQL o funkcje eksploracji danych mało prawdopodobne Eksploracji danych poświęcono oddzielne standardy część z nich "współpracuje" z językiem SQL

Eksploracja danych dotychczasowe kierunki badań Najpopularniejsze dotychczasowe kierunki badań: coraz efektywniejsze algorytmy eksploracji danych skalowalne algorytmy eksploracji danych języki zapytań eksploracyjnych przetwarzanie zapytań eksploracyjnych algorytmy odkrywania wzorców częstych i reguł z ograniczeniami inkrementalne algorytmy eksploracji danych narzędzia graficzne dla eksploracji danych (wizualizacja) integracja eksploracji danych z systemami zarządzania bazami danych eksploracja rozproszonych baz danych architektury równoległe w eksploracji danych Standardy dla eksploracji danych SQL/MM Part 6 specyfikacja standardowej biblioteki typów obiektowych SQL Java Data Mining API interfejs do eksploracji danych z poziomu języka Java PMML język na bazie XML do opisu zadań (procesów) eksploracji danych Umożliwia współdzielenie (wymianę) modeli między aplikacjami Microsoft OLE DB for Data Mining protokół umożliwiający wykorzystywanie funkcji eksploracji danych z poziomu SQL uwzględnia PMML Eksploracja danych nowe trendy Eksploracja strumieni danych jedno spojrzenie na dane Eksploracja danych w biologii molekularnej analiza sekwencji DNA, protein Eksploracja danych semi-strukturalnych kolekcje dokumentów XML Eksploracja danych multimedialnych np. wykrywanie podobieństw, plagiatów Kwestie prywatności w eksploracji danych Oprogramowanie komercyjne dla eksploracji danych IBM Intelligent Miner, współpracuje z DB2, Oracle, Sybase, przeznaczony na platformy AIX, AS, OS Oracle9i Database Server with Data Mining Option Integral Solutions Clementine, współpracuje z Oracle, Sybase, Informix, Ingres, SAS Enterprise Miner...

Data Mining - success stories Database Marketing w American Express analiza danych o klientach w celu znajdowania schematów ich preferencji wykorzystanie schematów dla precyzyjnej selekcji kolejnych klientów Efekt: ok. 10% wzrost zakupów z wykorzystaniem kart kredytowych Weryfikacja poprawności danych w Reuters wykrywanie prawdopodobnych przekłamań w wysokości publikowanych kursów wymiany walut Profil słuchacza w BBC odkrywanie profili widowni programów telewizyjnych w celu wyboru optymalnych pór ich nadawania Skład zespołu w Orlando Magic odkrywanie optymalnego składu i ustawienia zespołu rezultat: likwidacja trendu spadkowego Przyszłość eksploracji danych Eksploracja danych z nowej dziedziny naukowej staje się dziedziną dojrzałą Przyszłość dziedziny zależy od jej upowszechnienia się i praktycznej przydatności Problemy upowszechniania się eksploracji danych: ciągle wysoki koszt narzędzi eksploracji danych złożoność problemów eksploracji danych wiele instytucji dopiero wdraża hurtownie danych i jest na etapie analiz OLAP Sygnały pozytywne: powstawanie standardów regulujących sposoby wykorzystywania eksploracji danych dostęp wielu narzędzi komercyjnych, w tym przede wszystkim tych związanych z serwerami baz danych pozytywne doświadczenia wielu przedsiębiorstw i instytucji