Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining



Podobne dokumenty
Mikołaj Morzy, Marek Wojciechowski: "Integracja technik eksploracji danych z systemem zarządzania bazą danych na przykładzie Oracle9i Data Mining"

data mining machine learning data science

Implementacja metod eksploracji danych - Oracle Data Mining

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu

Hurtownie danych. Analiza zachowań użytkownika w Internecie. Ewa Kowalczuk, Piotr Śniegowski. Informatyka Wydział Informatyki Politechnika Poznańska

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Ewelina Dziura Krzysztof Maryański

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Metody probabilistyczne klasyfikatory bayesowskie

Wielkie wolumeny danych są trudne w analizowaniu. system satelitarnej obserwacji EOS zbudowany przez NASA generuje

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Analiza i eksploracja danych

Metody eksploracji danych. Reguły asocjacyjne

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Odkrywanie reguł asocjacyjnych. Rapid Miner

Inżynieria biomedyczna

Co to jest klasyfikacja? Klasyfikacja a grupowanie Naiwny klasyfikator Bayesa

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Wprowadzenie do technologii informacyjnej.

Odkrywanie asocjacji

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Algorytmy optymalizacji zapytań eksploracyjnych z wykorzystaniem materializowanej perspektywy eksploracyjnej

Eksploracja danych. Wielkie bazy danych. Zależności w bazach danych Przykład 1. Zależności w bazach danych Przykład 2

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Machine Learning. KISIM, WIMiIP, AGH

Eksploracja danych PROCES EKSPLORACJI DANYCH. Wojciech Waloszek. Teresa Zawadzka.

Algorytmy klasyfikacji

Opis efektów kształcenia dla modułu zajęć

Systemy uczące się wykład 2

Laboratorium 4. Naiwny klasyfikator Bayesa.

Odkrywanie asocjacji

Odkrywanie asocjacji. Cel. Geneza problemu analiza koszyka zakupów

1. Cele eksploracyjnej analizy danych Rapid Miner zasady pracy i wizualizacja danych Oracle Data Miner -zasady pracy.

Mail: Pokój 214, II piętro

Systemy uczące się wykład 1


Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Laboratorium 5. Adaptatywna sieć Bayesa.

Laboratorium z przedmiotu MED. Lab1 - wprowadzenie

Implementacja wybranych algorytmów eksploracji danych na Oracle 10g

ORACLE 9i DATA MINING NARZĘDZIEM DO EKSTRAKCJI WIEDZY Z BAZ DANYCH

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Analiza i wizualizacja danych Data analysis and visualization

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Szkolenia SAS Cennik i kalendarz 2017

Klasyfikacja. Sformułowanie problemu Metody klasyfikacji Kryteria oceny metod klasyfikacji. Eksploracja danych. Klasyfikacja wykład 1

Algorytmy odkrywania binarnych reguł asocjacyjnych

Metody klasyfikacji danych - część 1 p.1/24

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA REALIZACJA W ROKU AKADEMICKIM 2016/2017

1. Odkrywanie asocjacji

Analiza danych. TEMATYKA PRZEDMIOTU

Klasyfikacja LDA + walidacja

2. Ocena dokładności modelu klasyfikacji:

Analiza danych i data mining.

Laboratorium 11. Regresja SVM.

Odkrywanie wzorców sekwencji

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Ćwiczenie 5. Metody eksploracji danych

INFORMATYKA Pytania ogólne na egzamin dyplomowy

Laboratorium 3. Odkrywanie reguł asocjacyjnych.

Reguły asocjacyjne, wykł. 11

PRACA INŻYNIERSKA IMPLEMENTACJA MOBILNEGO KLIENTA BANKU ZABEZPIECZONEGO TOKENEM

AUTOMATYKA INFORMATYKA

Klasyfikacja metodą Bayesa

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

projekt zaliczeniowy Eksploracja Danych

Algorytm DIC. Dynamic Itemset Counting. Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek

ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak

Laboratorium 6. Indukcja drzew decyzyjnych.

Widzenie komputerowe (computer vision)

Sztuczna inteligencja : Naiwny klasyfikator Bayesa

w ekonomii, finansach i towaroznawstwie

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

EKSPLORACJA DANYCH METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Data Mining w bazie Oracle 9i

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Laboratorium 2. Określanie ważności atrybutów.

PureSystems zautomatyzowane środowisko aplikacyjne. Emilia Smółko Software IT Architect

Data Mining podstawy analizy danych Cześć pierwsza. Wprowadzenie

Odkrywanie wzorców sekwencyjnych z zachowaniem prywatności

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

DMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski

Elementy modelowania matematycznego

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Eksploracja danych (data mining)

Obsługa transakcji rozproszonych Java. Marek Wojciechowski, Maciej Zakrzewicz Instytut Informatyki, Politechnika Poznańska

Wydawnictwo Politechniki Poznanskiej

Wyszukiwanie reguł asocjacji i ich zastosowanie w internecie

Eksploracja Danych. podstawy

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

Systemy uczące się Lab 4

IBM SPSS Modeler 18.0 podręcznik eksploracji w bazie danych IBM

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

Transkrypt:

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining 0LNRáDM0RU]\ Marek Wojciechowski Instytut Informatyki PP Eksploracja danych 2GNU\ZDQLHZ]RUFyZZGX*\FK wolumenach danych Ewolucja systemów eksploracyjnych Systemy dedykowane 6\VWHP\ZVSyáSUDFXMFH]ED]GDQ\FKOracle Darwin, IBM Intelligent miner) 6\VWHP\FLOH]LQWHJURZDQH]ED]GDQ\FK (oracle9i data Mining)

Metody eksploracji danych () 5HJXá\DVRFMDF\MQH 80% klientów którzy w marcu kupili buty narciarskie i okulary VáRQHF]QHNXSLáRWH*ZHáQLDQHVZHWU\WDNLFK]DNXSyZ GRNRQDáRNOLHQWyZNXSXMF\FKZPDUFX Buty narciarskie okulary sweter weániany s=0.8 c=80 Klasyfikacja wiek < 30 tak nie tak KM < 20 nie wzrok = dobry dochody < 3 l.drzwi < 4 tak nie tak nie tak nie ]á\ UHGQL ]á\ UHGQL dobry Metody eksploracji danych (2) Grupowanie obiektów (clustering) Przebiegi czasowe (time series) 2

Klasyfikacja =ELyUSU]\NáDGyZNURWHN]NWyU\FKND*G\ QDOH*\GRMHGQHM]SUHGHILQLRZDQ\FKNODV Budowanie (trenowanie) modelu i testowanie modelu :\NRU]\VWDQLHPRGHOXGRRNUHODQLDNODV\ GRNWyUHMQDOH*QRZHSU]\NáDG\ Klasyfikacja (atrybuty kategoryczne) i SUHG\NFMDDWU\EXW\FLJáH Metody klasyfikacji Drzewa decyzyjne Klasyfikatory bayesowskie Sieci neuronowe Analiza statystyczna Algorytmy genetyczne =ELRU\SU]\EOL*RQH 3

Drzewa decyzyjne.d*g\z]házhzqwu]q\uhsuh]hqwxmhwhvw przeprowadzony na atrybucie.d*gdjdá(uhsuh]hqwxmhz\qlnwhvwx.d*g\olüuhsuh]hqwxmhnodv.u\whuldsrg]ldáx wiek < 3 Indeks GINI (CART) Wzrost informacji (C4.5) χ2 (CHAID) wysokie ryzyko T T N wysokie ryzyko auto sportowe N niskie ryzyko Klasyfikator Bayesa Twierdzenie Thomasa Bayesa (702-76) Pr(h d) = Pr(d h)*pr(h)*{σ i Pr(d h i )*Pr(h i )} - Optymalny klasyfikator Bayesa arg max Pr(c(x)=d t)= Σ h Pr (c(x)=d h)*pr(h t) Naiwny klasyfikator Bayesa arg max Pr(c(x)=d a (x)=a (x 0 ),..., a n (x)=a n (x 0 )), czyli arg max Pr(c(x)=d)*Pr(a (x)=a (x 0 ),..., a n (x)=a n (x 0 ) c(x)=d) Zaáo*enie o warunkowej niezale*noci atrybutów: Pr(a (x)=v,..., a n (x)=v n c(x)=d)= i Pr(a i (x)=v i c(x)=d) 4

3U]\NáDG RID 2 3 4 5 6 7 DOCHOD > 2000 <= 2000 <= 2000 > 2000 > 2000 <= 2000 <= 2000 TYP SPORT SPORT COMBI COUPE COMBI SPORT COUPE RYZYKO NISKIE WYSOKIE NISKIE WYSOKIE NISKIE WYSOKIE??? Pr(niskie)=3/6 Pr(wysokie)=3/6 Pr(dochod > 2000 niskie) = 2/3 Pr(dochod <= 2000 niskie) = /3 Pr(dochod > 2000 wysokie) = /3 Pr(dochod <= 2000 wysokie) = 2/3 Pr(typ = sport niskie) = /3 Pr(typ = combi niskie) = 2/3 Pr(typ = coupe niskie) = 0/3 Pr(typ = sport wysokie) = 2/3 Pr(typ = combi wysokie) = 0/3 Pr(typ = coupe wysokie) = /3 Pr(niskie)*Pr(>2000,coupe niskie)=3/6*2/3*0./3=/90 Pr(wysokie)*Pr(>2000,coupe wysokie)=3/6*/3*/3=/8 5HJXá\DVRFMDF\MQH =ELyUWUDQVDNFMLNOLHQWyZJG]LHND*GD transakcja to zbiór elementów (produktów) 2GQDOH]LHQLH]ELRUyZHOHPHQWyZF]VWR Z\VWSXMF\FKUD]HPZWUDQVDNFMDFK klientów :\JHQHURZDQLHUHJXáLREOLF]HQLH ZVSyáF]\QQLNyZVWDW\VW\F]Q\FK RSLVXMF\FKZVSyáZ\VWSRZDQLHHOHPHQWyZ 5

=DVWRVRZDQLHUHJXáDVRFMDF\MQ\FK Analiza koszyka zakupów 5R]NáDGSyáHNLWRZDUyZQDSyáNDFK.RQVWUXRZDQLHZL]DQ\FKRIHUWVSU]HGD*\ 0DUNHWLQJEH]SRUHGQL Diagnozy lekarskie Telekomunikacja $QDOL]DGRVWSyZGRVHUZLVyZ::: Automatyczna personalizacja serwisów WWW 6IRUPXáRZDQLHSUREOHPX Zbiór elementów I = { i,..., i n } Transakcja T (zbiór elementów) T I Baza danych D (zbiór transakcji) Transakcja T wspiera zbiór elementów X jeli X T Reguáa asocjacyjna: X Y, gdzie X, Y I i X Y = piwo czipsy karkówka plast. Talerze 6

0LDU\VWRVRZDQHGRUHJXá Wsparcie UHJXá\X Y to liczba transakcji w D wspierajcych (X Y) Ufnoü reguáy X Y to liczba transakcji wspierajcych X które równie* wspieraj Y Lift reguáy X Y porównuje stosunek prawdopodobiestwa wystpienia Y razem z X do prawdopodobiestwa wystpienia Y z dowolnym innym zbiorem Algorytm Apriori L = {frequent -itemset}; for (k=2;l k- ;k++) do begin C k = apriori_gen(l k- ); forall transactions t T do begin forall candidates c t do c.count++; end; L k = {c C k c.count minsup} end; Answer = k L k ; 7

,QQHURG]DMHUHJXáDVRFMDF\MQ\FK 8RJyOQLRQHUHJXá\DVRFMDF\MQHUHJXá\ wielopoziomowe),orflrzhuhjxá\dvrfmdf\mqh Wzorce sekwencji 5HJXá\inter-transakcyjne Architektura Oracle9i Data Mining ODM Application Programming Interface ODM API to zbiór klas i metod Z\NRU]\VW\ZDQ\FKSU]H]SURJUDPLVW ODM Data Mining Server ODM DMS to komponent po stronie serwera, zbiór skompilowanych klas i procedur PL/SQL oraz repozytorium 8

Oracle9i Data Mining GRVWSQHPHWRG\ Uczenie nadzorowane.odv\ilndfmd]dsrprfqdlzqhjrnodv\ilndwrud Bayesa, budowanie modelu, testowanie modelu, stosowanie modelu do nowych danych Uczenie bez nadzoru 2GNU\ZDQLHUHJXáDVRFMDF\MQ\FK]DSRPRF algorytmu Apriori Przechowywanie wyników eksploracji w repozytorium data mining object Oracle9i Data Mining - proces function settings object minsup = 0. minconf = 0.8 A B C DB data usage specification mining model RID 2... ATR ABC ABD... ATR2 XYZ XWX... ATR3 8976 456... logical data specification klasyfikator 9

Format danych Fizyczna specyfikacja danych klasa: PhysicalDataSpecification format transakcyjny format kategoryczny SEQ_ID 2 ATRYBUT KOLOR MARKA ROCZNIK KOLOR :$572û %,$à< FIAT 998 GRANAT SEQ_ID KOLOR MARKA ROCZNIK %,$à< FIAT 998 2 GRANAT RENAULT 200 3 CZARNY LANCIA 999 4 ZIELONY AUDI 996 Dyskretyzacja klasy: CategoricalDiscretization, NumericalDiscretization Dyskretyzacja jawna 5HJXá\PDSRZDQLDGROQHLJyUQHJUDQLFHNDW QDMF]VWV]\FK /LF]EDLQWHUHVXMF\FKNDWHJRULL 3RG]LDáQDkwantyle /LF]EDLQWHUHVXMF\FKkwantyli 0

Inne klasy Specyfikacja funkcji eksploracji Model eksploracji Wynik eksploracji Algorytm eksploracji 5HJXáDDVRFMDF\MQD Klasyfikator Repozytorium =ELyUUHODFMLSU]HFKRZXMF\FKIXQNFMH modele i wyniki eksploracji ODM_CONFIGURATION ODM_MINING_FUNCTION_SETTINGS ODM_MINING_MODEL ODM_MESSAGE_LOG...