Implementacja metod eksploracji danych - Oracle Data Mining



Podobne dokumenty
Eksploracja danych. Wielkie bazy danych. Zależności w bazach danych Przykład 1. Zależności w bazach danych Przykład 2

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

data mining machine learning data science

Wielkie wolumeny danych są trudne w analizowaniu. system satelitarnej obserwacji EOS zbudowany przez NASA generuje

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Laboratorium 11. Regresja SVM.

Proces odkrywania wiedzy z baz danych

Oracle Data Mining 10g

Data Mining w bazie Oracle 9i

Mikołaj Morzy, Marek Wojciechowski: "Integracja technik eksploracji danych z systemem zarządzania bazą danych na przykładzie Oracle9i Data Mining"

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Plan. Wprowadzenie. Co to jest APEX? Wprowadzenie. Administracja obszarem roboczym

Szczegółowy opis przedmiotu zamówienia

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Analiza danych i data mining.

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Metody eksploracji danych. Reguły asocjacyjne

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Implementacja wybranych algorytmów eksploracji danych na Oracle 10g

Wprowadzenie do technologii informacyjnej.

1. Cele eksploracyjnej analizy danych Rapid Miner zasady pracy i wizualizacja danych Oracle Data Miner -zasady pracy.

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Eksploracja danych. Plan prezentacji. Problemy eksploracji danych. Wielkie bazy danych SCHEMATY. zakresie baz danych, uczenia maszynowego i statystyki

Laboratorium 2. Określanie ważności atrybutów.

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.

Spis treści. Przedmowa

Ćwiczenie 5. Metody eksploracji danych

Ewelina Dziura Krzysztof Maryański

Data Mining podstawy analizy danych Część druga

Eksploracja danych PROCES EKSPLORACJI DANYCH. Wojciech Waloszek. Teresa Zawadzka.

Laboratorium 4. Naiwny klasyfikator Bayesa.


METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

ALGORYTM RANDOM FOREST

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Inżynieria biomedyczna

KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5

ZAGADNIENIA DO EGZAMINU DYPLOMOWEGO NA STUDIACH INŻYNIERSKICH. Matematyka dyskretna, algorytmy i struktury danych, sztuczna inteligencja

Analiza danych tekstowych i języka naturalnego

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Laboratorium 3. Odkrywanie reguł asocjacyjnych.

Mail: Pokój 214, II piętro

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

1. Odkrywanie asocjacji

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Sprzętowo wspomagane metody klasyfikacji danych

Analiza danych. TEMATYKA PRZEDMIOTU

OPIS PRZEDMIOTU ZAMÓWIENIA

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Laboratorium z przedmiotu MED. Lab1 - wprowadzenie

Data Mining podstawy analizy danych Cześć pierwsza. Wprowadzenie

Techniki i algorytmy eksploracji danych. Geneza (1) Geneza (2)

Oracle Application Express -

Plan. Raport. Tworzenie raportu z kreatora (1/3)

Eksploracja danych (data mining)

Odkrywanie asocjacji

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Eksploracja Danych. podstawy

Podyplomowe Studium Informatyki w Bizniesie Wydział Matematyki i Informatyki, Uniwersytet Łódzki specjalność: Tworzenie aplikacji w środowisku Oracle

Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki. Paweł Parys. Nr albumu: Aukcjomat

Procesy ETL. 10maja2009. Paweł Szołtysek

Laboratorium 13. Eksploracja danych tekstowych.

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii

Funkcje standardowej wersji programu WAGMASTER (obsługa wag samochodowych)

Baza danych sql. 1. Wprowadzenie

Data Mining Kopalnie Wiedzy

Oracle10g: Programowanie w PL/SQL

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Baza danych to zbiór wzajemnie powiązanych ze sobą i zintegrowanych danych z pewnej dziedziny.

Dane wejściowe. Oracle Designer Generowanie bazy danych. Wynik. Przebieg procesu

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Procesy integracji modeli danych do jednolitej struktury WBD. Tadeusz Chrobak, Krystian Kozioł, Artur Krawczyk, Michał Lupa

poziom: Core wersja: 2.6 moduł: B : Wytwarzanie SYLLABUS

CLUSTERING. Metody grupowania danych

ZAŁĄCZNIK NR 5 - GRUPA PRODUKTÓW 5: OPROGRAMOWANIE BAZODANOWE

StatSoft profesjonalny partner w zakresie analizy danych

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2013/2014

Sage Migrator Migracja do wersji Sage Kadry i Płace

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Tworzenie aplikacji bazodanowych

Oferta szkoleniowa Yosi.pl 2012/2013

1. Grupowanie Algorytmy grupowania:

Szczegółowy opis przedmiotu umowy. 1. Środowisko SharePoint UWMD (wewnętrzne) składa się z następujących grup serwerów:

Spis tre±ci. Przedmowa... Cz ± I

Wykorzystanie standardów serii ISO oraz OGC dla potrzeb budowy infrastruktury danych przestrzennych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Założenia do ćwiczeń: SQL Server UWM Express Edition: \SQLEXPRESS. Zapoznaj się ze sposobami użycia narzędzia T SQL z wiersza poleceń.

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Laboratorium 12. Odkrywanie osobliwości.

Laboratorium 5. Adaptatywna sieć Bayesa.

Microsoft Access materiały pomocnicze do ćwiczeń cz. 1

Transkrypt:

Implementacja metod eksploracji danych - Oracle Data Mining 395

Plan rozdziału 396 Wprowadzenie do eksploracji danych Architektura Oracle Data Mining Możliwości Oracle Data Mining Etapy procesu eksploracji danych Przykład wykorzystania ODM reguły asocjacyjne Przykład wykorzystania ODM klasyfikacja Podsumowanie

Czym jest eksploracja danych? 397 Eksploracja danych (ang. data mining): zbiór technik automatycznego odkrywania nietrywialnych zależności i schematów (patterns) w dużych zbiorach danych (bazach i hurtowniach danych) Eksploracja danych a OLAP OLAP ma postać weryfikacji hipotez, eksploracja danych umożliwia odkrycie niespodziewanych zależności Eksploracja danych często jest kolejnym etapem analizy danych DANE DATA MINING SCHEMATY, MODELE

Techniki eksploracji danych 398 Odkrywanie asocjacji (zbiorów częstych i reguł) Odkrywanie wzorców sekwencyjnych Klasyfikacja Odkrywanie charakterystyk Analiza skupień (klastrowanie, grupowanie) Dyskryminacja Regresja Wykrywanie zmian i odchyleń

399 Dziedziny zastosowań eksploracji danych Handel i marketing identyfikacja profilu klienta na potrzeby marketingu kierunkowego wykrywanie schematów zakupów i planowanie lokalizacji artykułów Finanse i bankowość schematy wykorzystywania kradzionych kart kredytowych przewidywanie dochodowości portfela akcji, znajdowanie korelacji wśród wskaźników finansowych Nauka i technologia analiza strumieni wyników pomiarów biologia molekularna (analiza DNA, białek) Internet (Web Mining) handel i marketing internetowy analiza zachowań użytkowników WWW personalizacja serwisów WWW

Metody eksploracji: klasyfikacja 400 Klasyfikacja: znajdowanie sposobu odwzorowywania danych w zbiór predefiniowanych klas Przykład klasyfikacji: automatyczny podział kierowców na powodujących i niepowodujących wypadków drogowych: kierowcy prowadzący czerwone pojazdy o pojemności 650 ccm powodują wypadki drogowe kierowcy, którzy posiadają prawo jazdy ponad 3 lata lub jeżdżą niebieskimi samochodami nie powodują wypadków drogowych Modele klasyfikacji: modele probabilistyczne zbiory reguł drzewa decyzyjne

Metody eksploracji: analiza skupień 401 Analiza skupień (klastrowanie): znajdowanie skończonego zbioru klas (podzbiorów) w bazie danych wiek 50 klasa 1: wiek<25 i pensja<3 klasa 2: 25<wiek<50 i pensja<3 25 klasa 3: wiek>25 i 3<pensja<6 3 6 pensja [tys.] Zastosowania analizy skupień: określanie segmentów rynku na podstawie cech klientów odkrywanie grup podobnie zachowujących się użytkowników WWW na potrzeby personalizacji

402 Metody eksploracji: odkrywanie asocjacji Odkrywanie asocjacji: znajdowanie związków pomiędzy występowaniem podzbiorów elementów w zbiorach danych Przykłady asocjacji: klienci, którzy kupują piwo, kupują również orzeszki klienci, którzy kupują chleb i ser, kupują również wodę mineralną i ketchup Zastosowania odkrytych asocjacji: analiza koszyka zakupów (ang. market basket analysis) planowanie kampanii promocyjnych planowanie rozmieszczenia stoisk sprzedaży w supermarketach Reguły asocjacyjne: (chipsy, orzeszki) -> (piwo), support=5%, confidence=50% wsparcie reguły (support): liczba krotek, potwierdzających regułę ufność reguły (confidence): poprawność reguły w zbiorze krotek

Czym jest Oracle Data Mining? 403 Oracle Data Mining (ODM) to funkcje eksploracji danych zagnieżdżone w serwerze bazy danych Oracle (DMS Data Mining Server) Transformacja danych, budowa modeli i zastosowanie modeli ma miejsce w bazie danych dane nigdy nie opuszczają bazy! ODM ułatwia integrację eksploracji danych z aplikacjami bazodanowymi ODM jest dostępny jako opcja dla Oracle 9i/10g EE Minimalna zalecana wersja 9i to 9.2.0.4 (ewentualnie 9.2.0.2 + ODM Patch 9.2.0.3)

Techniki eksploracji w ODM 404 Modele predykcyjne (supervised learning) Klasyfikacja Regresja (10g) Ważność atrybutów Modele deskryptywne (unsupervised learning) Analiza skupień (klastrowanie, grupowanie) Reguły asocjacyjne Ekstrakcja właściwości (10g) Eksploracja danych tekstowych (10g) Klasyfikacja, grupowanie w oparciu o charakterystyki wyekstrahowane z dokumentów tekstowych BLAST (10g) Analiza danych biologicznych (sekwencje DNA i protein)

405 Algorytmy eksploracji danych w ODM 10g Klasyfikacja Naive Bayes (NB) szybki, do 200 atrybutów, nie zwraca reguł Adaptive Bayes Network (ABN) pokazuje reguły Support Vector Machine (SVM) gdy któryś z atrybutów tekstowy Regresja Support Vector Machine (SVM) Ważność atrybutów Minimal Descriptor Length (MDL) Analiza skupień (klastrowanie, grupowanie) Enhanced k-means dla zadanej liczby klastrów, dla atrybutów numerycznych Orthogonal Clustering (O-Cluster) automatycznie określa liczbę klastrów, obsługuje atrybuty numeryczne i nominalne Odkrywanie reguł asocjacyjnych Apriori Ekstrakcja właściwości Non-Negative Matrix Factorization (NMF)

Użytkownicy bazy danych dla ODM 406 Oracle 9i ODM: zawiera metadane i modele, eksploracja prowadzona jest jako użytkownik ODM ODM_MTR: zawiera dane użytkownika i wyniki zastosowania modeli do danych (również zawiera przykładowe tabele z danymi) Oracle 10g DMSYS: zawiera repozytorium ODM (metadane dla eksploracji) Użytkownicy (data mining users) Będący odpowiednikami ODM w 9i Prowadzący eksplorację danych Dane źródłowe i wyniki eksploracji składowane w ich schematach Do ich tworzenia dostarczone są skrypty SQL $ORACLE_HOME/dm/admin/odmtbs.sql (tworzenie przestrzeni tabel) $ORACLE_HOME/dm/admin/odmuser.sql (tworzenie użytkownika) $ORACLE_HOME/dm/admin/dmuserld.sql (ładowanie przykładowych tabel)

Interfejs Oracle Data Mining 407 Dostęp do ODM realizowany jest poprzez interfejs programistyczny (API): Java API dla aplikacji implementowanych w języku Java PL/SQL API od wersji 10g, dla aplikacji w języku PL/SQL Charakterystyka ODM Java API i PL/SQL API W chwili obecnej (10g R1) interfejsy nie są ze sobą zgodne! (np. niektóre algorytmy dostępne tylko poprzez Java API) W 10g R2 Java API ma być dostosowany do standardu Java Data Mining Interfejs graficzny do Oracle Data Mining Klient ODM zaimplementowany w języku Java Ukrywa złożoność API i ułatwia dostęp do funkcji eksploracji danych Umożliwia budowę, testowanie i stosowanie modeli Towarzyszy mu generator kodu Java dla JDevelopera

Interfejs graficzny do ODM 9i 408 Data Mining for Java (DM4J) rozszerzenie (extension) dla JDeveloper 9i DM4J obejmuje: ODM Components zbiór kreatorów do realizacji typowych zadań eksploracji danych ODM Browser umożliwia przeglądanie wyników eksploracji (modeli) i monitorowanie wykonywania zadań eksploracji Tools/Data Mining Browser Automatycznie generowany jest kod Java

Interfejs graficzny do ODM 10g 409 Oracle Data Miner graficzny klient ODM napisany w języku Java stand-alone nie wymaga JDevelopera nie generuje kodu ODM Java Code Generator rozszerzenie (extension) dla JDeveloper 10g

Dane źródłowe dla ODM (1/2) 410 ODM wymaga, aby dane źródłowe były w postaci jednej tabeli lub perspektywy ODM akceptuje następujące typy danych: VARCHAR2, CHAR, NUMBER, CLOB, BLOB, BFILE, XMLTYPE, URITYPE Daty muszą zostać przedstawione jako łańcuchy znaków lub liczby! Wartości puste są traktowane jako: brakujące wartości w algorytmach klasyfikacji, ważności atrybutów i grupowania jako wyznaczniki rzadkiego zbioru danych w innych metodach

Dane źródłowe dla ODM (2/2) 411 Tabela (perspektywa) źródłowa może być w formacie: Nietransakcyjnym jeden rekord opisuje przypadek (case) Tradycyjne tabele relacyjne Transakcyjnym wiele rekordów opisuje przypadek (case) Odpowiednie dla danych opisanych przez wiele atrybutów Odpowiednie dla danych z dużą liczbą wartości pustych

Przygotowanie danych do eksploracji 412 Przygotowanie danych stanowi ważny etap eksploracji wpływa na czas pracy algorytmów i jakość uzyskanych modeli Operacje wykonywane jawnie przez eksperta zastąpienie wartości pustych usunięcie wartości odbiegających od normy (ang. outliers) wybór ważnych atrybutów dla klasyfikacji (funkcją ODM) generacja atrybutów wywiedzionych (funkcją ODM) Operacje wykonywane przez eksperta lub automatycznie przed ODM Binning (dyskretyzacja) redukcja liczby różnych wartości dla atrybutu (Top-N frequent items lub Equi-width) Skraca czas budowy modelu kosztem jego dokładności Przydatna dla NB, ABN, analizy skupień, asocjacji, ważności atrybutów Normalizacja sprowadzenie wartości wszystkich atrybutów do tego samego przedziału Typowo <0;1> lub <-1;1> Przydatna dla SVM, NMF

Kroki procesu eksploracji danych 413 ` 1) Zdefiniowanie problemu Identyfikacja celu do osiągnięcia 2) Identyfikacja danych źródłowych Sformułowanie problemu w kontekście dostępnych danych 3) Przygotowanie danych 4) Budowa i testowanie modelu Testowanie tylko dla klasyfikacji i regresji; wymaga podziału danych na zbiór do budowy modelu i zbiór testowy 5) Wdrożenie modelu Wbudowanie wygenerowanego kodu w aplikację użytkową 6) Zastosowanie modelu Aplikacja modelu do nowych danych Dotyczy klasyfikacji, regresji, analizy skupień

Odkrywanie asocjacji Przykład (1/6) 414 Dane źródłowe: historia zakupów w formacie transakcyjnym Cel eksploracji: Odkrycie produktów kupowanych wspólnie

Odkrywanie asocjacji Przykład (2/6) 415 Wybór połączenia z bazą danych (jako ODM user!) Uruchomienie kreatora do budowy modelu

Odkrywanie asocjacji Przykład (3/6) 416 Wybór tabeli z danymi źródłowymi Tabela w formacie transakcyjnym Parametry algorytmu

Odkrywanie asocjacji Przykład (4/6) 417 Ustawienia dotyczące danych źródłowych Dane już przygotowane (binned) Wybór atrybutów

Odkrywanie asocjacji Przykład (5/6) 418 Monitorowanie statusu zadania eksploracji QUEUED -> EXECUTING -> SUCCESS

Odkrywanie asocjacji Przykład (6/6) 419 Przeglądanie wyniku eksploracji Model w postaci zbioru reguł

Klasyfikacja Przykład (1/10) 420 Dane źródłowe: Charakterystyki demograficzne osób wraz z informacją o przynależności do grupy o wysokich (CLASS=1) lub niskich dochodach (CLASS=0) Cel eksploracji: Model pozwalający przewidzieć przynależność osób do grupy o wysokich lub niskich dochodach na podstawie ich charakterystyk

Klasyfikacja Przykład (2/10) 421 Uruchomienie kreatora do budowy modelu Wybór tabeli z danymi źródłowymi Tabela w formacie nietransakcyjnym

Klasyfikacja Przykład (3/10) 422 Wybór algorytmu: Naive Bayes Informacja o przygotowaniu danych Dane nieprzygotowane; żądanie automatycznego przygotowania (binning)

Klasyfikacja Przykład (4/10) 423 Wskazanie atrybutu określającego klasę (target attribute) Wybór atrybutów, które mają być uwzględnione w modelu

Klasyfikacja Przykład (5/10) 424 Wyniki eksploracji - model Algorytm Naive Bayes buduje model probabilistyczny Model jest aplikowany do nowych danych na zasadzie czarnej skrzynki ; nie można podejrzeć reguł jego działania

Klasyfikacja Przykład (6/10) 425 Uruchomienie kreatora do testowania modelu Cel: ocena jakości modelu Dane testowe mają taką samą strukturę jak te do budowy modelu Wskazanie modelu do przetestowania Test standardowy: dane testowe rozłączne z danymi na których zbudowano model Wskazanie tabeli z danymi testowymi

Klasyfikacja Przykład (7/10) 426 Wyniki testowania modelu: współczynnik dokładności modelu macierz pomyłek (confusion matrix) Budowę/testowanie modelu należy powtarzać, zmieniając algorytm i/lub parametry, aż do uzyskania satysfakcjonującego modelu!

Klasyfikacja Przykład (8/10) 427 Uruchomienie kreatora do aplikacji modelu do nowych danych Dane źródłowe nie zawierają informacji o przypisaniu przypadków do klas Wynikiem aplikacji modelu będzie przypisanie przypadków do klas Wybór modelu Wybór tabeli z danymi do zaklasyfikowania

Klasyfikacja Przykład (9/10) 428 Wskazanie atrybutów identyfikujących przypadki Wybranie klas, dla których ma być wskazane prawdopodobieństwo przynależności przypadku Tylko jedna klasa, najbardziej prawdopodobna dla danego przypadku

Klasyfikacja Przykład (10/10) 429 Wybór nazwy tabeli, w której zostaną zapisane informacje o przypisaniu przypadków do klas Wyniki zastosowania klasyfikatora

Podsumowanie 430 Oracle Data Mining to opcja serwera Oracle umożliwiająca eksplorację danych Eksploracja danych to zautomatyzowane odkrywanie wzorców, zależności i modeli w dużych zbiorach danych Ocena ODM na tle innych narzędzi eksploracji danych Ścisła integracja z bazą danych, algorytmy działają blisko danych, brak konieczności eksportu danych z bazy Brak wsparcia dla wszystkich technik eksploracji danych brak odkrywania wzorców sekwencyjnych i analizy przebiegów czasowych Stosunkowo niewiele algorytmów do wyboru np. brak budowy drzew decyzyjnych jako modelu klasyfikacji