Oracle Data Mining 10g



Podobne dokumenty
Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

UCZENIE MASZYNOWE III - SVM. mgr inż. Adam Kupryjanow

Implementacja metod eksploracji danych - Oracle Data Mining

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Scoring kredytowy w pigułce

Laboratorium 11. Regresja SVM.

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

StatSoft profesjonalny partner w zakresie analizy danych

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.

Widzenie komputerowe (computer vision)

7. Maszyny wektorów podpierajacych SVMs

Szczegółowy opis przedmiotu zamówienia

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Metody selekcji cech

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Wstęp do przetwarzania języka naturalnego. Wykład 11 Maszyna Wektorów Nośnych

Data Mining podstawy analizy danych Część druga

Analiza danych. TEMATYKA PRZEDMIOTU

Fabryka i3 Machine Learning w analizie ryzyka kredytowego

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Algorytmy klasyfikacji

Zarządzanie Projektami zgodnie z PRINCE2

Agnieszka Nowak Brzezińska

data mining machine learning data science

DMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski

Laboratorium 12. Odkrywanie osobliwości.

Analiza danych i data mining.

Metody scoringowe w regresji logistycznej

ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak

Prezentacja raportu z badania nadużyć w sektorze finansowym

Wprowadzenie do uczenia maszynowego

Elementy modelowania matematycznego

Rozpoznawanie obrazów

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Zastosowania funkcji jądrowych do rozpoznawania ręcznie pisanych cyfr.

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

Wprowadzenie do technologii informacyjnej.

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

z wyszczególnieniem usług automatyzacji procesów mgr inż. Adam Smółkowski mgr inż. Marcin Wójciuk Aspartus (Grupa ProService FINTECO)

Popularne klasyfikatory w pakietach komputerowych

Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych

Reforma regulacyjna sektora bankowego Roboty nadchodzą. 11 grudnia 2017

Klasyfikacja LDA + walidacja

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Data Mining Wykład 4. Plan wykładu

Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów

STATYSTYKA MATEMATYCZNA

Laboratorium 4. Naiwny klasyfikator Bayesa.

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Regresja nieparametryczna series estimator

SZTUCZNA INTELIGENCJA

Praktyczne aspekty stosowania metody punktów funkcyjnych COSMIC. Jarosław Świerczek

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

ALGORYTMY EWOLUCYJNE W OPTYMALIZACJI JEDNOKRYTERIALNEJ

Wykład I. Wprowadzenie do baz danych

Podstawy sztucznej inteligencji

Entropia Renyi ego, estymacja gęstości i klasyfikacja

Projekt Sieci neuronowe

Agnieszka Nowak Brzezińska Wykład III

Wybór modelu i ocena jakości klasyfikatora

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Mail: Pokój 214, II piętro

AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7

Hurtownie danych. 31 stycznia 2017

PRAKTYCZNY SKORING - NIE TYLKO KREDYTOWY

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Optymalizacja ciągła

Narzędzia IT we współczesnych strategiach utrzymaniowych

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Splunk w akcji. Radosław Żak-Brodalko Solutions Architect Linux Polska Sp. z o.o.

Z roku na rok wzrasta liczba systemów informatycznych, co skutkuje coraz większym uzależnieniem od nich działalności biznesowej przedsiębiorstw.

Data Mining podstawy analizy danych Cześć pierwsza. Wprowadzenie

Systemy uczące się wykład 2

Laboratorium 5. Adaptatywna sieć Bayesa.

Metody systemowe i decyzyjne w informatyce

Podstawy sztucznej inteligencji

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Laboratorium 2. Określanie ważności atrybutów.

Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki

Agnieszka Nowak Brzezińska Wykład III

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Data Mining w bazie Oracle 9i

!!!!!!!!!!! PORTFOLIO: Analiza zachowań użytkowników serwisów internetowych. Autorzy: Marek Zachara

Pattern Classification

KLASYFIKACJA TEKSTUR ZA POMOCĄ SVM MASZYNY WEKTORÓW WSPIERAJĄCYCH

ALGORYTM RANDOM FOREST

Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)

Odczarowujemy modele predykcyjne Teoria i Praktyka

Szybkość instynktu i rozsądek rozumu$

Analiza Danych Case study Analiza diagnostycznej bazy danych Marek Lewandowski, inf59817 zajęcia: środa, 9.

Transkrypt:

Oracle Data Mining 10g Zastosowanie algorytmu Support Vector Machines do problemów biznesowych Piotr Hajkowski Oracle Consulting

Agenda Podstawy teoretyczne algorytmu SVM SVM w bazie danych Klasyfikacja Regresja Wykrywanie anomalii Parametry sterujące budową algorytmu

Agenda Praktyczne zastosowania Korzyści biznesowe Zastosowanie SVM w różnych dziedzinach i sektorach gospodarki Przykład: Ocena ryzyka kredytowego w banku Demonstracja narzędzia Oracle Data Miner Stosowanie modelu do nowych danych

Data Mining w bazie danych Wzrastające znaczenie technologii analitycznych Duże wolumeny danych muszą być przetworzone / przeanalizowane Współczesne techniki data mining są efektywne i jednocześnie mają wysoką dokładność Wyzwania stawiane przez data mining Złożone metodologie Wymagające obliczeniowo

Dlaczego SVM znalazł się w bazie Oracle? Bardzo efektywny klasyfikator Mocne podstawy teoretyczne Teoria Vapnika-Chervonenkisa (VC) Właściwości regularyzacyjne (gładkość) Dobre uogólnianie dla nietypowych danych Doskonały algorytm dla trudnych danych o wielu zmiennych wejściowych tekst, obrazy, bioinformatyka SVM może być zastosowany do tej samej klasy problemów co sieci neuronowe / RBF

Algorytmy w 10gR2 Technika Data Mining Klasyfikacja Regresja Istotność atrybutów Reguły współwystępowania Analiza skupień Ekstrakcja cech Wykrywanie anomalii Algorytm Decision Tree Naïve Bayes Support Vector Machine Adaptive Bayes Network Support Vector Machine MDL (Minimum Description Length) A Priori KMeans od 10gR2 OCluster od 10gR1 od 9iR2 NMF (Non-negative Matrix Factorization) Support Vector Machine

SVM w bazie Oracle Oracle Data Mining (ODM) Komercyjna implementacja SVM w bazie wspierająca klasyfikację, regresję i wykrywanie anomalii SVM jest produktem przeznaczonym dla programistów i analityków data mining Sposób implementacji w bazie kładzie nacisk na łatwość użycia i wydajność Najważniejsze wyzwania Dobra skalowalność duże wolumeny danych, małe wymagania na pamięć, krótki czas odpowiedzi Wysoka trafność przy domyślnych parametrach

SVM w bazie Oracle Typy technik data mining Klasyfikacja: binarna i wieloklasowa Regresja Wykrywanie anomalii (jedna klasa) Funkcje jądra (do odwzorowania przestrzeni cech) Funkcje liniowe Funkcje Gaussa

SVM do klasyfikacji: Klasy separowalne Linear kernel

Model SVM jest hiperpłaszczyzną Model SVM definiuje hiperpłaszczyznę w przestrzeni cech jako wektor (w) prostopadły do płaszczyzny i przesunięcie (b) b w ( w b) f = sign x +

Modele z największym marginesem wektory wsparcia Wiele różnych modeli separuje klasy SVM wybiera płaszczyznę z największą separacją klas

SVM do klasyfikacji: Klasy liniowo nieseparowalne Klasy Linear liniowokernel nieseparowalne Gaussian Klasy odseparowane (σ=20) kernel funkcją nieliniową

Transformacja danych do większej przestrzeni 1. Transformujemy dane przy użyciu nieliniowego odwzorowania (funkcji jądra) do przestrzeni z większą liczbą wymiarów Funkcje jądra: Gaussa i wielomianowe 2. Trenujemy liniowy model w nowej przestrzeni cech

Miękki margines dla danych nieseparowalnych ξ ξ Współczynnik złożoności pozwala zrównoważyć złożoność modelu i liczby błędów w czasie trenowania modelu Wbudowany mechanizm pozwalający uzyskać dobry błąd uogólniania

SVM do regresji ξˆ ξ ε Epsilon-funkcja niewrażliwej straty Parametr epsilon determinuje gładkość dopasowania Parametr złożoności C równoważy złożoność modelu i błędy trenowania

SVM do wykrywania anomalii Wykrywanie przypadków nietypowych Przypadki typowe vs nietypowe Rozróżnienie pomiędzy znaną klasą a światem nieznanych przypadków

Dokładność modelu: wpływ użytkownika Niedoświadczeni użytkownicy mogą uzyskać wyjątkowo słabe rezultaty Fizyka Bioinformatyka Transport Dokładność laika 0.67 0.57 0.02 Dokładność eksperta 0.97 0.79 0.88

Wsparcie Oracle a w przygotowaniu danych Automatyczne przygotowanie danych Usunięcie przypadków nietypowych Normalizacja Przekodowanie atrybutów kategorycznych do numerycznych Wsparcie przez pakiet dbms_data_mining_transform Oracle Data Minera

Estymacja w locie parametrów dla SVM Bazuje na danych (próbki) Niski koszt obliczeniowy Zapewnia dobre uogólnienie Pozwala uniknąć przetrenowania modelu Model jest zbyt złożony i dane są zapamiętywane Pozwala uniknąć niedotrenowania modelu Model nie jest wystarczająco złożony by odwzorować strukturę danych

SVM: ustawienia dla klasyfikacji Parametr Stosuje się do: Domyśl. Zakres Kernel type Linear Gauss Linear Linear, Gauss Error tolerance 0.001 (0, 0.1) Complexity Est > 0 Standard dev Est > 0 Cache size 50M > 0

SVM: ustawienia dla regresji Parametr Stosuje się do: Domyśl. Zakres Kernel function Linear Gauss Linear Linear, Gauss Error tolerance 0.001 (0, 0.1) Complexity Est > 0 Standard dev Est > 0 Cache size 50M > 0 Epsilon Est > 0

Typy funkcji jądra Linear (domyślnie) Problemy z dużą liczbą zmiennych wejściowych Problemy liniowo separowalne Jest w stanie otrzymać współczynniki przez get_model_details_svm (PL/SQL API) małe, szybkie modele Gaussa Problemy z małą liczbą zmiennych wejściowych Problemy liniowo nie separowalne Modele mogą być duże i wolne

Tolerancja błędów i pamięć Tolerancja będów (Error tolerance) Precyzja dopasowania modelu do danych 0.001 (domyślnie) Więsza tolerancja przyspieszy trenowanie, jenakże może dawać słabą precyzję Wielkość pamięci podręcznej (Cache size) Miejsce na funkcje jądra dla funkcji Gaussa 50MB (domyślnie) Zwiększenie pamięci przyspieszy trenowanie, jednakże może zużyć jej zbyt dużo rozważyć zwiększenie PGA

Współczynnik złożoności Współczynnik złożoności Reguluje równowagę między złożonością modelu a liczbą błędów trenowania modelu Zwiększenie złożoności skutkuje mniejszą liczbą błędów trenowania, jednakże może zaburzyć uogólnienie modelu przetrenowanie vs. niedopasowanie Estymowany automatycznie

Odchylenie standardowe Odchylenie standardowe dla funkcji Gaussa Zwiększenie standardowego odchylenia tworzy gładsze granice decyzyjne, jednakże może skutkować niedopasowaniem Estymowany automatycznie

SVM i wagi Wagi (priors) pozwalają ustawić różne koszty kar w modelu SVM dla każdej z klas C 1 p1 ~ C p 2 2

Epsilon Epsilon Określa szerokość tunelu wolnego od błędów Kontroluje gładkość dopasowania większy epsilon daje gładszą funkcję Wpływa na liczbę wektorów wsparcia większy epsilon daje mniejsze modele (z mniejszą liczbą wektorów wsparcia) ale prawdopodobnie mniej dokładne Estymowany automatycznie

Agenda Praktyczne zastosowania Korzyści biznesowe Zastosowanie SVM w różnych dziedzinach i sektorach gospodarki Przykład: Ocena ryzyka kredytowego w banku Demonstracja narzędzia Oracle Data Miner Stosowanie modelu do nowych danych

Wartość Data miningu dla biznesu % trafień 100% 70% 50% 20% ROI Losowa selekcja klientów 0% 20% 50% % klientów 100%

Typowe biznesowe zastosowania data miningu i rezultaty Mailing bezpośredni Analiza przejść do konkurencji Analiza ryzyka kredytowego Wykrywanie nadużyć Systemy bezpieczeństwa Docelowe listy mailingowe (KB) Lista klientów o wysokim prawdopodobieństwie odejścia (KB) Indywidualny rating kredytowy (KW) Oflagowanie transakcji do kontroli (WA) Oflagowanie podejrzanej operacje/zdarzenia (WA) KB klasyfikacja binarna: tak, nie KW Klasyfikacja wieloklasowa: A-, A, A+, B-, B, B+ WA Wykrywanie anomalii: inny niż 95% przypadków

Cykl życia projektu data minig owego 6 faz projektu data mining owego Zrozumienie biznesu Identyfikacja danych opisujących biznes Przygotowanie danych Budowa modelu Ocena jakości modelu Zastosowanie modelu w praktyce

Przykład: Ocena ryzyka kredytowego w banku Ryzyko kredytowe określa prawdopodobieństwo, że klient nie spłaci zaciągniętego kredytu Znając ryzyko bank może podjąć działania zabezpieczające Jeśli założymy, że klienci nie spłacający kredytów w przeszłości są podobni to analogicznych klientów w przyszłości, to możemy poszukać podobieństw lub ukrytych wzorów zachowań

Przykład: Postawienie problemu w kategoriach danych Oznaczmy ryzyko na 5 stopniowej skali od A do E: A najmniejsze ryzyko E największe ryzyko Cechy kredytobiorcy wysokość kredytu, dochód, stan cywilny, płeć, wiek,... Dane historyczne Kilka poprzednich lat

Przykład: Postawienie problemu w kategoriach danych Przypadki Dane historyczne PESEL Dochód. 30,000 55,000 25,000 50,000 Atrybuty 30 67 23 44 Kredyt 498,21 348,90 983,90 564,48 X 1 X 2... Xm Y Atrybuty predykcyjne Atrybuty uzupełniające Jakie ryzyko? A, B, C, D, E A D C A Atrybut docelowy Funkcjonalne powiązanie: Model Y = F(X 1, X 2,, X m ) Nowe dane Predykcja A B C D E Prawd..10.64.21.04.01

Oracle Data Miner 10g Przygotowanie danych Budowa modelu Ocena jakości modelu

Scoring: Predykcja w SQL Scoring jako zintegrowana część aplikacji bazodanowej Możliwość użycia scoringu w SQL jak każdej innej funkcji Przetwarzanie strumieniowe Scoring w czasie wykonania zapytania Możliwych jest wiele modeli w jednym zapytaniu Pierwsze rezultaty są szybko zwracane

Scoring: przykład z naszym modelem ryzyka kredytowego Wybierz klientów dla których prawdopodobieństwo ryzyka kredytowego A jest większe 20% select * from credit_risk_customers_t t where predition_probability( credit_risk_c89015_sv, 'A' using *) > 0.2

Scoring: Predykcja w SQL Ile otrzymaliśmy przychodu w ostatnim roku od klientów, którzy mieszkają w Warszawie i prawdopodobnie uciekną do konkurencji? Select sum(s.amount_sold) from sales s, customers c where s.cust_id = c.cust_id and c.city = Warszawa and prediction (ModelUcieczek using c.*) = Ucieknie ;