Oracle Data Mining 10g
|
|
- Paweł Rybak
- 9 lat temu
- Przeglądów:
Transkrypt
1
2 Oracle Data Mining 10g Zastosowanie algorytmu Support Vector Machines do problemów biznesowych Piotr Hajkowski Oracle Consulting
3 Agenda Podstawy teoretyczne algorytmu SVM SVM w bazie danych Klasyfikacja Regresja Wykrywanie anomalii Parametry sterujące budową algorytmu
4 Agenda Praktyczne zastosowania Korzyści biznesowe Zastosowanie SVM w różnych dziedzinach i sektorach gospodarki Przykład: Ocena ryzyka kredytowego w banku Demonstracja narzędzia Oracle Data Miner Stosowanie modelu do nowych danych
5 Data Mining w bazie danych Wzrastające znaczenie technologii analitycznych Duże wolumeny danych muszą być przetworzone / przeanalizowane Współczesne techniki data mining są efektywne i jednocześnie mają wysoką dokładność Wyzwania stawiane przez data mining Złożone metodologie Wymagające obliczeniowo
6 Dlaczego SVM znalazł się w bazie Oracle? Bardzo efektywny klasyfikator Mocne podstawy teoretyczne Teoria Vapnika-Chervonenkisa (VC) Właściwości regularyzacyjne (gładkość) Dobre uogólnianie dla nietypowych danych Doskonały algorytm dla trudnych danych o wielu zmiennych wejściowych tekst, obrazy, bioinformatyka SVM może być zastosowany do tej samej klasy problemów co sieci neuronowe / RBF
7 Algorytmy w 10gR2 Technika Data Mining Klasyfikacja Regresja Istotność atrybutów Reguły współwystępowania Analiza skupień Ekstrakcja cech Wykrywanie anomalii Algorytm Decision Tree Naïve Bayes Support Vector Machine Adaptive Bayes Network Support Vector Machine MDL (Minimum Description Length) A Priori KMeans od 10gR2 OCluster od 10gR1 od 9iR2 NMF (Non-negative Matrix Factorization) Support Vector Machine
8 SVM w bazie Oracle Oracle Data Mining (ODM) Komercyjna implementacja SVM w bazie wspierająca klasyfikację, regresję i wykrywanie anomalii SVM jest produktem przeznaczonym dla programistów i analityków data mining Sposób implementacji w bazie kładzie nacisk na łatwość użycia i wydajność Najważniejsze wyzwania Dobra skalowalność duże wolumeny danych, małe wymagania na pamięć, krótki czas odpowiedzi Wysoka trafność przy domyślnych parametrach
9 SVM w bazie Oracle Typy technik data mining Klasyfikacja: binarna i wieloklasowa Regresja Wykrywanie anomalii (jedna klasa) Funkcje jądra (do odwzorowania przestrzeni cech) Funkcje liniowe Funkcje Gaussa
10 SVM do klasyfikacji: Klasy separowalne Linear kernel
11 Model SVM jest hiperpłaszczyzną Model SVM definiuje hiperpłaszczyznę w przestrzeni cech jako wektor (w) prostopadły do płaszczyzny i przesunięcie (b) b w ( w b) f = sign x +
12 Modele z największym marginesem wektory wsparcia Wiele różnych modeli separuje klasy SVM wybiera płaszczyznę z największą separacją klas
13 SVM do klasyfikacji: Klasy liniowo nieseparowalne Klasy Linear liniowokernel nieseparowalne Gaussian Klasy odseparowane (σ=20) kernel funkcją nieliniową
14 Transformacja danych do większej przestrzeni 1. Transformujemy dane przy użyciu nieliniowego odwzorowania (funkcji jądra) do przestrzeni z większą liczbą wymiarów Funkcje jądra: Gaussa i wielomianowe 2. Trenujemy liniowy model w nowej przestrzeni cech
15 Miękki margines dla danych nieseparowalnych ξ ξ Współczynnik złożoności pozwala zrównoważyć złożoność modelu i liczby błędów w czasie trenowania modelu Wbudowany mechanizm pozwalający uzyskać dobry błąd uogólniania
16 SVM do regresji ξˆ ξ ε Epsilon-funkcja niewrażliwej straty Parametr epsilon determinuje gładkość dopasowania Parametr złożoności C równoważy złożoność modelu i błędy trenowania
17 SVM do wykrywania anomalii Wykrywanie przypadków nietypowych Przypadki typowe vs nietypowe Rozróżnienie pomiędzy znaną klasą a światem nieznanych przypadków
18 Dokładność modelu: wpływ użytkownika Niedoświadczeni użytkownicy mogą uzyskać wyjątkowo słabe rezultaty Fizyka Bioinformatyka Transport Dokładność laika Dokładność eksperta
19 Wsparcie Oracle a w przygotowaniu danych Automatyczne przygotowanie danych Usunięcie przypadków nietypowych Normalizacja Przekodowanie atrybutów kategorycznych do numerycznych Wsparcie przez pakiet dbms_data_mining_transform Oracle Data Minera
20 Estymacja w locie parametrów dla SVM Bazuje na danych (próbki) Niski koszt obliczeniowy Zapewnia dobre uogólnienie Pozwala uniknąć przetrenowania modelu Model jest zbyt złożony i dane są zapamiętywane Pozwala uniknąć niedotrenowania modelu Model nie jest wystarczająco złożony by odwzorować strukturę danych
21 SVM: ustawienia dla klasyfikacji Parametr Stosuje się do: Domyśl. Zakres Kernel type Linear Gauss Linear Linear, Gauss Error tolerance (0, 0.1) Complexity Est > 0 Standard dev Est > 0 Cache size 50M > 0
22 SVM: ustawienia dla regresji Parametr Stosuje się do: Domyśl. Zakres Kernel function Linear Gauss Linear Linear, Gauss Error tolerance (0, 0.1) Complexity Est > 0 Standard dev Est > 0 Cache size 50M > 0 Epsilon Est > 0
23 Typy funkcji jądra Linear (domyślnie) Problemy z dużą liczbą zmiennych wejściowych Problemy liniowo separowalne Jest w stanie otrzymać współczynniki przez get_model_details_svm (PL/SQL API) małe, szybkie modele Gaussa Problemy z małą liczbą zmiennych wejściowych Problemy liniowo nie separowalne Modele mogą być duże i wolne
24 Tolerancja błędów i pamięć Tolerancja będów (Error tolerance) Precyzja dopasowania modelu do danych (domyślnie) Więsza tolerancja przyspieszy trenowanie, jenakże może dawać słabą precyzję Wielkość pamięci podręcznej (Cache size) Miejsce na funkcje jądra dla funkcji Gaussa 50MB (domyślnie) Zwiększenie pamięci przyspieszy trenowanie, jednakże może zużyć jej zbyt dużo rozważyć zwiększenie PGA
25 Współczynnik złożoności Współczynnik złożoności Reguluje równowagę między złożonością modelu a liczbą błędów trenowania modelu Zwiększenie złożoności skutkuje mniejszą liczbą błędów trenowania, jednakże może zaburzyć uogólnienie modelu przetrenowanie vs. niedopasowanie Estymowany automatycznie
26 Odchylenie standardowe Odchylenie standardowe dla funkcji Gaussa Zwiększenie standardowego odchylenia tworzy gładsze granice decyzyjne, jednakże może skutkować niedopasowaniem Estymowany automatycznie
27 SVM i wagi Wagi (priors) pozwalają ustawić różne koszty kar w modelu SVM dla każdej z klas C 1 p1 ~ C p 2 2
28 Epsilon Epsilon Określa szerokość tunelu wolnego od błędów Kontroluje gładkość dopasowania większy epsilon daje gładszą funkcję Wpływa na liczbę wektorów wsparcia większy epsilon daje mniejsze modele (z mniejszą liczbą wektorów wsparcia) ale prawdopodobnie mniej dokładne Estymowany automatycznie
29 Agenda Praktyczne zastosowania Korzyści biznesowe Zastosowanie SVM w różnych dziedzinach i sektorach gospodarki Przykład: Ocena ryzyka kredytowego w banku Demonstracja narzędzia Oracle Data Miner Stosowanie modelu do nowych danych
30 Wartość Data miningu dla biznesu % trafień 100% 70% 50% 20% ROI Losowa selekcja klientów 0% 20% 50% % klientów 100%
31 Typowe biznesowe zastosowania data miningu i rezultaty Mailing bezpośredni Analiza przejść do konkurencji Analiza ryzyka kredytowego Wykrywanie nadużyć Systemy bezpieczeństwa Docelowe listy mailingowe (KB) Lista klientów o wysokim prawdopodobieństwie odejścia (KB) Indywidualny rating kredytowy (KW) Oflagowanie transakcji do kontroli (WA) Oflagowanie podejrzanej operacje/zdarzenia (WA) KB klasyfikacja binarna: tak, nie KW Klasyfikacja wieloklasowa: A-, A, A+, B-, B, B+ WA Wykrywanie anomalii: inny niż 95% przypadków
32 Cykl życia projektu data minig owego 6 faz projektu data mining owego Zrozumienie biznesu Identyfikacja danych opisujących biznes Przygotowanie danych Budowa modelu Ocena jakości modelu Zastosowanie modelu w praktyce
33 Przykład: Ocena ryzyka kredytowego w banku Ryzyko kredytowe określa prawdopodobieństwo, że klient nie spłaci zaciągniętego kredytu Znając ryzyko bank może podjąć działania zabezpieczające Jeśli założymy, że klienci nie spłacający kredytów w przeszłości są podobni to analogicznych klientów w przyszłości, to możemy poszukać podobieństw lub ukrytych wzorów zachowań
34 Przykład: Postawienie problemu w kategoriach danych Oznaczmy ryzyko na 5 stopniowej skali od A do E: A najmniejsze ryzyko E największe ryzyko Cechy kredytobiorcy wysokość kredytu, dochód, stan cywilny, płeć, wiek,... Dane historyczne Kilka poprzednich lat
35 Przykład: Postawienie problemu w kategoriach danych Przypadki Dane historyczne PESEL Dochód. 30,000 55,000 25,000 50,000 Atrybuty Kredyt 498,21 348,90 983,90 564,48 X 1 X 2... Xm Y Atrybuty predykcyjne Atrybuty uzupełniające Jakie ryzyko? A, B, C, D, E A D C A Atrybut docelowy Funkcjonalne powiązanie: Model Y = F(X 1, X 2,, X m ) Nowe dane Predykcja A B C D E Prawd
36 Oracle Data Miner 10g Przygotowanie danych Budowa modelu Ocena jakości modelu
37 Scoring: Predykcja w SQL Scoring jako zintegrowana część aplikacji bazodanowej Możliwość użycia scoringu w SQL jak każdej innej funkcji Przetwarzanie strumieniowe Scoring w czasie wykonania zapytania Możliwych jest wiele modeli w jednym zapytaniu Pierwsze rezultaty są szybko zwracane
38 Scoring: przykład z naszym modelem ryzyka kredytowego Wybierz klientów dla których prawdopodobieństwo ryzyka kredytowego A jest większe 20% select * from credit_risk_customers_t t where predition_probability( credit_risk_c89015_sv, 'A' using *) > 0.2
39 Scoring: Predykcja w SQL Ile otrzymaliśmy przychodu w ostatnim roku od klientów, którzy mieszkają w Warszawie i prawdopodobnie uciekną do konkurencji? Select sum(s.amount_sold) from sales s, customers c where s.cust_id = c.cust_id and c.city = Warszawa and prediction (ModelUcieczek using c.*) = Ucieknie ;
40
Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.
GLM (Generalized Linear Models) Data Mining Wykład 6 Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa Naiwny klasyfikator Bayesa jest klasyfikatorem statystycznym -
UCZENIE MASZYNOWE III - SVM. mgr inż. Adam Kupryjanow
UCZENIE MASZYNOWE III - SVM mgr inż. Adam Kupryjanow Plan wykładu Wprowadzenie LSVM dane separowalne liniowo SVM dane nieseparowalne liniowo Nieliniowy SVM Kernel trick Przykłady zastosowań Historia 1992
Implementacja metod eksploracji danych - Oracle Data Mining
Implementacja metod eksploracji danych - Oracle Data Mining 395 Plan rozdziału 396 Wprowadzenie do eksploracji danych Architektura Oracle Data Mining Możliwości Oracle Data Mining Etapy procesu eksploracji
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:
DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE: DATAMINING 1 S t r o n a WSTĘP Czyli jak zastąpić wróżenie z fusów i przysłowiowego nosa, statystyką i modelami ekonometrycznymi. Niniejszy dokument,
Scoring kredytowy w pigułce
Analiza danych Data mining Sterowanie jakością Analityka przez Internet Scoring kredytowy w pigułce Mariola Kapla Biuro Informacji Kredytowej S.A. StatSoft Polska Sp. z o.o. ul. Kraszewskiego 36 30-110
Laboratorium 11. Regresja SVM.
Laboratorium 11 Regresja SVM. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>. 3. Z
4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74
3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15
StatSoft profesjonalny partner w zakresie analizy danych
Analiza danych Data mining Sterowanie jakością Analityka przez Internet StatSoft profesjonalny partner w zakresie analizy danych StatSoft Polska Sp. z o.o. StatSoft Polska Sp. z o.o. ul. Kraszewskiego
Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę
Norbert Jankowski Ontogeniczne sieci neuronowe O sieciach zmieniających swoją strukturę Warszawa 2003 Opracowanie książki było wspierane stypendium Uniwersytetu Mikołaja Kopernika Spis treści Wprowadzenie
Laboratorium 10. Odkrywanie cech i algorytm Non-Negative Matrix Factorization.
Laboratorium 10 Odkrywanie cech i algorytm Non-Negative Matrix Factorization. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie
Widzenie komputerowe (computer vision)
Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja
7. Maszyny wektorów podpierajacych SVMs
Algorytmy rozpoznawania obrazów 7. Maszyny wektorów podpierajacych SVMs dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Maszyny wektorów podpierajacych - SVMs Maszyny wektorów podpierających (ang.
Szczegółowy opis przedmiotu zamówienia
ZP/ITS/19/2013 SIWZ Załącznik nr 1.1 do Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych dla studentów
Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Metody selekcji cech
Metody selekcji cech A po co to Często mamy do dyspozycji dane w postaci zbioru cech lecz nie wiemy które z tych cech będą dla nas istotne. W zbiorze cech mogą wystąpić cechy redundantne niosące identyczną
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
Wstęp do przetwarzania języka naturalnego. Wykład 11 Maszyna Wektorów Nośnych
Wstęp do przetwarzania języka naturalnego Wykład 11 Wojciech Czarnecki 8 stycznia 2014 Section 1 Przypomnienie Wektoryzacja tfidf Przypomnienie document x y z Antony and Cleopatra 5.25 1.21 1.51 Julius
Data Mining podstawy analizy danych Część druga
Data Mining podstawy analizy danych Część druga W części pierwszej dokonaliśmy procesu analizy danych treningowych w oparciu o algorytm drzewa decyzyjnego. Proces analizy danych treningowych może być realizowany
Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU
Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów
Fabryka i3 Machine Learning w analizie ryzyka kredytowego
Fabryka i3 Machine Learning w analizie ryzyka kredytowego Big Data, Machine Learning czy to dla mnie? Od perceptronu do oceny ryzyka MACHINE LEARNING CZŁOWIEK Jak działa machine learning? Doświadczenie
Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun
Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów Politechnika Warszawska Strona 1 Podstawowe definicje Politechnika Warszawska Strona 2 Podstawowe definicje Zbiór treningowy
PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE
UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561
Algorytmy klasyfikacji
Algorytmy klasyfikacji Konrad Miziński Instytut Informatyki Politechnika Warszawska 6 maja 2015 1 Wnioskowanie 2 Klasyfikacja Zastosowania 3 Drzewa decyzyjne Budowa Ocena jakości Przycinanie 4 Lasy losowe
Zarządzanie Projektami zgodnie z PRINCE2
Zarządzanie Projektami zgodnie z PRINCE2 Opis Metodyka PRINCE2 powstała na bazie doświadczeń z wielu lat dobrych praktyk zarządzania projektami. Metodyka ta oferuje elastyczne i łatwe do adaptacji podejście
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
data mining machine learning data science
data mining machine learning data science deep learning, AI, statistics, IoT, operations research, applied mathematics KISIM, WIMiIP, AGH 1 Machine Learning / Data mining / Data science Uczenie maszynowe
DMX DMX DMX DMX: CREATE MINING STRUCTURE. Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski
DMX DMX DMX Data Mining Extensions jest językiem do tworzenia i działania na modelach eksploracji danych w Microsoft SQL Server Analysis Services SSAS. Za pomocą DMX można tworzyć strukturę nowych modeli
Laboratorium 12. Odkrywanie osobliwości.
Laboratorium 12 Odkrywanie osobliwości. Odkrywanie osobliwości (ang. outliers) za pomocą algorytmu SVM zostanie w pierwszej części ćwiczenia przeprowadzone w środowisku SQL, a w drugiej części wykorzystamy
Analiza danych i data mining.
Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r. Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data
Metody scoringowe w regresji logistycznej
Metody scoringowe w regresji logistycznej Andrzej Surma Wydział Matematyki, Informatyki i Mechaniki Uniwersytetu Warszawskiego 19 listopada 2009 AS (MIMUW) Metody scoringowe w regresji logistycznej 19
ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak
Tytuł: Autor: ZAAWANSOWANE METODY ANALIZ STATYSTYCZNYCH red. Ewa Frątczak Wstęp Zaawansowane metody analiz statystycznych przenoszą analizy statystyczne na kolejny wyższy poziom. Określenie tego wyższego
Prezentacja raportu z badania nadużyć w sektorze finansowym
Prezentacja raportu z badania nadużyć w sektorze finansowym Edycja 2017 24 października 2017 Agenda 1 Problem badawczy Zakres badania, zależności między zmiennymi 2 Grupa respondentów Udział poszczególnych
Wprowadzenie do uczenia maszynowego
Wprowadzenie do uczenia maszynowego Agnieszka Ławrynowicz 12 stycznia 2017 Co to jest uczenie maszynowe? dziedzina nauki, która zajmuje się sprawianiem aby komputery mogły uczyć się bez ich zaprogramowania
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Rozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia
1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie
Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty
Zastosowania funkcji jądrowych do rozpoznawania ręcznie pisanych cyfr.
Zastosowania funkcji jądrowych do rozpoznawania ręcznie pisanych cyfr. Warszawa, 10 Marca 2016 Plan prezentacji. Definicja funkcji jądrowej. Plan prezentacji. Definicja funkcji jądrowej. Opis problemu
Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania
mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.
mgr inż. Magdalena Deckert Poznań, 30.11.2010r. Metody przyrostowego uczenia się ze strumieni danych. Plan prezentacji Wstęp Concept drift i typy zmian Algorytmy przyrostowego uczenia się ze strumieni
Wprowadzenie do technologii informacyjnej.
Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów
Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie
z wyszczególnieniem usług automatyzacji procesów mgr inż. Adam Smółkowski mgr inż. Marcin Wójciuk Aspartus (Grupa ProService FINTECO)
Przewidywane kierunki outsourcingu w ubezpieczeniach z wyszczególnieniem usług automatyzacji procesów mgr inż. Adam Smółkowski mgr inż. Marcin Wójciuk Aspartus (Grupa ProService FINTECO) Outsourcing definicja
Popularne klasyfikatory w pakietach komputerowych
Popularne klasyfikatory w pakietach komputerowych Klasyfikator liniowy Uogólniony klasyfikator liniowy SVM aiwny klasyfikator bayesowski Ocena klasyfikatora ROC Lista popularnych pakietów Klasyfikator
Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych
Nowoczesne aplikacje mobilne i ich rola w podnoszeniu jakości danych www.ascen.pl 1 Agenda O firmie Zarządzanie jakością danych Aplikacje mobilne i ich rola w zarządzaniu jakością danych 2 O firmie Data
Reforma regulacyjna sektora bankowego Roboty nadchodzą. 11 grudnia 2017
Reforma regulacyjna sektora bankowego Roboty nadchodzą 11 grudnia 2017 Co to jest Robotic Process Automation (RPA)? Co to jest Robotic Process Automation (RPA)? Oprogramowanie, które naśladuje interakcję
Klasyfikacja LDA + walidacja
Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja
Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.
Efekty dla studiów pierwszego stopnia profil ogólnoakademicki na kierunku Informatyka w języku polskim i w języku angielskim (Computer Science) na Wydziale Matematyki i Nauk Informacyjnych, gdzie: * Odniesienie-
dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych
- Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,
Data Mining Wykład 4. Plan wykładu
Data Mining Wykład 4 Klasyfikacja danych Klasyfikacja poprzez indukcje drzew decyzyjnych Plan wykładu Sformułowanie problemu Kryteria oceny metod klasyfikacji Metody klasyfikacji Klasyfikacja poprzez indukcje
Metody klasyfikacji i rozpoznawania wzorców. Najważniejsze rodzaje klasyfikatorów
Metody klasyfikacji i rozpoznawania wzorców www.michalbereta.pl Najważniejsze rodzaje klasyfikatorów Dla określonego problemu klasyfikacyjnego (tzn. dla danego zestawu danych) należy przetestować jak najwięcej
STATYSTYKA MATEMATYCZNA
STATYSTYKA MATEMATYCZNA 1. Wykład wstępny. Teoria prawdopodobieństwa i elementy kombinatoryki 2. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5.
Laboratorium 4. Naiwny klasyfikator Bayesa.
Laboratorium 4 Naiwny klasyfikator Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na
Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji
Regresja nieparametryczna series estimator
Regresja nieparametryczna series estimator 1 Literatura Bruce Hansen (2018) Econometrics, rozdział 18 2 Regresja nieparametryczna Dwie główne metody estymacji Estymatory jądrowe Series estimators (estymatory
SZTUCZNA INTELIGENCJA
SZTUCZNA INTELIGENCJA WYKŁAD 4. UCZENIE SIĘ INDUKCYJNE Częstochowa 24 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska WSTĘP Wiedza pozyskana przez ucznia ma charakter odwzorowania
Praktyczne aspekty stosowania metody punktów funkcyjnych COSMIC. Jarosław Świerczek
Praktyczne aspekty stosowania metody punktów funkcyjnych COSMIC Jarosław Świerczek Punkty funkcyjne Punkt funkcyjny to metryka złożoności oprogramowania wyznaczana w oparciu o określające to oprogramowanie
Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.
Wstęp do sieci neuronowych, wykład 3 Warstwy, jednostka Adaline. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 211-1-18 1 Pomysł Przykłady Zastosowanie 2
ALGORYTMY EWOLUCYJNE W OPTYMALIZACJI JEDNOKRYTERIALNEJ
ALGORYTMY EWOLUCYJNE W OPTYMALIZACJI JEDNOKRYTERIALNEJ Zalety: nie wprowadzają żadnych ograniczeń na sformułowanie problemu optymalizacyjnego. Funkcja celu może być wielowartościowa i nieciągła, obszar
Wykład I. Wprowadzenie do baz danych
Wykład I Wprowadzenie do baz danych Trochę historii Pierwsze znane użycie terminu baza danych miało miejsce w listopadzie w 1963 roku. W latach sześcdziesątych XX wieku został opracowany przez Charles
Podstawy sztucznej inteligencji
wykład 5 Sztuczne sieci neuronowe (SSN) 8 grudnia 2011 Plan wykładu 1 Biologiczne wzorce sztucznej sieci neuronowej 2 3 4 Neuron biologiczny Neuron Jest podstawowym budulcem układu nerwowego. Jest komórką,
Entropia Renyi ego, estymacja gęstości i klasyfikacja
Entropia Renyi ego, estymacja gęstości i klasyfikacja Wojciech Czarnecki Jacek Tabor 6 lutego 2014 1 / Wojciech Czarnecki, Jacek Tabor Renyi s Multithreshold Linear Classifier 1/36 36 2 / Wojciech Czarnecki,
Projekt Sieci neuronowe
Projekt Sieci neuronowe Chmielecka Katarzyna Gr. 9 IiE 1. Problem i dane Sieć neuronowa miała za zadanie nauczyć się klasyfikować wnioski kredytowe. W projekcie wykorzystano dane pochodzące z 110 wniosków
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Wybór modelu i ocena jakości klasyfikatora
Wybór modelu i ocena jakości klasyfikatora Błąd uczenia i błąd testowania Obciążenie, wariancja i złożoność modelu (klasyfikatora) Dekompozycja błędu testowania Optymizm Estymacja błędu testowania AIC,
Algorytmy metaheurystyczne Wykład 11. Piotr Syga
Algorytmy metaheurystyczne Wykład 11 Piotr Syga 22.05.2017 Drzewa decyzyjne Idea Cel Na podstawie przesłanek (typowo zbiory rozmyte) oraz zbioru wartości w danych testowych, w oparciu o wybrane miary,
Mail: Pokój 214, II piętro
Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,
AUREA BPM Oracle. TECNA Sp. z o.o. Strona 1 z 7
AUREA BPM Oracle TECNA Sp. z o.o. Strona 1 z 7 ORACLE DATABASE System zarządzania bazą danych firmy Oracle jest jednym z najlepszych i najpopularniejszych rozwiązań tego typu na rynku. Oracle Database
Hurtownie danych. 31 stycznia 2017
31 stycznia 2017 Definicja hurtowni danych Hurtownia danych wg Williama Inmona zbiór danych wyróżniający się następującymi cechami uporządkowany tematycznie zintegrowany zawierający wymiar czasowy nieulotny
PRAKTYCZNY SKORING - NIE TYLKO KREDYTOWY
PRAKTYCZNY SKORING - NIE TYLKO KREDYTOWY Piotr Wójtowicz, Grzegorz Migut StatSoft Polska Jakie są różnice pomiędzy osobami prawidłowo regulującymi swoje zobowiązania a niechętnie spłacającymi swoje długi,
ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia
ZP/ITS/11/2012 Załącznik nr 1a do SIWZ ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych
komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW
Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,
SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy
Załącznik nr 4 do Uchwały Senatu nr 430/01/2015 SYLABUS Dotyczy cyklu kształcenia 2014-2018 Realizacja w roku akademickim 2016/2017 1.1. PODSTAWOWE INFORMACJE O PRZEDMIOCIE/MODULE Nazwa przedmiotu/ modułu
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
Optymalizacja ciągła
Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej
Narzędzia IT we współczesnych strategiach utrzymaniowych
Narzędzia IT we współczesnych strategiach utrzymaniowych - NAJNOWSZE TRENDY - Piotr Rzepakowski, CEO Decitum Sp. z o.o. Od predykcji churn, przez analizę retencji do optymalizacji utrzymania Przyszła Analityczny
Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel
według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology
Splunk w akcji. Radosław Żak-Brodalko Solutions Architect Linux Polska Sp. z o.o.
Splunk w akcji Radosław Żak-Brodalko Solutions Architect Linux Polska Sp. z o.o. 1 Splunk agent wiedzy o infrastrukturze czyli SIEM i coś więcej 2 Splunk gromadzi oraz integruje informacje dotyczące funkcjonowania
Z roku na rok wzrasta liczba systemów informatycznych, co skutkuje coraz większym uzależnieniem od nich działalności biznesowej przedsiębiorstw.
Single Sign On Z roku na rok wzrasta liczba systemów informatycznych, co skutkuje coraz większym uzależnieniem od nich działalności biznesowej przedsiębiorstw. Jednocześnie systemy te przechowują coraz
Data Mining podstawy analizy danych Cześć pierwsza. Wprowadzenie
Data Mining podstawy analizy danych Cześć pierwsza Wprowadzenie Usługa Data Mining w środowisku serwera SQL 2005 jest jednym z komponentów technologii business intelligence. Umożliwia ona budowę złożonych
Systemy uczące się wykład 2
Systemy uczące się wykład 2 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 19 X 2018 Podstawowe definicje Fakt; Przesłanka; Konkluzja; Reguła; Wnioskowanie. Typy wnioskowania
Laboratorium 5. Adaptatywna sieć Bayesa.
Laboratorium 5 Adaptatywna sieć Bayesa. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk Dalej>.
Metody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium ZALICZENIE Zadanie nr 3 Rozpoznawanie ręcznie pisanych cyfr autorzy: A. Gonczarek, P. Klukowski, J.M. Tomczak, S. Zaręba, M. Zięba Cel zadania Celem
Podstawy sztucznej inteligencji
wykład 7 Eksploracja danych 25 stycznia 2011 Plan wykładu Co to jest eksploracja danych? 1 Co to jest eksploracja danych? 2 3 Definicja Eksploracja danych ED (Data mining) Metody wydobywania ukrytych informacji
STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów
STATYSTYKA MATEMATYCZNA WYKŁAD 4 Testowanie hipotez Estymacja parametrów WSTĘP 1. Testowanie hipotez Błędy związane z testowaniem hipotez Etapy testowana hipotez Testowanie wielokrotne 2. Estymacja parametrów
Laboratorium 2. Określanie ważności atrybutów.
Laboratorium 2 Określanie ważności atrybutów. 1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych. 2. Z menu głównego wybierz Activity Build. Na ekranie powitalnym kliknij przycisk
Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki
Kombinacja jądrowych estymatorów gęstości w klasyfikacji wstępne wyniki Mateusz Kobos, 10.12.2008 Seminarium Metody Inteligencji Obliczeniowej 1/46 Spis treści Działanie algorytmu Uczenie Odtwarzanie/klasyfikacja
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH
Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego Łukasz Kończyk WMS AGH Plan prezentacji Model regresji liniowej Uogólniony model liniowy (GLM) Ryzyko ubezpieczeniowe Przykład
Data Mining w bazie Oracle 9i
VIII Konferencja PLOUG Koœcielisko PaŸdziernik 2002 Data Mining w bazie Oracle 9i Mariusz Byrski Biuro Matematyki Stosowanej S.C. mb@bms.krakow.pl Abstrakt Szukanie nieoczywistych zwi¹zków w danych jest
!!!!!!!!!!! PORTFOLIO: Analiza zachowań użytkowników serwisów internetowych. Autorzy: Marek Zachara
PORTFOLIO: Analiza zachowań użytkowników serwisów internetowych Autorzy: Marek Zachara Opis merytoryczny Cel naukowy (jaki problem wnioskodawca podejmuje się rozwiązać, co jest jego istotą, co uzasadnia
Pattern Classification
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors
KLASYFIKACJA TEKSTUR ZA POMOCĄ SVM MASZYNY WEKTORÓW WSPIERAJĄCYCH
Inżynieria Rolnicza 13/2006 Jacek Goszczyński Instytut Inżynierii Rolniczej Akademia Rolnicza w Poznaniu KLASYFIKACJA TEKSTUR ZA POMOCĄ SVM MASZYNY WEKTORÓW WSPIERAJĄCYCH Streszczenie Motywacją do badań
ALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Organizacyjnie. Prowadzący: dr Mariusz Rafało (hasło: BIG)
Big Data Organizacyjnie Prowadzący: dr Mariusz Rafało mrafalo@sgh.waw.pl http://mariuszrafalo.pl (hasło: BIG) DANE W CZASIE RZECZYWISTYM 3 Tryb analizowania danych 4 Okno analizowania 5 Real-time: Checkpointing
Odczarowujemy modele predykcyjne Teoria i Praktyka
Odczarowujemy modele predykcyjne Teoria i Praktyka Mariusz Gromada, MathSpace.PL mariuszgromada.org@gmail.com 1 Kilka słów o mnie 1999 2004 Politechnika Warszawska Wydział Matematyki i Nauk Informacyjnych
Szybkość instynktu i rozsądek rozumu$
Szybkość instynktu i rozsądek rozumu$ zastosowania rozwiązań BigData$ Bartosz Dudziński" Architekt IT! Już nie tylko dokumenty Ilość Szybkość Różnorodność 12 terabajtów milionów Tweet-ów tworzonych codziennie
Analiza Danych Case study Analiza diagnostycznej bazy danych Marek Lewandowski, inf59817 zajęcia: środa, 9.
Analiza Danych Case study Analiza diagnostycznej bazy danych Marek Lewandowski, inf59817 lewandowski.marek@gmail.com zajęcia: środa, 9.00 Spis treści: 1 Wprowadzenie... 4 2 Dostępne dane... 5 3 Przygotowanie