data mining machine learning data science

Podobne dokumenty
Machine Learning. KISIM, WIMiIP, AGH

Ewelina Dziura Krzysztof Maryański

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

w ekonomii, finansach i towaroznawstwie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Wprowadzenie do technologii informacyjnej.

Podstawy Sztucznej Inteligencji Sztuczne Sieci Neuronowe Machine Learning. Krzysztof Regulski, WIMiIP, KISiM, B5, pok.

Metody eksploracji danych. Reguły asocjacyjne

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Analiza danych i data mining.

Odkrywanie asocjacji

Mail: Pokój 214, II piętro


Implementacja metod eksploracji danych - Oracle Data Mining

Eksploracja danych (data mining)

Opis efektów kształcenia dla modułu zajęć

Proces odkrywania wiedzy z baz danych

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Grzegorz Harańczyk, StatSoft Polska Sp. z o.o.

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Odkrywanie wzorców sekwencji

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Systemy uczące się wykład 1

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

Widzenie komputerowe (computer vision)

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Odkrywanie asocjacji

Metody Eksploracji Danych. Klasyfikacja

Analiza i wizualizacja danych Data analysis and visualization

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

Opis efektów kształcenia dla modułu zajęć

Reguły asocjacyjne w programie RapidMiner Michał Bereta

Inżynieria biomedyczna

Ćwiczenie 5. Metody eksploracji danych

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

Analityka danych publicznych dla diagnoz i prognoz dotyczących osób niepełnosprawnych

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA REALIZACJA W ROKU AKADEMICKIM 2016/2017

Laboratorium 11. Regresja SVM.

WIEDZA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

SPOTKANIE 2: Wprowadzenie cz. I

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Python : podstawy nauki o danych / Alberto Boschetti, Luca Massaron. Gliwice, cop Spis treści

DATA BIZNES. Adam Wiatkowski Algorytmy uczenia maszynowego w zastosowaniach maszynowych

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

ID1SII4. Informatyka I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) stacjonarne (stacjonarne / niestacjonarne)

Implementacja wybranych algorytmów eksploracji danych na Oracle 10g

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

Studia podyplomowe w zakresie przetwarzanie, zarządzania i statystycznej analizy danych

Automatyczna predykcja. Materiały/konsultacje. Co to jest uczenie maszynowe? Przykład 6/10/2013. Google Prediction API, maj 2010

OPIS PRZEDMIOTU ZAMÓWIENIA. Część nr 8 OPROGRAMOWANIE DO ANALIZ MARKETINGOWYCH (pom. nr 1.21)

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Data Mining Kopalnie Wiedzy

Sztuczna Inteligencja a Industry 4.0

Hurtownie danych. Analiza zachowań użytkownika w Internecie. Ewa Kowalczuk, Piotr Śniegowski. Informatyka Wydział Informatyki Politechnika Poznańska

Odkrywanie reguł asocjacyjnych. Rapid Miner

Szczegółowy opis przedmiotu zamówienia

1. Odkrywanie asocjacji

Wielopoziomowe i wielowymiarowe reguły asocjacyjne

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Ontogeniczne sieci neuronowe. O sieciach zmieniających swoją strukturę

SPOTKANIE 1: Wprowadzenie do uczenia maszynowego

Techniki uczenia maszynowego nazwa przedmiotu SYLABUS

FINALYSE Wykrywanie wyłudzeń w zautomatyzowanych systemach decyzyjnych. Kongres Antyfraudowy. Amsterdam I Brussels I Luxembourg I Warsaw

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Co to jest klasyfikacja? Klasyfikacja a grupowanie Naiwny klasyfikator Bayesa

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

PRAKTYCZNY SKORING - NIE TYLKO KREDYTOWY

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Mikołaj Morzy, Marek Wojciechowski: "Integracja technik eksploracji danych z systemem zarządzania bazą danych na przykładzie Oracle9i Data Mining"

Eksploracja danych PROCES EKSPLORACJI DANYCH. Wojciech Waloszek. Teresa Zawadzka.

AUTOMATYKA INFORMATYKA

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia

Adrian Horzyk

Meta-uczenie co to jest?

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

ALGORYTM RANDOM FOREST

Tomasz Pawlak. Zastosowania Metod Inteligencji Obliczeniowej

KLASYFIKACJA. Słownik języka polskiego

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

Szkolenia SAS Cennik i kalendarz 2017

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Metody Inżynierii Wiedzy

Text mining w programie RapidMiner Michał Bereta

Wydział Informatyki i Zarządzania SWD NS 3. Marek Lubicz. kbo.pwr.edu.pl/pracownik/lubicz

Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

IX EKSPLORACJA DANYCH

Transformacja wiedzy w budowie i eksploatacji maszyn

Transkrypt:

data mining machine learning data science deep learning, AI, statistics, IoT, operations research, applied mathematics KISIM, WIMiIP, AGH 1

Machine Learning / Data mining / Data science Uczenie maszynowe jest konsekwencją rozwoju idei sztucznej inteligencji i jej praktycznego wdrażania. Algorytmy pozwalają na zautomatyzowanie procesu pozyskiwania i analizy danych do ulepszania i rozwoju własnego systemu. KISIM, WIMiIP, AGH 2

Machine Learning Data Mining pozyskiwanie wiedzy przez człowieka Machine Learning odbiorcą jest maszyna, celem usprawnienie działania. Metody (przykładowe): Indukcja drzew decyzyjnych Uczenie Bayesowskie (Bayesian Learning) Uczenie z przykładów (Instance-based Learning) (np. knn) Clustering Support vector machines (SVM) Analiza asocjacji (Association rule learning) Sieci neuronowe Algorytmy genetyczne Wnioskowanie epizodyczne (CBR) Uczenie przez wzmacnianie (Reinforcement Learning) KISIM, WIMiIP, AGH 3

Knowledge Discovery from Data(KDD) data wrangling feature engineering KISIM, WIMiIP, AGH 4

KISIM, WIMiIP, AGH 5

data science interdyscyplinarny obszar mający na celu zamienić dane w wartość. Dane mogą posiadać strukturę lub nie, mogą być BIG lub SMALL, dynamiczne lub statyczne. Wartość może być dostarczona przez predykcję, wspomaganie decyzji, uczenie maszynowe, wizualizację. Data science obejmuje ekstrakcję, przetwarzanie, eksplorację, transformację, przechowywanie i reużytkowanie, obliczenia, mining and learning, prezentację i zastosowanie wyników z uwzględnieniem etycznych, społecznych, prawnych i biznesowych aspektów KISIM, WIMiIP, AGH 6

data scientist mistrz danych? KISIM, WIMiIP, AGH 7

Przykładowe algorytmy z zakresu Data Mining wizualizacja, wykresy metody predykcji, regresji metody statystyczne, modele szeregów czasowych ARIMA, analiza ANOVA analiza skupień, clustering modele drzew decyzyjnych» (klasyfikacyjne/regresyjne, CART) sieci neuronowe metody klasyfikacji:» najbliższych sąsiadów, naiwny klasyfikator Bayesa algorytmy indukcji reguł analiza asocjacji analiza składowych głównych PCA metoda wektorów nośnych SVM komponenty wariacyjne (VEPAC) metody uczenia maszynowego metody ewolucyjne logika rozmyta zbiory przybliżone data mining indukcja drzew (CART, CHAID) Grupowanie (k-średnich; EM) SVM, ANN RoughSets NeuroFuzzy (ANFIS) MARSplines, ANOVA, VEPAC KISIM, WIMiIP, AGH 8

Analiza (odkrywanie) Asocjacji Association rule learning

Analiza koszykowa w sklepie internetowym Cross-selling

Odkrywanie asocjacji Celem procesu odkrywania asocjacji jest znalezienie interesujących zależności lub korelacji, nazywanych ogólnie asocjacjami, pomiędzy danymi w dużych zbiorach danych. Wynikiem procesu odkrywania asocjacji jest zbiór reguł asocjacyjnych opisujących znalezione zależności lub korelacje między danymi. zastosowania odkrytych asocjacji: planowanie kampanii promocyjnych rozmieszczenie stoisk w supermarketach planowanie programów lojalnościowych opracowania koncepcji katalogu

Ufność i wsparcie informację o tym, że większość klientów, którzy kupują MS Windows kupują również MS Office można zapisać za pomocą następującej reguły asocjacyjnej: windows office [support = 15%, confidence = 75%]» Wsparcie 15% oznacza, że wśród zbadanych transakcji windows i office występują razem w piętnastu procentach,» wiarygodność 75% oznacza, że wśród klientów kupujących windows 75% klientów również kupuje office.

Przykład bazy transakcyjnej i reguły asocjacyjnej

Przykład bazy transakcyjnej i reguły asocjacyjnej

Przykład bazy transakcyjnej i reguły asocjacyjnej

Ocena reguł kryteria dla reguł interesujących W jaki sposób system eksploracji danych, odkrywając reguły asocjacyjne, może określić, które ze znalezionych reguł są interesujące dla użytkownika? Reguły o dużym wsparciu niekoniecznie muszą okazać się interesujące reguły te są z reguły dobrze znane użytkownikom. Podobnie rzecz ma się w odniesieniu do reguł o wysokim współczynniku ufności. ciąża = 1 płeć = kobieta przetoczenie ponad 2,5 jednostek krwi prowadzi często do komplikacji pooperacyjnych Przydatność reguły potrafi określić tylko i wyłącznie użytkownik.

Przykłady wizualizacji

Przykłady wizualizacji

Przykłady wizualizacji

Zmniejszanie minsup -coraz więcej reguł. -na początku reguły oczywiste i znane, - później ciekawe i wcześniej niezauważane. -Warto zacząć również od reguł najmocniejszych i później zmniejszać poziom minconf

Ocena reguł kryteria dla reguł interesujących W jaki sposób system eksploracji danych, odkrywając reguły asocjacyjne, może określić, które ze znalezionych reguł są interesujące dla użytkownika? Reguły o dużym wsparciu niekoniecznie muszą okazać się interesujące reguły te są z reguły dobrze znane użytkownikom. Podobnie rzecz ma się w odniesieniu do reguł o wysokim współczynniku ufności. ciąża = 1 płeć = kobieta przetoczenie ponad 2,5 jednostek krwi prowadzi często do komplikacji pooperacyjnych Przydatność reguły potrafi określić tylko i wyłącznie użytkownik.

Przykład Dane MarketBasket, Ponad 60 tys transakcji, ponad 600 kategorii produktów

Niesekwencyjna analiza asocjacji Wszystkie reguły, a więc też cały model, zapisywane są w bazie danych (.dbs). Domyślnie baza ta jest przechowywana w pliku C:\Documents and Settings\USER\My Documents\Default.dbs. 23

minsup 0,1 minconf 0,5 minsup 0,05 minconf 0,5 24

25

26

KISIM, WIMiIP, AGH 27

Adult KISIM, WIMiIP, AGH 28

KISIM, WIMiIP, AGH 29

KISIM, WIMiIP, AGH 30

STATISTICA SAL (Sequence, Association and Link Analysis) STATISTICA SAL to zbiór technik analitycznych przeznaczonych do znajdowania w zbiorach danych reguł, jakim podlegają koszyki zakupów.» wykrywanie reguł asocjacji (ustalanie reguł, które produkty kupowane są razem, analiza niesekwencyjna),» analiza sekwencji (badanie, w jakiej kolejności zjawiska zachodzą po sobie),» analiza skojarzeń (połączeń, dzięki niej można, np. analizując dane dotyczące klientów, wnioskować o tym, co będą oni chcieli kupić, bazując na informacjach o wcześniejszych ich zakupach).

STATISTICA SAL (Sequence, Association and Link Analysis) wykorzystuje technikę budowania drzew, do wydobywania z danych reguł sekwencji i asocjacji. dla zmiennych wielokrotnych odpowiedzi/dychotomii, jak i zmiennych ciągłych. równolegle poszukiwane są reguły sekwencyjne jak i reguły asocjacji. reguły sekwencji i asocjacji znajdowane są równocześnie w więcej niż jednym wymiarze. Analiza skupień: Moduł może wykonywać analizę typu hierarchicznego grupowania na bazie pojedynczych połączeń, co pozwala wykryć prawdopodobne grupowanie się produktów. Ma to szczególnie praktyczne zastosowania, np. W sprzedaży detalicznej.

KISIM, WIMiIP, AGH 33

minsup = 0,4 minsup = 0,3 brak reguł >50K w konkluzji minsup = 0,2 minconf=0,1 KISIM, WIMiIP, AGH 34

minsup = 0,2 minconf=0,1 KISIM, WIMiIP, AGH 35

minsup = 0,2 minconf=0,1 KISIM, WIMiIP, AGH 36

KISIM, WIMiIP, AGH minsup = 0,1 minconf=0,1 37

KISIM, WIMiIP, AGH 38

KISIM, WIMiIP, AGH 39

KISIM, WIMiIP, AGH 40

Algorytm Apriori (R) Apriori wykonane w środowisku R na zbiorze Adult minsup = 0,4 minconf = 0,7 Interesują nas reguły, które w konkluzji mają: race=white lub sex=male

Algorytm Apriori (R) sortujemy reguły po wskaźniku lift. wyświetlamy 5 najlepszych reguł

Association rules viewers 43

arulesviz R library association rule learning with 44

Text mining with RapidMiner 45

NewsMapping 46

47

48

Odkrywanie wzorców sekwencji Mining Sequential Patterns

Eksploracja wzorców sekwencji Wzorce sekwencji stanowią klasę wzorców symbolicznych opisujących zależności występujące pomiędzy zdarzeniami zachodzącymi w pewnym przedziale czasu. W przypadku wzorców symbolicznych zdarzenia są opisane wartościami atrybutów kategorycznych. W przypadku, gdy zdarzenia są opisane wartościami numerycznymi mówimy o przebiegach czasowych lub o analizie trendów. W przypadku analizy trendów, najczęściej stosuje się metody analizy przebiegów czasowych lub metody predykcji. Przykłady:» klient, który wypożyczył tydzień temu film Gwiezdne Wojny, w ciągu tygodnia wypożyczy Imperium Kontratakuje, a następnie, w kolejnym tygodniu Powrót Jedi» użytkownik, który odczytał strony A i B, przejdzie, w kolejnych krokach, do strony D, a następnie, strony F