data mining machine learning data science deep learning, AI, statistics, IoT, operations research, applied mathematics KISIM, WIMiIP, AGH 1
Machine Learning / Data mining / Data science Uczenie maszynowe jest konsekwencją rozwoju idei sztucznej inteligencji i jej praktycznego wdrażania. Algorytmy pozwalają na zautomatyzowanie procesu pozyskiwania i analizy danych do ulepszania i rozwoju własnego systemu. KISIM, WIMiIP, AGH 2
Machine Learning Data Mining pozyskiwanie wiedzy przez człowieka Machine Learning odbiorcą jest maszyna, celem usprawnienie działania. Metody (przykładowe): Indukcja drzew decyzyjnych Uczenie Bayesowskie (Bayesian Learning) Uczenie z przykładów (Instance-based Learning) (np. knn) Clustering Support vector machines (SVM) Analiza asocjacji (Association rule learning) Sieci neuronowe Algorytmy genetyczne Wnioskowanie epizodyczne (CBR) Uczenie przez wzmacnianie (Reinforcement Learning) KISIM, WIMiIP, AGH 3
Knowledge Discovery from Data(KDD) data wrangling feature engineering KISIM, WIMiIP, AGH 4
KISIM, WIMiIP, AGH 5
data science interdyscyplinarny obszar mający na celu zamienić dane w wartość. Dane mogą posiadać strukturę lub nie, mogą być BIG lub SMALL, dynamiczne lub statyczne. Wartość może być dostarczona przez predykcję, wspomaganie decyzji, uczenie maszynowe, wizualizację. Data science obejmuje ekstrakcję, przetwarzanie, eksplorację, transformację, przechowywanie i reużytkowanie, obliczenia, mining and learning, prezentację i zastosowanie wyników z uwzględnieniem etycznych, społecznych, prawnych i biznesowych aspektów KISIM, WIMiIP, AGH 6
data scientist mistrz danych? KISIM, WIMiIP, AGH 7
Przykładowe algorytmy z zakresu Data Mining wizualizacja, wykresy metody predykcji, regresji metody statystyczne, modele szeregów czasowych ARIMA, analiza ANOVA analiza skupień, clustering modele drzew decyzyjnych» (klasyfikacyjne/regresyjne, CART) sieci neuronowe metody klasyfikacji:» najbliższych sąsiadów, naiwny klasyfikator Bayesa algorytmy indukcji reguł analiza asocjacji analiza składowych głównych PCA metoda wektorów nośnych SVM komponenty wariacyjne (VEPAC) metody uczenia maszynowego metody ewolucyjne logika rozmyta zbiory przybliżone data mining indukcja drzew (CART, CHAID) Grupowanie (k-średnich; EM) SVM, ANN RoughSets NeuroFuzzy (ANFIS) MARSplines, ANOVA, VEPAC KISIM, WIMiIP, AGH 8
Analiza (odkrywanie) Asocjacji Association rule learning
Analiza koszykowa w sklepie internetowym Cross-selling
Odkrywanie asocjacji Celem procesu odkrywania asocjacji jest znalezienie interesujących zależności lub korelacji, nazywanych ogólnie asocjacjami, pomiędzy danymi w dużych zbiorach danych. Wynikiem procesu odkrywania asocjacji jest zbiór reguł asocjacyjnych opisujących znalezione zależności lub korelacje między danymi. zastosowania odkrytych asocjacji: planowanie kampanii promocyjnych rozmieszczenie stoisk w supermarketach planowanie programów lojalnościowych opracowania koncepcji katalogu
Ufność i wsparcie informację o tym, że większość klientów, którzy kupują MS Windows kupują również MS Office można zapisać za pomocą następującej reguły asocjacyjnej: windows office [support = 15%, confidence = 75%]» Wsparcie 15% oznacza, że wśród zbadanych transakcji windows i office występują razem w piętnastu procentach,» wiarygodność 75% oznacza, że wśród klientów kupujących windows 75% klientów również kupuje office.
Przykład bazy transakcyjnej i reguły asocjacyjnej
Przykład bazy transakcyjnej i reguły asocjacyjnej
Przykład bazy transakcyjnej i reguły asocjacyjnej
Ocena reguł kryteria dla reguł interesujących W jaki sposób system eksploracji danych, odkrywając reguły asocjacyjne, może określić, które ze znalezionych reguł są interesujące dla użytkownika? Reguły o dużym wsparciu niekoniecznie muszą okazać się interesujące reguły te są z reguły dobrze znane użytkownikom. Podobnie rzecz ma się w odniesieniu do reguł o wysokim współczynniku ufności. ciąża = 1 płeć = kobieta przetoczenie ponad 2,5 jednostek krwi prowadzi często do komplikacji pooperacyjnych Przydatność reguły potrafi określić tylko i wyłącznie użytkownik.
Przykłady wizualizacji
Przykłady wizualizacji
Przykłady wizualizacji
Zmniejszanie minsup -coraz więcej reguł. -na początku reguły oczywiste i znane, - później ciekawe i wcześniej niezauważane. -Warto zacząć również od reguł najmocniejszych i później zmniejszać poziom minconf
Ocena reguł kryteria dla reguł interesujących W jaki sposób system eksploracji danych, odkrywając reguły asocjacyjne, może określić, które ze znalezionych reguł są interesujące dla użytkownika? Reguły o dużym wsparciu niekoniecznie muszą okazać się interesujące reguły te są z reguły dobrze znane użytkownikom. Podobnie rzecz ma się w odniesieniu do reguł o wysokim współczynniku ufności. ciąża = 1 płeć = kobieta przetoczenie ponad 2,5 jednostek krwi prowadzi często do komplikacji pooperacyjnych Przydatność reguły potrafi określić tylko i wyłącznie użytkownik.
Przykład Dane MarketBasket, Ponad 60 tys transakcji, ponad 600 kategorii produktów
Niesekwencyjna analiza asocjacji Wszystkie reguły, a więc też cały model, zapisywane są w bazie danych (.dbs). Domyślnie baza ta jest przechowywana w pliku C:\Documents and Settings\USER\My Documents\Default.dbs. 23
minsup 0,1 minconf 0,5 minsup 0,05 minconf 0,5 24
25
26
KISIM, WIMiIP, AGH 27
Adult KISIM, WIMiIP, AGH 28
KISIM, WIMiIP, AGH 29
KISIM, WIMiIP, AGH 30
STATISTICA SAL (Sequence, Association and Link Analysis) STATISTICA SAL to zbiór technik analitycznych przeznaczonych do znajdowania w zbiorach danych reguł, jakim podlegają koszyki zakupów.» wykrywanie reguł asocjacji (ustalanie reguł, które produkty kupowane są razem, analiza niesekwencyjna),» analiza sekwencji (badanie, w jakiej kolejności zjawiska zachodzą po sobie),» analiza skojarzeń (połączeń, dzięki niej można, np. analizując dane dotyczące klientów, wnioskować o tym, co będą oni chcieli kupić, bazując na informacjach o wcześniejszych ich zakupach).
STATISTICA SAL (Sequence, Association and Link Analysis) wykorzystuje technikę budowania drzew, do wydobywania z danych reguł sekwencji i asocjacji. dla zmiennych wielokrotnych odpowiedzi/dychotomii, jak i zmiennych ciągłych. równolegle poszukiwane są reguły sekwencyjne jak i reguły asocjacji. reguły sekwencji i asocjacji znajdowane są równocześnie w więcej niż jednym wymiarze. Analiza skupień: Moduł może wykonywać analizę typu hierarchicznego grupowania na bazie pojedynczych połączeń, co pozwala wykryć prawdopodobne grupowanie się produktów. Ma to szczególnie praktyczne zastosowania, np. W sprzedaży detalicznej.
KISIM, WIMiIP, AGH 33
minsup = 0,4 minsup = 0,3 brak reguł >50K w konkluzji minsup = 0,2 minconf=0,1 KISIM, WIMiIP, AGH 34
minsup = 0,2 minconf=0,1 KISIM, WIMiIP, AGH 35
minsup = 0,2 minconf=0,1 KISIM, WIMiIP, AGH 36
KISIM, WIMiIP, AGH minsup = 0,1 minconf=0,1 37
KISIM, WIMiIP, AGH 38
KISIM, WIMiIP, AGH 39
KISIM, WIMiIP, AGH 40
Algorytm Apriori (R) Apriori wykonane w środowisku R na zbiorze Adult minsup = 0,4 minconf = 0,7 Interesują nas reguły, które w konkluzji mają: race=white lub sex=male
Algorytm Apriori (R) sortujemy reguły po wskaźniku lift. wyświetlamy 5 najlepszych reguł
Association rules viewers 43
arulesviz R library association rule learning with 44
Text mining with RapidMiner 45
NewsMapping 46
47
48
Odkrywanie wzorców sekwencji Mining Sequential Patterns
Eksploracja wzorców sekwencji Wzorce sekwencji stanowią klasę wzorców symbolicznych opisujących zależności występujące pomiędzy zdarzeniami zachodzącymi w pewnym przedziale czasu. W przypadku wzorców symbolicznych zdarzenia są opisane wartościami atrybutów kategorycznych. W przypadku, gdy zdarzenia są opisane wartościami numerycznymi mówimy o przebiegach czasowych lub o analizie trendów. W przypadku analizy trendów, najczęściej stosuje się metody analizy przebiegów czasowych lub metody predykcji. Przykłady:» klient, który wypożyczył tydzień temu film Gwiezdne Wojny, w ciągu tygodnia wypożyczy Imperium Kontratakuje, a następnie, w kolejnym tygodniu Powrót Jedi» użytkownik, który odczytał strony A i B, przejdzie, w kolejnych krokach, do strony D, a następnie, strony F