Wprowadzenie do technologii informacyjnej.



Podobne dokumenty
SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Analiza danych i data mining.

data mining machine learning data science

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Eksploracja danych (data mining)

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

SZKOLENIA SAS. ONKO.SYS Kompleksowa infrastruktura inforamtyczna dla badań nad nowotworami CENTRUM ONKOLOGII INSTYTUT im. Marii Skłodowskiej Curie

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Drzewa klasyfikacyjne

Zastosowanie metod eksploracji danych (data mining) do sterowania i diagnostyki procesów w przemyśle spożywczym

Proces odkrywania wiedzy z baz danych

Archipelag Sztucznej Inteligencji

Analiza i wizualizacja danych Data analysis and visualization

Ewelina Dziura Krzysztof Maryański

Od Expert Data Scientist do Citizen Data Scientist, czyli jak w praktyce korzystać z zaawansowanej analizy danych

w ekonomii, finansach i towaroznawstwie


Szczegółowy opis przedmiotu zamówienia

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Metody eksploracji danych. Reguły asocjacyjne

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Podstawy sztucznej inteligencji

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Systemy uczące się wykład 1

Analiza danych. TEMATYKA PRZEDMIOTU

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Widzenie komputerowe (computer vision)

Opis efektów kształcenia dla modułu zajęć

KLASYFIKACJA. Słownik języka polskiego

Moduł: algorytmy sztucznej inteligencji, wykład 3. Agnieszka Nowak Brzezińska

Podstawy sztucznej inteligencji

Szkolenie Analiza dyskryminacyjna

Implementacja metod eksploracji danych - Oracle Data Mining

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

Mail: Pokój 214, II piętro

Co to jest klasyfikacja? Klasyfikacja a grupowanie Naiwny klasyfikator Bayesa

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA REALIZACJA W ROKU AKADEMICKIM 2016/2017

Systemy uczące się Lab 4

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

Implementacja wybranych algorytmów eksploracji danych na Oracle 10g

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

Kurs Chemometrii Poznań 28 listopad 2006

W A R S Z A W S K A W Y Ż S Z A S Z K O Ł A I N F O R M A T Y K I

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Nowe narzędzia zarządzania jakością

WIEDZA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Text mining w programie RapidMiner Michał Bereta

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

ALGORYTM RANDOM FOREST

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

CLUSTERING. Metody grupowania danych

Transformacja wiedzy w budowie i eksploatacji maszyn

Metody Inżynierii Wiedzy

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Analityka i BigData w służbie cyberbezpieczeństa

Wstęp do Sztucznej Inteligencji

Algorytm grupowania danych typu kwantyzacji wektorów

Metody i techniki sztucznej inteligencji / Leszek Rutkowski. wyd. 2, 3 dodr. Warszawa, Spis treści

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

Studia podyplomowe w zakresie przetwarzanie, zarządzania i statystycznej analizy danych

IX EKSPLORACJA DANYCH

Odkrywanie wiedzy z danych przy użyciu zbiorów przybliżonych. Wykład 3

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

1. Historia 2. Podstawy neurobiologii 3. Definicje i inne kłamstwa 4. Sztuczny neuron i zasady działania SSN. Agenda

Zastosowanie metod eksploracji danych do badania sprzedaży w przedsiębiorstwie produkcyjnym

Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

Elementy modelowania matematycznego

Co to jest grupowanie

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Systemy Wspomagania Decyzji

Data Mining Kopalnie Wiedzy

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

1. Odkrywanie asocjacji

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Metody selekcji cech

Transkrypt:

Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach

Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja danych jest procesem odkrywania znaczących nowych powiązań, wzorców i trendów przez przeszukiwanie danych zgromadzonych w skarbnicach, przy wykorzystaniu metod rozpoznawania wzorców, jak również metod statystycznych i matematycznych.

Po co Data Mining? Sytuacja: Eksplozja gromadzenia danych (Miliony rekordów - GB, TB danych) Wielowymiarowa struktura danych (Setki zmiennych) Złożone zależności występujące w danych Problem: Potrzeba wydobycia wiedzy biznesowej z danych Standardowe narzędzia nie wystarczają (SQL, Excel, OLAP)

Możliwości data mining Analiza rzeczywistych danych o zachowaniach i preferencjach klientów, wynikających z wykorzystywania oferowanych przez przedsiębiorstwo produktów i usług. Łączenie wiedzy i doświadczenia z zakresu IT, analizy danych i data mining z wiedzą z zakresu marketingu, sprzedaży i ekonomii. Dzięki temu wiemy jakie dane o klientach należy wykorzystać oraz jak je analizować, aby prowadzić skuteczne działania marketingowe i sprzedażowe.

Dlaczego potrzebujemy eksploracji danych?

W czym tkwi siła Data Mining? W data mining wykorzystuje się narzędzia pochodzące z trzech dziedzin: Technologii bazodanowej przetwarzanie danych), (gromadzenie, udostępnianie i Statystyki, Uczenia maszyn i sztucznej inteligencji. W procesie data mining możemy wyróżnić cztery zasadnicze etapy: 1. Przygotowanie danych, 2. Eksploracyjna analiza danych, 3. Właściwa analiza danych (budowa i ocena modelu lub odkrywanie wiedzy), 4. Wdrożenie i stosowanie modelu.

Proces odkrywania wiedzy z BD Czyszczenie danych usuwanie szumu i niespójnych danych Integracja danych łączenie danych z rożnych źródeł Selekcja danych wybór ważnych (dla problemu) danych Transformacja danych do postaci odpowiedniej do DM (np. sumowanie, agregacja) DM zastosowanie inteligentnych metod do wydobycia zależności, wzorców Ocena zależności identyfikacja interesujących zależności ze wszystkich wydobytych Prezentacja wiedzy

Metody eksploracji danych 1. Odkrywanie asocjacji (associations): znajdowanie reguł typu: piwo -> orzeszki 2. Wzorce sekwencji (sequential patterns): znajdowanie sekwencji dot. np. analiza kliknięć na stronie WWW (co po kolei było klikane). Także predykcja przyszłych wydarzeń na podstawie przeszłości. 3. Klasyfikacja (classifications): klasyfikacja danych do grup ze względu na atrybut decyzyjny, np.: klasyfikacja klientów przez bank do grup: dać kredyt / nie dać kredytu 4. Analiza skupień (clustering): grupowanie danych na wcześniej nieznane klasy, znajdowanie wspólnych cech, np.: zagregowanie statystyk urządzenia sieciowego i określenie jego zdrowia. 5. Podobieństwo szeregów czasowych (time-series similarities): badanie podobieństwa przebiegów czasowych, np. wykresów giełdowych 6. Wykrywanie odchyleń (deviation detection): znajdowanie anomalii, wyjątków, np.: urządzenie radiowe działające inaczej niż inne, fluktuacje

Asocjacje Analiza koszykowa to metoda z zakresu eksploracji danych, tworząca dla zbioru danych zestaw opisujących go przybliżonych reguł typu: Jeżeli (typ_samochodu='sportowy' i wiek<25) to zwykle (ryzyko='wysokie' i ubezpieczenie='wysokie') Każda utworzona reguła opisana jest dwoma miarami wsparcia (support) oraz zaufania (confidence):

Idea reguł asocjacyjnych confidence Zachodzącą regułę: T0 T2 o wsparciu 80% i zaufaniu 100% możemy zinterpretować następująco: 100 % osób, którzy kupili towar T0 kupili również towar T2 a sytuacja ta zachodzi w 80 % wszystkich transakcji.

Klasyfikacja vs. predykcja Klasyfikacja Drzewa decyzyjne (ID3, CART, C4.5) Modele Bayes'a Sieci neuronowe (perceptron) k-nearest Neighbours Algorytmy Genetyczne Zbiory rozmyte i przybliżone Predykcja Statystyczna regresja wielowymiarowa, inne rodzaje regresji

Drzewo decyzyjne Drzewa decyzyjne wyznaczają reguły, które pozwalają przypisać obiekty do określonych klas. Analiza zbioru obiektów dokonywana jest po kątem przyjętego zestawu atrybutów, a celem analizy jest podział obiektów na jednorodne klasy. Podział zbioru ma charakter hierarchiczny.

10 Przykład Tid Refund Marital Status Taxable Income Cheat Atrybuty 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Refund Yes No MarSt Single, Divorced TaxInc < 80K > 80K YES Married Zbiór treningowy Model: Drzewo decyzyjne

10 10 Zadanie klasyfikacji za pomocą DD Tid Attrib1 Attrib2 Attrib3 Class 1 Yes Large 125K No 2 No Medium 100K No Tree Induction algorithm 3 No Small 70K No 4 Yes Medium 120K No 5 No Large 95K Yes Induction 6 No Medium 60K No 7 Yes Large 220K No 8 No Small 85K Yes 9 No Medium 75K No Learn Model 10 No Small 90K Yes Training Set Tid Attrib1 Attrib2 Attrib3 Class Apply Model Model Decision Tree 11 No Small 55K? 12 Yes Medium 80K? 13 Yes Large 110K? Deduction 14 No Small 95K? 15 No Large 67K? Test Set

10 Użycie modelu DD do nowych danych Start od korzenia drzewa Nowe dane Refund Marital Status Taxable Income Cheat Refund No Married 80K? Yes No Single, Divorced MarSt Married TaxInc < 80K > 80K YES

10 Użycie modelu DD do nowych danych Nowe dane Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES

10 Użycie modelu DD do nowych danych Nowe dane Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES

10 Użycie modelu DD do nowych danych Nowe dane Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES

10 Użycie modelu DD do nowych danych Nowe dane Refund Marital Status Taxable Income Cheat Yes Refund No No Married 80K? Single, Divorced MarSt Married TaxInc < 80K > 80K YES

10 Użycie modelu DD do nowych danych Nowe dane Refund Marital Status Taxable Income Cheat Refund No Married 80K? Yes No MarSt Single, Divorced Married Decyzja: przypisz klasę No TaxInc < 80K > 80K YES

Zalety i wady drzew decyzyjnych Do zalet drzew decyzyjnych zaliczyć można : drzewa decyzyjne mogą reprezentować dowolnie złożone pojęcia, których definicje można wyrazić w zależności od atrybutów, przynoszą korzystne efekty przy analizie dużych zbiorów danych, czytelna forma graficzna - jeżeli tylko drzewo nie jest zbyt złożone, możliwość przejścia od grafu do opisu poprzez reguły. Do wad drzew zalicza się : nie stwarzają możliwości aktualizacji (dodania) nowych danych, zjawisko przeuczenia drzewa.

Czym jest grupowanie danych? Grupowanie polega na podziale niejednorodnej grupy obiektów (klientów) na grupy. Wszystkie osoby znajdujące się w tej samej grupie uważane są za podobne do siebie, osoby znajdujące się w różnych grupach są różne. Dzięki tego typu podziałowi nie musimy już określać tylu strategii, ilu mamy klientów. Wystarczy jeśli dany sposób postępowania przypiszemy do całej grupy (segmentu) podobnych osób. Najbardziej popularnymi metodami stosowanymi do segmentacji są metody analizy skupień oraz samoorganizujące się mapy Kohonena (SOM).

Cel analizy skupień Celem analizy skupień (cluster analysis) jest wyodrębnienie ze zbioru danych obiektów, które byłyby podobne do siebie, i łączenie ich w grupy. W wyniku działania tej analizy z jednego niejednorodnego zbioru danych otrzymujemy grupę kilku jednorodnych zbiorów. Obiekty znajdujące się w tym samym zbiorze uznawane są za podobne do siebie, obiekty z różnych zbiorów traktowane są jako niepodobne. Pojęcie analizy skupień obejmuje szereg algorytmów klasyfikacji. Do najważniejszych należy zaliczyć metodę k-średnich oraz AHC.

Metody niehierarchiczne oraz hierarchiczne

Grupowanie segmentacja danych Klasyczne metody niehierarchiczne (K-Means, k- Medoids) Metody hierarchiczne (AHC, Agnes, BIRCH, CURE, Chameleon) Metody oparte na gęstości (DBSCAN, OPTICS, DENCLUE) Metody gridowe (STING, WaveCluster, CLIQUE) Metody oparte na modelu (Podejście statystyczne, sieci neuronowe) Analiza odchyleń (ang. outlier analysis)

Moc segmentacji danych Zaletami segmentacji jest możliwość patrzenia na naszych klientów z nieco innej perspektywy, niejako z lotu ptaka. Taka perspektywa może umożliwić lepsze zrozumienie ich cech i zachowań. Dzięki temu mamy możliwość spójnie i precyzyjne określić grupy klientów, którymi jesteśmy zainteresowani. Wyniki przeprowadzonej segmentacji mogą również zasugerować działania, jakie należy podjąć w stosunku do określonych grup.