Eksploracja danych (data mining)

Podobne dokumenty
Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Analiza danych i data mining.

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Wprowadzenie do technologii informacyjnej.

Proces odkrywania wiedzy z baz danych


INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

data mining machine learning data science

Data Mining Kopalnie Wiedzy

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Ewelina Dziura Krzysztof Maryański

Analiza danych. TEMATYKA PRZEDMIOTU

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Klasyfikacja metodą Bayesa

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Inżynieria biomedyczna

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Eksploracja danych Jacek Rumiński

Techniki i algorytmy eksploracji danych. Geneza (1) Geneza (2)

Eksploracja Danych. podstawy

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Hurtownie danych. Wstęp. Architektura hurtowni danych. CO TO JEST HURTOWNIA DANYCH

SPOTKANIE 2: Wprowadzenie cz. I

w ekonomii, finansach i towaroznawstwie

CLUSTERING. Metody grupowania danych

KLASYFIKACJA. Słownik języka polskiego

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

1. Odkrywanie asocjacji

Mail: Pokój 214, II piętro

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Analiza i wizualizacja danych Data analysis and visualization

Metody eksploracji danych. Reguły asocjacyjne

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Business Intelligence jako narzędzie do walki z praniem brudnych pieniędzy

Podstawy sztucznej inteligencji

METODY EKSPLORACJI DANYCH I ICH ZASTOSOWANIE

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2016/2017

Usługi analityczne budowa kostki analitycznej Część pierwsza.

Odkrywanie asocjacji

Implementacja metod eksploracji danych - Oracle Data Mining

Business Intelligence

Text mining w programie RapidMiner Michał Bereta

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

Eksploracja danych. Wielkie bazy danych. Zależności w bazach danych Przykład 1. Zależności w bazach danych Przykład 2

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Wydział Informatyki i Zarządzania SWD NS 3. Marek Lubicz. kbo.pwr.edu.pl/pracownik/lubicz

Hurtownie danych i business intelligence - wykład II. Zagadnienia do omówienia. Miejsce i rola HD w firmie

Matematyka kodem nowoczesności. Zaproszenie do składania ofert

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Podstawy sztucznej inteligencji

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Spis treści. Przedmowa... XI. Wprowadzenie i biologiczne bazy danych. 1 Wprowadzenie Wprowadzenie do biologicznych baz danych...

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Eksploracja danych PROCES EKSPLORACJI DANYCH. Wojciech Waloszek. Teresa Zawadzka.

Rola analityki danych w transformacji cyfrowej firmy

Eksploracja Danych. Wprowadzenie. Co to jest eksploracja danych? Metody Zastosowania. Eksploracja danych. Wprowadzenie

Uczenie się maszyn. Dariusz Banasiak. Katedra Informatyki Technicznej Wydział Elektroniki

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Alicja Marszałek Różne rodzaje baz danych

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach.

Hurtownie danych. Przetwarzanie zapytań. ZAPYTANIA NA ZAPLECZU

DOKUMENT INFORMACYJNY COMARCH BUSINESS INTELLIGENCE:

2

Odkrywanie wiedzy. Marcin Szeląg Zakład ISWD, Instytut Informatyki, Politechnika Poznańska

Model logiczny SZBD. Model fizyczny. Systemy klientserwer. Systemy rozproszone BD. No SQL

Instytut Automatyki i Inżynierii Informatycznej Politechniki Poznańskiej. Adam Meissner. Elementy uczenia maszynowego

dr inż. Paweł Morawski Informatyczne wsparcie decyzji logistycznych semestr letni 2018/2019

Sposoby prezentacji problemów w statystyce

Elementy modelowania matematycznego

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

O badaniach nad SZTUCZNĄ INTELIGENCJĄ

WYKŁAD 1. Wprowadzenie w tematykę kursu

Archipelag Sztucznej Inteligencji

Szkolenia SAS Cennik i kalendarz 2017

Optymalizacja optymalizacji

Sylabus. Zaawansowana analiza danych eksperymentalnych Advanced analysis of experimental data

Hurtownie danych. Analiza zachowań użytkownika w Internecie. Ewa Kowalczuk, Piotr Śniegowski. Informatyka Wydział Informatyki Politechnika Poznańska

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Multi-wyszukiwarki. Mediacyjne Systemy Zapytań wprowadzenie. Architektury i technologie integracji danych Systemy Mediacyjne

Hierarchiczna analiza skupień

OLAP i hurtownie danych c.d.

Analiza internetowa czyli Internet jako hurtownia danych

Elementy statystyki wielowymiarowej

Zagadnienia (1/3) Data-flow diagramy przepływów danych ERD diagramy związków encji Diagramy obiektowe w UML (ang. Unified Modeling Language)

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Podstawy Sztucznej Inteligencji (PSZT)

Transkrypt:

Eksploracja (data mining) Tadeusz Pankowski www.put.poznan.pl/~pankowsk Czym jest eksploracja? Eksploracja oznacza wydobywanie wiedzy z dużych zbiorów. Eksploracja badanie, przeszukiwanie; np. dziewiczych obszarów Afryki (Słownik poprawnej polszczyzny PWN 1976). Eksplorować przemierzać jakiś teren w celach badawczych; eksplorować dziewiczą puszczę (jak wyżej) Cel eksploracji wydobycie wiedzy z (ang. knowledge mining from data). Jeden z istotnych etapów w procesie odkrywania wiedzy w bazach Knowledge Discovery in Databases (KDD) niekiedy rozumiany jest jako synonim KDD. 1 2 Eksploracja w procesie odkrywania wiedzy w bazach (KDD) Eksploracja jako etap w procesie odkrywania wiedzy 1. Czyszczenie (data cleaning) usuwanie zanieczyszczeń i niespójności w. 2. Integracja (data integration) łączenie pochodzących z różnorodnych źródeł. 3. Selekcja (data selection) wybieranie tych z bazy, które są istotne dla zadań analizy. 4. Transformacja (data transformation) przekształcanie i konsolidowanie do postaci przydatnej dla eksploracji, na przykład ich sumowanie i/lub agregowanie (np. w hurtowni ). 5. Eksploracja (data mining) stosowanie inteligentnych metod w celu odkrycia istotnych zależności zwanych wzorcami (patterns). 6. Ocena wzorców (pattern evaluation) identyfikacja naprawdę interesujących wzorców w oparciu o pewne miary ważności. 7. Reprezentacja wiedzy (knowledge presentation) przedstawienie odkrytej wiedzy użytkownikowi za pomocą technik wizualizacji i reprezentacji wiedzy. 3 Użytkownik Bazy Hurtownia Czyszczenie i integracja Wiedza Selekcja i transformacja Pliki Ocena i prezentacja Wzorce Eksploracja 4

Metody techniki eksploracji Eksploracja obejmuje szereg technik z różnych dyscyplin, takich jak: technologie baz statystyka uczenie maszynowe techniki obliczeń wielkiej skali rozpoznawanie wzorców sieci neuronowe wizualizacja wyszukiwanie informacji przetwarzanie obrazów i dźwięku analiza przestrzennych 5 Znaczenie eksploracji 1. Wynikiem eksploracji powinno być odkrycie interesującej wiedzy, regularności i uzyskanie informacji na wysokim poziomie ogólności, która może być prezentowana z różnych punktów widzenia. 2. Odkryta wiedza powinna być użyteczna dla podejmowania decyzji, sterowania procesami, zarządzania informacją a także do udzielania odpowiedzi na różne zapytania. 3. Eksploracja może być przeprowadzana na każdym rodzaju repozytorium : relacyjnych bazach, hurtowniach, bazach transakcji, plikach, sieci WWW, przestrzennych bazach, bazach multimedialnych, arkuszach kalkulacyjnych, strumieniach, itp. 6 Funkcjonalność eksploracji - rodzaje odkrywanych wzorców 1. Ogólny podział poszukiwanych wzorców w zadaniach eksploracji : wzorce opisujące (deskrypcyjne) charakteryzują ogólne właściwości w bazie, wzorce przewidujące (predykcyjne) na podstawie analizy aktualnych właściwości określają ich przyszłe właściwości. 2. Użytkownik często nie wie, jaki rodzaj wzorców w zbiorze jego może być interesujący i może żądać jednoczesnego odkrywania różnych rodzajów wzorców. 3. System eksploracji powinien być w stanie odkrywać wzorce różnego rodzaju i na różnych poziomach granulacji (tj. na różnych poziomach ogólności). 4. System eksploracji powinien być w stanie wykorzystać wskazówki i wiedzę użytkownika co do rodzaju wzorców. Opis klas: charakteryzacja a dyskryminacja 1. Dane są zwykle grupowane w klasy, np. komputery i drukarki (dla towarów), dobryklient i słabyklient (dla klientów), TAK i NIE dla grup uczniów chcących studiować i nie mających takich planów. 2. Często może być interesujący opis klas. Opis taki może być zrealizowany jako: charakteryzacja klasy opis wspólnych właściwości elementów tworzących klasę. Na przykład: wspólna charakterystyka klientów kupujących za więcej niż 20 000 PLN rocznie tworzy profil tej klasy klientów. Opis tego profilu maże być: osoba w wieku 40-50 lat, o stałym zatrudnieniu, posługująca się kartą kredytową. dyskryminacja klas polega na porównaniu rozróżniającym elementy klasy od innych klas. Koncentrujemy się na cechach wyróżniających opisywaną klasę. Przykład: 80 % osób z klasy dobryklient jest w wieku 30-40 lat i ma wyższe wykształcenie, a 60% osób z klasy słabyklien to emeryci lub osoby poniżej 25 lat i nie mają wyższego wykształcenia. 7 8

Analiza asocjacji (związków) (association analysis) 1. Analizą asocjacji nazywamy odkrywanie reguł asocjacyjnych (association rules) obrazujących wspólne i częste występowanie określonych kombinacji par atrybut-wartość w zbiorze. 2. Analiza asocjacji jest szeroko używana w analizie koszyka zakupów zwanej też analizą transakcji. 3. Reguła asocjacyjna ma postać: X Y, tzn: A 1... A n B 1... B m, gdzie każde A i i każde B j jest parą atrybut-wartość. 4. Reguła asocjacyjna X Y interpretowana jest następująco: krotki w bazie spełniające warunek X wystarczająco często spełniają również warunek Y. Reguły asocjacyjna - przykład 1. W sklepie Elektronika odkryto następującą regułę asocjacyjną: wiek(x, 30...39 ) dochód(x, 1500...2900 ) kupuje(x, CD-RW ) [wsparcie = 2%, ufność = 60%] x oznacza klienta. 2. Reguła mówi, że 2% (wsparcie, support) transakcji zakupów w Elektronice dotyczyło klientów w wieku od 30 do 39 lat o dochodach od 1500 do 2900 PLN i kupujących CD-RW. 60% (ufność, confidence) transakcji dokonanych przez osoby w wieku 30 do 39 lat i o dochodach z przedziału 1500-2900 dotyczyło zakupu CD-RW. 3. Jest to przykład wielowymiarowej reguły asocjacyjnej (występują trzy predykaty: wiek, dochód, kupuje). 9 10 Reguły asocjacyjna przykład 2 1. Reguła określająca, jakie artykuły sprzedawane są łącznie w tej samej transakcji: zawiera(t, monitor ) zawiera(t, CD-RW ) [wsparcie = 1%, ufność = 50%] T oznacza transakcję. 2. Reguła stwierdza, że jeśli transakcja dotyczy zakupu monitora, to istnieje 50% szansy, iż dotyczy ona także zakupu CD-RW. Ponadto 1% wszystkich transakcji dotyczy sprzedaży obydwu tych artykułów łącznie. 3. Jest to przykład jednowymiarowej reguły asocjacyjnej, bo występuje w niej tylko jeden predykat - zawiera. 4. Reguły jednowymiarowe zapisujemy podając tylko wartości atrybutów oraz wsparcie i ufność, na przykład: monitor CD-RW [1%, 50%] 11 Klasyfikacja i predykcja 1. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania modeli (lub funkcji) klasyfikacji umożliwiających określenie klasy, do której powinien należeć wskazany obiekt. 2. Model klasyfikacji budowany jest w wyniku analizy zbioru treningowych, tj. zbioru obiektów o znanej przynależności klasowej. 3. Model klasyfikacji może być reprezentowany za pomocą: reguł o postaci IF_THEN, drzew decyzyjnych, sieci neuronowych, innych metod. 12

Klasyfikacja i predykcja drzewa decyzyjne i sieci neuronowe 1. Drzewo decyzyjne (ang. decision tree) jest strukturą drzewiastą, w której: każdy wierzchołek (z wyjątkiem liści) oznacza testowanie wartości pewnego atrybutu analizowanego obiektu, każda krawędź wychodząca z wierzchołka reprezentuje wynik testu, każdy liść oznacza klasę, do której należy obiekt. 2. Sieć neuronowa (ang. neural network), w zastosowaniach do problemów klasyfikacji, składa się ze współpracujących ze sobą jednostek przetwarzania zwanych neuronami, między którymi istnieją połączenia o określonych wagach (będących wartościami liczbowymi). 13 Klasyfikacja z predykcja drzewa decyzyjne i sieci neuronowe 1. Model klasyfikacji jest przede wszystkim używany do określenia klasy, do której obiekt należy. 2. Metoda ta może być jednak również stosowana do przewidywania nieznanych wartości atrybutów mówimy wtedy o predykcji. 3. Predykcja może dotyczyć w szczególności określenia trendów rozwoju na podstawie dostępnych. 4. Odkrywanie modeli klasyfikacja i predykcji może być poprzedzone analizą istotności (ang. relevance analysis), w trakcie której identyfikujemy atrybuty nie mające znaczenia (nieistotne) dla procesów klasyfikacji i predykcji. Atrybuty te są następnie wyłączane z dalszych rozważań. 14 Klasyfikacja i predykcja przykład Analiza skupień (cluster analysis) 1. Przypuśćmy, że naszym zadaniem jest klasyfikacja artykułów w hipermarkecie do jednej z trzech klas odpowiadających reakcji sprzedaży artykułu w odpowiedzi na kampanię reklamową: duża reakcja, średnia reakcja, brak reakcji. 2. Należy zbudować model klasyfikacji na podstawie takich atrybutów opisowych artykułów jak: cena, branża, producent, typ, kategoria. 3. Zbudowany model klasyfikacji może mieć postać drzewa decyzyjnego. 4. Może się okazać, że tylko niektóre z atrybutów opisowych były istotne dla klasyfikacji (np. tylko cena) może to być wskazówką odnośnie do dalszych kampanii reklamowych. 1. Analiza skupień ma na celu utworzenie skupień (grup, klastrów, klas) obiektów, przy czym a priori może nie być znana ani liczba skupień, ani zasady przynależności obiektu do skupienia. 2. Obiekty są skupiane (grupowane) z wykorzystaniem zasady maksymalizacji podobieństw wewnątrz klas oraz minimalizacji podobieństwa między klasami. Obiekty należące do jednego skupienia charakteryzują się wysokim podobieństwem do siebie, natomiast bardzo się różnią od obiektów z innych skupień. 3. Analiza skupień może być przeprowadzona na klientach firmy w celu identyfikacji jednorodnych grup klientów. Grupy te mogą stanowić obiekty zainteresowań dla dedykowanych akcji marketingowych. 15 16

Analiza skupień -przykład Analiza odchyleń (outlier analysis) 1. W bazie mogą być zawarte obiekty, które nie spełniają wymagań ogólnego modelu zachowań. Te obiekty nazywamy odchyleniami. W większości przypadków obiekty takie są odrzucane jako zakłócenia, śmieci lub wyjątki. 2. Niekiedy jednak identyfikacja takich odchyleń może być bardzo interesująca, na przykład w systemach wykrywania oszustw (fraud detection). 3. Odchylenia mogą być wykrywane z wykorzystaniem testów statystycznych, w których przyjmowany jest określony rozkład prawdopodobieństwa dla. Można też stosować miary odległości, a obiekty, których odległość od utworzonych skupień jest duża traktowane są jako odchylenia. Utworzone skupienia mogą odpowiadać miejscu zamieszkania klientów, np. w obrębie miasta. 17 18 Analiza odchyleń -przykład 1. Analiza odchyleń może wykryć nieuczciwe korzystanie z kart płatniczych wtedy, gdy stwierdzi zakupy na wyjątkowo dużą kwotę w porównaniu ze zwykle dokonywanymi zakupami z wykorzystaniem analizowanej karty. 2. Odchylenia mogą być również wykryte poprzez analizę lokalizacji lub typu dokonywanych zakupów. Analiza ewolucji (evolution analysis) 1. Analiza ewolucji opisuje i modeluje regularności lub trendy dla obiektów, których zachowanie zmienia się w czasie. 2. Analiza ewolucji obejmuje: analizę szeregów czasowych, odkrywanie sekwencji lub periodyczności, analiza podobieństwa. 19 20

Analiza ewolucji - przykład Podsumowanie etapy odkrywania wiedzy w bazach 1. Przypuśćmy, że dysponujemy danymi z Warszawskiej Giełdy w postaci szeregów czasowych z okresu ostatnich siedmiu lat i chcemy zainwestować w akcje firm branży budowlanej. 2. Analiza zmian na giełdzie może wykazać istnienie pewnych regularności w ewolucji zmian wartości akcji w ogóle i akcji pewnych firm. 3. Regularności te mogą pomóc przewidzieć przyszłe trendy cen akcji i tym samym mogą pomóc nam w podjęciu decyzji inwestycyjnych. 21 Increasing potential to support business decisions Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP End User Business Analyst Data Analyst DBA Podsumowanie funkcjonalność metody odkrywania wiedzy 1. Charakteryzacja i dyskryminacja uogólnia i kontrastuje dane, np. klienci dobrzy kontra klienci słabi. 2. Asocjacje pozwala wykryć istotne i/lub przypadkowe współwystępowanie, np. monitor CD-RW [1%, 50%] 3. Klasyfikacja i predykcja pozwala przypisywać obiekty do klas, przewiduje nieznane wartości w tym przyszłe trendy. 4. Analiza skupień grupuje obiekty tworząc nowe klasy. 23 Podsumowanie funkcjonalność metody odkrywania wiedzy (c.d.) 5. Analiza odchyleń odchylenia są często traktowane jako wyjątki lub śmieci, często jednak mogą być istotne, np. w wykrywaniu oszustw. 6. Analiza ewolucji i trendów pozwala analizować i przewidywać zachowanie się zależnych od czasu. 7. Inne np. analiza statystyczna oraz metody zorientowane na odkrywanie wiedzy w multimedialnych (w obrazach, dźwięku,...) 8. Ocena przydatności odkrytych zależności. 24