Ewelina Dziura Krzysztof Maryański

Podobne dokumenty

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Metody eksploracji danych. Reguły asocjacyjne

Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu

Eksploracja danych - wykład VIII

Odkrywanie asocjacji

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Systemy Wspomagania Decyzji

Odkrywanie asocjacji

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

Inżynieria biomedyczna

Analiza i eksploracja danych

Opis efektów kształcenia dla modułu zajęć

Algorytmy odkrywania binarnych reguł asocjacyjnych

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

A C T A UNIVERSITATIS LODZIENSIS FOLIA OECONOMICA 183,2004. Sebastian Szamański, Ryszard Budziński

Ćwiczenie 5. Metody eksploracji danych

data mining machine learning data science

1. Odkrywanie asocjacji

Analiza danych i data mining.

Wielopoziomowe i wielowymiarowe reguły asocjacyjne

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Opis efektów kształcenia dla modułu zajęć

Analiza asocjacji i reguły asocjacyjne w badaniu wyborów zajęć dydaktycznych dokonywanych przez studentów. Zastosowanie algorytmu Apriori

Inżynieria Wiedzy i Systemy Ekspertowe. Reguły asocjacyjne

Odkrywanie asocjacji. Cel. Geneza problemu analiza koszyka zakupów

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Odkrywanie reguł asocjacyjnych. Rapid Miner

Grzegorz Harańczyk, StatSoft Polska Sp. z o.o.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Reguły asocjacyjne. Żródło: LaroseD.T., Discovering Knowledge in Data. An Introduction to Data Minig, John Wiley& Sons, Hoboken, New Jersey, 2005.

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Metody Inżynierii Wiedzy

Analiza i wizualizacja danych Data analysis and visualization

Hurtownie danych - opis przedmiotu

Reguły asocjacyjne, wykł. 11

Statystyka i eksploracja danych

Algorytmy optymalizacji zapytań eksploracyjnych z wykorzystaniem materializowanej perspektywy eksploracyjnej

Odkrywanie wzorców sekwencji

Reguły asocjacyjne w programie RapidMiner Michał Bereta

Algorytm DIC. Dynamic Itemset Counting. Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek

Rok akademicki: 2017/2018 Kod: JIS AD-s Punkty ECTS: 5. Kierunek: Informatyka Stosowana Specjalność: Modelowanie i analiza danych

Odkrywanie wzorców sekwencji

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

ECDL Podstawy programowania Sylabus - wersja 1.0

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Odkrywanie wiedzy. Marcin Szeląg Zakład ISWD, Instytut Informatyki, Politechnika Poznańska

Odkrywanie reguł asocjacyjnych

Plan wykładu. Reguły asocjacyjne. Przykłady asocjacji. Reguły asocjacyjne. Jeli warunki to efekty. warunki efekty

ANALIZA ZACHOWAŃ UŻYTKOWNIKÓW PORTALU ONET.PL W UJĘCIU REGUŁ ASOCJACYJNYCH

Michał Kukliński, Małgorzata Śniegocka-Łusiewicz

Widzenie komputerowe (computer vision)

EKSPLORACJA DANYCH METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Eksploracja danych - wykład II

Modelowanie wzorców zachowań klientów Delikatesów Alma przy wykorzystaniu reguł asocjacyjnych

Wyszukiwanie reguł asocjacji i ich zastosowanie w internecie

Statystyczna Eksploracja Danych

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

PRZYKŁAD BADANIA WZORCÓW ZACHOWAŃ KLIENTÓW ZA POMOCĄ ANALIZY KOSZYKOWEJ

Wprowadzenie do technologii informacyjnej.

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Opisy przedmiotów do wyboru

Ćwiczenia z Zaawansowanych Systemów Baz Danych

KARTA PRZEDMIOTU. 1. Informacje ogólne. 2. Ogólna charakterystyka przedmiotu. Metody drążenia danych D1.3

Semestr letni Ekonometria i prognozowanie Nie

Laboratorium 3. Odkrywanie reguł asocjacyjnych.

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

ALGORYTM RANDOM FOREST

System monitorowania i sterowania produkcją

Hurtownie danych. Analiza zachowań użytkownika w Internecie. Ewa Kowalczuk, Piotr Śniegowski. Informatyka Wydział Informatyki Politechnika Poznańska

EKSPLORACJA DANYCH METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Eksploracja danych - wykład IV

Transformacja wiedzy w budowie i eksploatacji maszyn

Diagramy związków encji. Laboratorium. Akademia Morska w Gdyni

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

9. Praktyczna ocena jakości klasyfikacji

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

SYSTEMY UCZĄCE SIĘ WYKŁAD 1. INFORMACJE WSTĘPNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Eksploracja danych (data mining)

Technologie baz danych

Z-ID-509a Odkrywanie związków w danych wielowymiarowych. Specjalnościowy Obowiązkowy Polski Semestr V

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016

Odkrywanie wzorców sekwencyjnych z zachowaniem prywatności

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA REALIZACJA W ROKU AKADEMICKIM 2016/2017

PRZEWODNIK PO PRZEDMIOCIE

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1.

Wykład 2. Relacyjny model danych

Eksploracja danych: problemy i rozwiązania

SZTUCZNA INTELIGENCJA

Opisy przedmiotów do wyboru

Transkrypt:

Ewelina Dziura Krzysztof Maryański

1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład praktycznego zastosowania

Eksploracja danych jest analizą (..) zbiorów danych obserwacyjnych, w celu znalezienia nieoczekiwanych związków i podsumowania danych w oryginalny sposób, tak aby były zarówno zrozumiałe, jak i przydatne dla ich właściciela. [4] Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych zbiorach danych [8] Eksploracja danych jest międzydyscyplinarną dziedziną, łączącą techniki uczenia maszynowego, rozpoznawania wzorców, statystyki, baz danych i wizualizacji w celu uzyskiwania informacji z dużych baz danych [2]

Eksplorację danych wykorzystuje się wszędzie tam, gdzie zachodzi potrzeba uzyskania użytecznych informacji (na przykład wzorców, trendów) z istniejących dużych zbiorów danych. Głównymi zadaniami do rozwiązania w których stosuje się techniki eksploracji danych są (według [6]): Opis, Szacowanie, Przewidywanie, Klasyfikacja, Grupowanie, Odkrywanie reguł.

Wśród metod eksploracji danych wyróżnia się (według [7]): Klasyfikację, Grupowanie, Odkrywanie sekwencji, Odkrywanie charakterystyk, Odkrywanie asocjacji.

Według metodologii Crisp-DM [6] 1. Zrozumienie uwarunkowań biznesowych 2. Zrozumienie danych 3. Przygotowanie danych 4. Modelowanie 5. Ewaluacja 6. Wdrożenie

Rys. 1: Opracowanie własne na podstawie [6]

Metoda asocjacyjna (odkrywania asocjacji) jest jedną z najpopularniejszych metod eksploracji danych, polegającą na analizowaniu zbioru atrybutów z bazy danych pod kątem występowania w nim powtarzających się zależności. Wynikiem zastosowania tej metody są reguły asocjacyjne i odpowiadające im parametry.

Metody eksploracji danych oparte na eksploracji reguł asocjacyjnych znajdują zastosowanie wszędzie tam, gdzie celem jest określenie związków przyczynowo skutkowych pomiędzy zdarzeniami zapisanymi w analizowanej bazie danych. Przykładowe zastosowania odkrywania asocjacji to: Analiza koszyka zakupów, Opracowywanie ofert dla określonych grup klientów, Analiza zachowań użytkowników jakiegoś produktu lub usługi (np. portalu internetowego).

Reguły asocjacyjne można podzielić ze względu na (według [7]): Typ przetwarzanych danych, Wymiarowość przetwarzanych danych, Stopień abstrakcji przetwarzanych danych.

Podział ze względu na typ przetwarzanych danych: Reguły binarne gdy dane zawarte w regule są zmiennymi binarnymi przyjmującymi tylko wartości prawda albo fałsz, Reguły ilościowe gdy dane zawarte w regule są danymi kategorycznymi (np. rodzaj produktu) lub ciągłymi (np. prędkość).

Podział ze względu na wymiarowość przetwarzanych danych: Reguły jednowymiarowe gdy dane zawarte w regule pochodzą z jednej dziedziny wartości, Reguły wielowymiarowe gdy dane zawarte w regule pochodzą z różnych dziedzin wartości.

Podział ze względu na stopień abstrakcji przetwarzanych danych: Reguły jednopoziomowe jeżeli dane zawarte w regule mają ten sam poziom abstrakcji, Reguły wielopoziomowe jeżeli dane zawarte w regule mają różne poziomy abstrakcji.

Reguły asocjacyjne przedstawiane są w postaci implikacji. Każda reguła składa się z dwóch zbiorów atrybutów: zbioru wartości warunkujących (poprzednika) zbioru wartości warunkowanych (następnika).

Reguła ze poprzednikiem X i następnikiem Y jest zapisywana w następujący sposób: X Y Interpretacja : W przypadku wystąpienia wszystkich wartości ze zbioru X często występują również wszystkie wartości ze zbioru Y.

Wsparcie (ang. Support) jest parametrem określającym, jaki procent wszystkich reguł asocjacyjnych stanowi dana reguła. Jest to stosunek ilości przypadków w zbiorze danych, które zawierają w całości zbiory X i Y do liczby wszystkich przypadków. s P X Y = P X Y P

Pewność (ang. Confidence) jest parametrem określającym, jaki procent reguł asocjacyjnych, które zaczynają się od określonego poprzednika, stanowi dana reguła. Jest to stosunek ilości wystąpień w zbiorze danych przypadków zawierających w całości zbiory X i Y do liczby przypadków, które zawierają jedynie elementy zbioru X. c P X Y = P X Y P X

Id Elementy 1 A, B, C 2 A, C, B, D 3 A, C, E 4 B, E, D 5 D, A, C, E Wsparcie dla przykładowej reguły {A, C} D wynosi: S A, C D = 2 5 = 40% Natomiast pewność dla tej reguły wynosi: c A, C D = 2 = 50% 4

W pierwszym etapie znajdowane są wszystkie kombinacje atrybutów mające współczynnik wsparcia większy od minimalnego wsparcia zdefiniowanego wcześniej. Otrzymane kombinacje nazywane są dużymi zbiorami elementów, l-zbiorami albo zbiorami częstymi. Pozostałe kombinacje nie będące l-zbiorami (mające współczynnik wsparcia poniżej minimum) nazywane są małymi zbiorami elementów albo s-zbiorami.

Drugi etap polega na utworzeniu reguły asocjacyjnej dla każdej pary zbiorów z których jeden jest podzbiorem drugiego. Dla wygenerowanej reguły obliczany są współczynniki pewności oraz wsparcia i jeśli są one wyższe od minimum zdefiniowanego przez użytkownika to reguła jest akceptowana.

Po raz pierwszy opisany w 1994 roku w publikacji Fast Algorithms for Mining Association Rules autorstwa R. Agrawala i R. Srikanta. Opiera się na własności funkcji wsparcia (antymonotoniczności) dzięki której wiadomo, że rozszerzenie nieczęstego zbioru o dodatkowe elementy nigdy nie doprowadzi do powstania zbioru częstego.

Algorytm Apriori przeszukuje zbiór danych i w każdej kolejnej iteracji generuje rodziny coraz większych zbiorów częstych. 1. W pierwszej iteracji znajdowane są wszystkie jednoelementowe zbiory częste. 2. Zbiór ten jest wykorzystywany do znalezienia dwuelementowych zbiorów kandydujących (procedura AprioriGen). 3. Następnie obliczane jest wsparcie zbiorów kandydujących i po usunięciu tych, których wsparcie jest niższe od zadanego minimum otrzymywane są wszystkie dwuelementowe zbiory częste. Procedura z punktów 2 i 3 jest powtarzana do momentu, kiedy dla kolejnego k nie będzie już żadnego k-elementowego zbioru częstego.

Etapy procedury AprioriGen : 1. Łączenie (k-1)-elementowych zbiorów częstych łączony jest z samym sobą poprzez łączenie ze sobą wszystkich par (k-1)- elementowych zbiorów częstych. Para zbiorów częstych jest łączona tylko wtedy, kiedy oba zbiory mają k-2 takich samych elementów na początku. np. zbiory {a,b,c} i {a,b,d} zostaną połączone dając {a,b,c,d} ale {a,b,c} i {a,c,d} już nie.

2. Przycinanie Celem operacji przycinania jest wyeliminowanie ze zbioru zbiorów kandydujących tych elementów, które na podstawie wcześniej wspomnianej własności funkcji wsparcia nie mogą być zbiorami częstymi. Usuwane są wszystkie zbiory zawierające (k-1)-elementowe podzbiory niewystępujące w zbiorze (k-1)-elementowych zbiorów częstych.

Rys. 2

Apriori TiD Apriori Hybrid

W stosunku do algorytmu Apriori wprowadzona zostaje dodatkowa struktura (nazywana CountingBase) w której przechowywane są te transakcje z bazy, które popierają co najmniej jeden zbiór kandydujący. Struktura ta jest następnie używana do obliczania wsparcia zbiorów kandydujących. Podstawą działania AprioriTiD jest obserwacja, że transakcja, która nie zawiera żadnego k-zbioru częstego, nie może zawierać żadnego (k+1)-zbioru częstego. Zatem można je wyeliminować z obliczeń w następnych przebiegach algorytmu co powoduje, że Apriori TiD jest szybszy w późniejszych przebiegach niż zwykły Apriori.

Algorytm wykorzystujący zalety algorytmów Apriori i Apriori TiD: Algorytm Apriori jest szybszy w początkowych przejściach, Algorytm AprioriTiD jest szybszy w dalszych przejściach. Zasadą działania Apriori Hybrid jest zmiana algorytmu Apriori na AprioriTid w momencie w którym ten drugi zapewnia lepszą wydajność.

Dane: Lista klientów firmy wraz z zakupionymi przez nich modułami oprogramowania (zanonimizowane). 134 produkty 396 klientów Narzędzie: Statistica Data Miner 10 Cel: Znalezienie zestawów które są najczęściej kupowane w celu trafniejszego doboru ofert dla poszczególnych klientów.

Poprzednik Następnik Wsparcie (%) Zaufanie (%) C ==> B 32,82828 62,5000 B ==> C 32,82828 66,3265 D, C ==> B 23,73737 75,2000 B, C ==> D 23,73737 72,3077 B, D ==> C 23,73737 83,9286 E, C ==> B 21,21212 66,1417 B, C ==> E 21,21212 64,6154 B, E ==> C 21,21212 89,3617 F, C ==> B 21,46465 75,8929 B, C ==> F 21,46465 65,3846 B, F ==> C 21,46465 88,5417 G, C ==> B 19,94949 77,4510 B, C ==> G 19,94949 60,7692 B, G ==> C 19,94949 72,4771 C ==> B, A 32,82828 62,5000 A, C ==> B 32,82828 62,5000 B ==> A, C 32,82828 66,3265 B, C ==> A 32,82828 100,000 B, A ==> C 32,82828 66,3265 D, C ==> B, A 23,73737 75,2000 A, D, C ==> B 23,73737 75,2000

Poprzednik Następnik Wsparcie(%) Zaufanie (%) C ==> A 52,52525 100,0000 B ==> A 49,49495 100,0000 D ==> A 46,46465 100,0000 E ==> A 46,46465 100,0000 G ==> A 36,61616 100,0000 D ==> A, E 36,36364 78,2609 E ==> A, D 36,36364 78,2609 E, D ==> A 36,36364 100,0000 A, D ==> E 36,36364 78,2609 A, E ==> D 36,36364 78,2609 D ==> E 36,36364 78,2609 E ==> D 36,36364 78,2609 F ==> A 35,85859 100,0000 C ==> B 32,82828 62,5000 B ==> C 32,82828 66,3265 C ==> B, A 32,82828 62,5000 A, C ==> B 32,82828 62,5000 B ==> A, C 32,82828 66,3265 B, C ==> A 32,82828 100,0000 B, A ==> C 32,82828 66,3265

Poprzednik Następnik Wsparcie(%) Zaufanie(%) F ==> A 35,85859 100,0000 H, F ==> A 19,94949 100,0000 G, F ==> A 20,70707 100,0000 H ==> A 22,47475 100,0000 I ==> A 23,98990 100,0000 G ==> A 36,61616 100,0000 L ==> D 22,47475 100,0000 M ==> C 23,48485 100,0000 E, J ==> A, C 19,94949 96,3415 A, E, J ==> C 19,94949 96,3415 E, J ==> C 19,94949 96,3415 D, K ==> A, E 20,20202 95,2381 A, D, K ==> E 20,20202 95,2381 D, K ==> E 20,20202 95,2381 J ==> A, C 23,23232 93,8776 A, J ==> C 23,23232 93,8776 J ==> C 23,23232 93,8776 I ==> B 22,47475 93,6842 I ==> B, A 22,47475 93,6842

liczba reguł minsup liczba reguł 100% 0 90% 0 80% 0 70% 0 60% 0 50% 2 40% 8 30% 46 20% 684 10% 150579 1000000 100000 10000 1000 100 10 1 Liczba reguł w zależności od parametru minsup 0 20 40 60 80 100 minsup [%] Poziom minconf stały i równy 10%

liczba reguł minconf liczba reguł 100% 6834 90% 21267 80% 37242 70% 59061 60% 81213 50% 102304 40% 121429 30% 134363 20% 146685 10% 150579 160000 140000 120000 100000 80000 60000 40000 20000 0 Liczba reguł w zależności od parametru minconf 0 20 40 60 80 100 minconf [%] Poziom minsup stały i równy 10%

liczba reguł minconf minsup 20% 30% 40% 50% 60% 70% 80% 90% 20% 678 629 601 463 372 276 198 96 30% 46 46 39 36 35 17 11 11 40% 8 8 8 5 4 4 4 4 50% 2 2 2 2 1 1 1 1 60% 0 0 0 0 0 0 0 0 Liczba reguł w zależności od parametrów minsup i minconf 1000 100 10 1 20 30 minsup[%] 40 50 20 60 30 80 90 70 60 50 40 minconf[%] 100-1000 10-100 1-10

1. Agrawal R., Srikant R., Fast Algorithms for Mining Association Rules, IBM Almaden Research Center, San Jose, California 1994. 2. Cabena P., Hadjinian P., Stadler R., Verhees J., Zanasi A., Discovering Data Mining: From Concept to Implementation, Prentice Hall, Upper Saddle River, 1997. 3. Cichosz P., Metody odkrywania wiedzy: wykład 11 Odkrywanie reguł asocjacyjnych, http://www.ise.pw.edu.pl/~cichosz/mow/wyklad/moww11/mow-w11.html 4. Hand D., Mannila H., Smyth P., Eksploracja danych, WNT, Warszawa 2005. 5. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction Springer 2009 6. Larose D.T. Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych Wydawnictwo Naukowe PWN, Warszawa 2006. 7. Morzy T, Morzy M., Leśniewska A., Kurs eksploracji danych http://mediawiki.ilab.pl/index.php/eksploracja_danych 8. Szymański S., Budziński R., Metody eksploracji reguł asocjacyjnych i ich zastosowanie, w: Acta Universitatis Lodziensis. Folia Oeconomica. - [Z.] 183 (2004)