Ewelina Dziura Krzysztof Maryański

Transkrypt

1 Ewelina Dziura Krzysztof Maryański

2 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład praktycznego zastosowania

3 Eksploracja danych jest analizą (..) zbiorów danych obserwacyjnych, w celu znalezienia nieoczekiwanych związków i podsumowania danych w oryginalny sposób, tak aby były zarówno zrozumiałe, jak i przydatne dla ich właściciela. [4] Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych zbiorach danych [8] Eksploracja danych jest międzydyscyplinarną dziedziną, łączącą techniki uczenia maszynowego, rozpoznawania wzorców, statystyki, baz danych i wizualizacji w celu uzyskiwania informacji z dużych baz danych [2]

4 Eksplorację danych wykorzystuje się wszędzie tam, gdzie zachodzi potrzeba uzyskania użytecznych informacji (na przykład wzorców, trendów) z istniejących dużych zbiorów danych. Głównymi zadaniami do rozwiązania w których stosuje się techniki eksploracji danych są (według [6]): Opis, Szacowanie, Przewidywanie, Klasyfikacja, Grupowanie, Odkrywanie reguł.

5 Wśród metod eksploracji danych wyróżnia się (według [7]): Klasyfikację, Grupowanie, Odkrywanie sekwencji, Odkrywanie charakterystyk, Odkrywanie asocjacji.

6 Według metodologii Crisp-DM [6] 1. Zrozumienie uwarunkowań biznesowych 2. Zrozumienie danych 3. Przygotowanie danych 4. Modelowanie 5. Ewaluacja 6. Wdrożenie

7 Rys. 1: Opracowanie własne na podstawie [6]

8 Metoda asocjacyjna (odkrywania asocjacji) jest jedną z najpopularniejszych metod eksploracji danych, polegającą na analizowaniu zbioru atrybutów z bazy danych pod kątem występowania w nim powtarzających się zależności. Wynikiem zastosowania tej metody są reguły asocjacyjne i odpowiadające im parametry.

9 Metody eksploracji danych oparte na eksploracji reguł asocjacyjnych znajdują zastosowanie wszędzie tam, gdzie celem jest określenie związków przyczynowo skutkowych pomiędzy zdarzeniami zapisanymi w analizowanej bazie danych. Przykładowe zastosowania odkrywania asocjacji to: Analiza koszyka zakupów, Opracowywanie ofert dla określonych grup klientów, Analiza zachowań użytkowników jakiegoś produktu lub usługi (np. portalu internetowego).

10 Reguły asocjacyjne można podzielić ze względu na (według [7]): Typ przetwarzanych danych, Wymiarowość przetwarzanych danych, Stopień abstrakcji przetwarzanych danych.

11 Podział ze względu na typ przetwarzanych danych: Reguły binarne gdy dane zawarte w regule są zmiennymi binarnymi przyjmującymi tylko wartości prawda albo fałsz, Reguły ilościowe gdy dane zawarte w regule są danymi kategorycznymi (np. rodzaj produktu) lub ciągłymi (np. prędkość).

12 Podział ze względu na wymiarowość przetwarzanych danych: Reguły jednowymiarowe gdy dane zawarte w regule pochodzą z jednej dziedziny wartości, Reguły wielowymiarowe gdy dane zawarte w regule pochodzą z różnych dziedzin wartości.

13 Podział ze względu na stopień abstrakcji przetwarzanych danych: Reguły jednopoziomowe jeżeli dane zawarte w regule mają ten sam poziom abstrakcji, Reguły wielopoziomowe jeżeli dane zawarte w regule mają różne poziomy abstrakcji.

14 Reguły asocjacyjne przedstawiane są w postaci implikacji. Każda reguła składa się z dwóch zbiorów atrybutów: zbioru wartości warunkujących (poprzednika) zbioru wartości warunkowanych (następnika).

15 Reguła ze poprzednikiem X i następnikiem Y jest zapisywana w następujący sposób: X Y Interpretacja : W przypadku wystąpienia wszystkich wartości ze zbioru X często występują również wszystkie wartości ze zbioru Y.

16 Wsparcie (ang. Support) jest parametrem określającym, jaki procent wszystkich reguł asocjacyjnych stanowi dana reguła. Jest to stosunek ilości przypadków w zbiorze danych, które zawierają w całości zbiory X i Y do liczby wszystkich przypadków. s P X Y = P X Y P

17 Pewność (ang. Confidence) jest parametrem określającym, jaki procent reguł asocjacyjnych, które zaczynają się od określonego poprzednika, stanowi dana reguła. Jest to stosunek ilości wystąpień w zbiorze danych przypadków zawierających w całości zbiory X i Y do liczby przypadków, które zawierają jedynie elementy zbioru X. c P X Y = P X Y P X

18 Id Elementy 1 A, B, C 2 A, C, B, D 3 A, C, E 4 B, E, D 5 D, A, C, E Wsparcie dla przykładowej reguły {A, C} D wynosi: S A, C D = 2 5 = 40% Natomiast pewność dla tej reguły wynosi: c A, C D = 2 = 50% 4

19 W pierwszym etapie znajdowane są wszystkie kombinacje atrybutów mające współczynnik wsparcia większy od minimalnego wsparcia zdefiniowanego wcześniej. Otrzymane kombinacje nazywane są dużymi zbiorami elementów, l-zbiorami albo zbiorami częstymi. Pozostałe kombinacje nie będące l-zbiorami (mające współczynnik wsparcia poniżej minimum) nazywane są małymi zbiorami elementów albo s-zbiorami.

20 Drugi etap polega na utworzeniu reguły asocjacyjnej dla każdej pary zbiorów z których jeden jest podzbiorem drugiego. Dla wygenerowanej reguły obliczany są współczynniki pewności oraz wsparcia i jeśli są one wyższe od minimum zdefiniowanego przez użytkownika to reguła jest akceptowana.

21 Po raz pierwszy opisany w 1994 roku w publikacji Fast Algorithms for Mining Association Rules autorstwa R. Agrawala i R. Srikanta. Opiera się na własności funkcji wsparcia (antymonotoniczności) dzięki której wiadomo, że rozszerzenie nieczęstego zbioru o dodatkowe elementy nigdy nie doprowadzi do powstania zbioru częstego.

22 Algorytm Apriori przeszukuje zbiór danych i w każdej kolejnej iteracji generuje rodziny coraz większych zbiorów częstych. 1. W pierwszej iteracji znajdowane są wszystkie jednoelementowe zbiory częste. 2. Zbiór ten jest wykorzystywany do znalezienia dwuelementowych zbiorów kandydujących (procedura AprioriGen). 3. Następnie obliczane jest wsparcie zbiorów kandydujących i po usunięciu tych, których wsparcie jest niższe od zadanego minimum otrzymywane są wszystkie dwuelementowe zbiory częste. Procedura z punktów 2 i 3 jest powtarzana do momentu, kiedy dla kolejnego k nie będzie już żadnego k-elementowego zbioru częstego.

23 Etapy procedury AprioriGen : 1. Łączenie (k-1)-elementowych zbiorów częstych łączony jest z samym sobą poprzez łączenie ze sobą wszystkich par (k-1)- elementowych zbiorów częstych. Para zbiorów częstych jest łączona tylko wtedy, kiedy oba zbiory mają k-2 takich samych elementów na początku. np. zbiory {a,b,c} i {a,b,d} zostaną połączone dając {a,b,c,d} ale {a,b,c} i {a,c,d} już nie.

24 2. Przycinanie Celem operacji przycinania jest wyeliminowanie ze zbioru zbiorów kandydujących tych elementów, które na podstawie wcześniej wspomnianej własności funkcji wsparcia nie mogą być zbiorami częstymi. Usuwane są wszystkie zbiory zawierające (k-1)-elementowe podzbiory niewystępujące w zbiorze (k-1)-elementowych zbiorów częstych.

25 Rys. 2

26 Apriori TiD Apriori Hybrid

27 W stosunku do algorytmu Apriori wprowadzona zostaje dodatkowa struktura (nazywana CountingBase) w której przechowywane są te transakcje z bazy, które popierają co najmniej jeden zbiór kandydujący. Struktura ta jest następnie używana do obliczania wsparcia zbiorów kandydujących. Podstawą działania AprioriTiD jest obserwacja, że transakcja, która nie zawiera żadnego k-zbioru częstego, nie może zawierać żadnego (k+1)-zbioru częstego. Zatem można je wyeliminować z obliczeń w następnych przebiegach algorytmu co powoduje, że Apriori TiD jest szybszy w późniejszych przebiegach niż zwykły Apriori.

28 Algorytm wykorzystujący zalety algorytmów Apriori i Apriori TiD: Algorytm Apriori jest szybszy w początkowych przejściach, Algorytm AprioriTiD jest szybszy w dalszych przejściach. Zasadą działania Apriori Hybrid jest zmiana algorytmu Apriori na AprioriTid w momencie w którym ten drugi zapewnia lepszą wydajność.

29 Dane: Lista klientów firmy wraz z zakupionymi przez nich modułami oprogramowania (zanonimizowane). 134 produkty 396 klientów Narzędzie: Statistica Data Miner 10 Cel: Znalezienie zestawów które są najczęściej kupowane w celu trafniejszego doboru ofert dla poszczególnych klientów.

30 Poprzednik Następnik Wsparcie (%) Zaufanie (%) C ==> B 32, ,5000 B ==> C 32, ,3265 D, C ==> B 23, ,2000 B, C ==> D 23, ,3077 B, D ==> C 23, ,9286 E, C ==> B 21, ,1417 B, C ==> E 21, ,6154 B, E ==> C 21, ,3617 F, C ==> B 21, ,8929 B, C ==> F 21, ,3846 B, F ==> C 21, ,5417 G, C ==> B 19, ,4510 B, C ==> G 19, ,7692 B, G ==> C 19, ,4771 C ==> B, A 32, ,5000 A, C ==> B 32, ,5000 B ==> A, C 32, ,3265 B, C ==> A 32, ,000 B, A ==> C 32, ,3265 D, C ==> B, A 23, ,2000 A, D, C ==> B 23, ,2000

31 Poprzednik Następnik Wsparcie(%) Zaufanie (%) C ==> A 52, ,0000 B ==> A 49, ,0000 D ==> A 46, ,0000 E ==> A 46, ,0000 G ==> A 36, ,0000 D ==> A, E 36, ,2609 E ==> A, D 36, ,2609 E, D ==> A 36, ,0000 A, D ==> E 36, ,2609 A, E ==> D 36, ,2609 D ==> E 36, ,2609 E ==> D 36, ,2609 F ==> A 35, ,0000 C ==> B 32, ,5000 B ==> C 32, ,3265 C ==> B, A 32, ,5000 A, C ==> B 32, ,5000 B ==> A, C 32, ,3265 B, C ==> A 32, ,0000 B, A ==> C 32, ,3265

32 Poprzednik Następnik Wsparcie(%) Zaufanie(%) F ==> A 35, ,0000 H, F ==> A 19, ,0000 G, F ==> A 20, ,0000 H ==> A 22, ,0000 I ==> A 23, ,0000 G ==> A 36, ,0000 L ==> D 22, ,0000 M ==> C 23, ,0000 E, J ==> A, C 19, ,3415 A, E, J ==> C 19, ,3415 E, J ==> C 19, ,3415 D, K ==> A, E 20, ,2381 A, D, K ==> E 20, ,2381 D, K ==> E 20, ,2381 J ==> A, C 23, ,8776 A, J ==> C 23, ,8776 J ==> C 23, ,8776 I ==> B 22, ,6842 I ==> B, A 22, ,6842

33 liczba reguł minsup liczba reguł 100% 0 90% 0 80% 0 70% 0 60% 0 50% 2 40% 8 30% 46 20% % Liczba reguł w zależności od parametru minsup minsup [%] Poziom minconf stały i równy 10%

34 liczba reguł minconf liczba reguł 100% % % % % % % % % % Liczba reguł w zależności od parametru minconf minconf [%] Poziom minsup stały i równy 10%

35 liczba reguł minconf minsup 20% 30% 40% 50% 60% 70% 80% 90% 20% % % % % Liczba reguł w zależności od parametrów minsup i minconf minsup[%] minconf[%]

36 1. Agrawal R., Srikant R., Fast Algorithms for Mining Association Rules, IBM Almaden Research Center, San Jose, California Cabena P., Hadjinian P., Stadler R., Verhees J., Zanasi A., Discovering Data Mining: From Concept to Implementation, Prentice Hall, Upper Saddle River, Cichosz P., Metody odkrywania wiedzy: wykład 11 Odkrywanie reguł asocjacyjnych, 4. Hand D., Mannila H., Smyth P., Eksploracja danych, WNT, Warszawa Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning: Data Mining, Inference, and Prediction Springer Larose D.T. Odkrywanie wiedzy z danych. Wprowadzenie do eksploracji danych Wydawnictwo Naukowe PWN, Warszawa Morzy T, Morzy M., Leśniewska A., Kurs eksploracji danych 8. Szymański S., Budziński R., Metody eksploracji reguł asocjacyjnych i ich zastosowanie, w: Acta Universitatis Lodziensis. Folia Oeconomica. - [Z.] 183 (2004)

37