Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu

Data Mining Wykład 3 Algorytmy odkrywania binarnych reguł asocjacyjnych Plan wykładu Algorytm Apriori Funkcja apriori_gen(ck) Generacja zbiorów kandydujących Generacja reguł Efektywności działania Własności algorytmu Przykład Założenia: Założenia Algorytmu Apriori Zakładamy, że wszystkie transakcje są wewnętrznie uporządkowane (np. leksykograficznie)) L k oznacza kolekcje zbiorów częstych o rozmiarze k, nazywanych częstymi zbiorami k-elementowymi C k oznacza kolekcje zbiorów kandydujących o rozmiarze k, nazywanych kandydującymi zbiorami k-elementowymi 1

Algorytm Apriori 1. Wyodrębnij z D wszystkie zbiory jednoelementowe, które występują w transakcjach, i sprawdź, które posiadają wsparcie co najmniej minsup. 2. W oparciu o zbiory częste 1-elementowe, 2-elementowe, algorytm generuje zbiory kandydujące 2-elementowe, 3-elementowe. i oblicza ich wsparcie w bazie danych D. Jeżeli wsparcie wynosi co najmniej minsup, dołącz do listy zbiorów częstych. 3. Działanie algorytmu się kończy, gdy nie można już wygenerować kolejnych zbiorów kandydujących. Wynikiem działania algorytmu jest suma k-elementowych zbiorów częstych (k=1, 2,...). Algorytm Apriori pseudokod L1 = {zbiory czeste 1-elementowe}; for (k=2;lk-1 Ø;k++) do begin Ck = apriori_gen(lk-1); For each transakcji t T do begin Ct = subset(ck,t); For each zbioru kandydujacego c Ct do c.count++; end; Lk = {c Ck c.count minsup} end; Wynik = Lk; Funkcja apriori_gen(ck) Funkcja apriori_gen() jest realizowana w dwóch krokach: 1. Generacji zbiorów kandydujących Ck poprzez łączenie zbiorów częstych (k-1)-elementowych (Lk-1) 2. Usuwania zbiorów kandydujących ze zbioru Ck, których jakikolwiek podzbiór nie jest zbiorem częstym 2

Funkcja apriori_gen(ck) - pseudokod function apriori_gen(ck) insert into Ck select p.item1, p.item2,..., p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p.item1=q.item1,..., p.itemk-2=q.itemk-2, p.itemk-1<q.itemk-1; end; forall itemsets c Ck do forall (k-1)-subsets s of c do if ( s Lk-1 ) then delete c from Ck; Generacja zbiorów kandydujących Dana kolekcja zbiorów częstych k-elementowych - L k. Generacja kolekcji C k+1 przebiega w dwóch krokach: Krok 1 - Połączenie: połącz zbiór L k1 ze zbiorem L k2, z następującym warunkiem połączeniowym - pierwszych k-1 elementów musi być identycznych oraz L k1 [k] < L k2 [k] (L ki [k] oznacza k-ty element zbioru L ki ) Krok 2 - Odcięcie: usuń wszystkie zbiory kandydujące, które posiadają nieczęste podzbiory Generacja zbiorów kandydujących - przykład Dana kolekcja L 2 łączenie L2 1 3 2 2 3 3 2 5 3 3 5 1 3 7 3 C3 po kroku łączenia 2 3 5 3 5 7 odcięcie C3 po kroku łączenia 2 3 5 3

Przykład 1 (1) TR ID Produkty 100 1,3,4 200 2,3,5 300 1,2,3,5 400 2,5 Załóżmy minsup = 50% (2 transakcje) W podanych poniżej tabelach wsparcie zbioru jest liczone, dla uproszczenia, w transakcjach Krok 1: C1 L1 1 2 1 2 2 3 2 3 3 3 3 3 4 1 5 3 5 3 Przykład 1 (2) Krok 2: C2 L2 1 2 1 1 3 2 1 5 1 2 3 2 2 5 3 3 5 2 1 3 2 2 3 2 2 5 3 3 5 2 Krok 3: By stworzyć C3 bierzemy tylko zbiory które maja taki sam pierwszy element (patrz alg: where p.item1=q.item1,..., p.itemk-2=q.itemk-2, p.itemk-1<q.itemk-1;) C3 L3 2 3 5 2 2 3 5 2 Krok 4: C4 = Ø L4 = Ø Generacja reguł L3 2 3 5 2 2 3 -> 5 wsparcie = 2 ufność = 100% 2 5 -> 3 wsparcie = 2 ufność = 66% 3 5 -> 2 wsparcie = 2 ufność = 100% 2 -> 3 5 wsparcie = 2 ufność = 66% 3 -> 2 5 wsparcie = 2 ufność = 66% 5 -> 2 3 wsparcie = 2 ufność = 66% 4

Efektywności działania Podstawowe znaczenie dla efektywności działania algorytmu Apriori ma rozwiązanie dwóch problemów szczegółowych: jak zapewnić efektywność procedury generowania zbiorów kandydujących, jak zapewnić efektywność procedury obliczania wsparcia dla tych zbiorów. Pierwszy z wymienionych problemów dotyczy efektywności funkcji apriori_gen(). Efektywności generowania zbiorów kandydujących Złożoność pierwszego kroku funkcji apriori_gen(), dla i-tej iteracji, w najgorszym przypadku, jest rzędu O( Li 2 ). Wynika ona z konieczności znalezienia wszystkich par zbiorów (ci, cj) należących do Lk-1, takich, ż ich suma daje zbiór o rozmiarze i. Krok drugi funkcji apriori_gen() wymaga sprawdzenia Li zbiorów. Stad, złożoność obliczeniowa funkcji apriori_gen() jest rzędu O(Si Li 3 ) Wynika ona z konieczności sprawdzenia, czy utworzony zbiór jest rzeczywiście zbiorem kandydującym, to znaczy, wymaga sprawdzenia, czy każdy podzbiór tego zbioru jest zbiorem częstym. W praktyce, niewiele zbiorów częstych posiada k-1 wspólnych elementów, wiec rzadko mamy najgorszy przypadek. Złożoność obliczeniowa funkcji apriori_gen jest niezależna od liczby transakcji n. Wynika to z faktu, że generowanie zbiorów kandydujących nie wymaga dostępu do bazy danych, lecz wykorzystuje do tego celu odkryte wcześniej zbiory czeste. Efektywność procedury obliczania wsparcia Drugi ze wspomnianych problemów dotyczy efektywności procedury obliczania wsparcia dla wygenerowanych przez funkcje apriori_gen zbiorów kandydujących. Załóżmy, że dany jest zbiór zbiorów kandydujących Ci, o rozmiarze i. Obliczenie wsparcia zbiorów kandydujących ze zbioru Ci wymaga tylko jednokrotnego odczytu bazy danych D tworząc dla każdego zbioru c licznik, c.count, który będzie zliczał liczbę transakcji wspierających zbiór c. Złożoność obliczeniowa przedstawionej procedury obliczania wsparcia dla zbioru Ci jest rzędu: O( Ci nq), gdzie n oznacza liczba transakcji w bazie danych D, natomiast q oznacza maksymalny rozmiar transakcji należącej do D. Algorytm Apriori wymaga k lub k+1 odczytów bazy danych D, gdzie k oznacza maksymalny rozmiar zbioru częstego. 5

Własności algorytmu Własność monotoniczności: wszystkie podzbiory zbioru częstego musza być czeste, innymi słowy, jeżeli B jest zbiorem częstym i A B, to A jest równie zbiorem częstym Wniosek: jeżeli zbiór B nie jest zbiorem częstym, to żaden nadzbiór A zbioru B, B A, nie będzie zbiorem częstym Idea algorytmu Krok połączenia jest równoważny dodaniu do każdego zbioru częstego należącego do Lk, kolejno, każdego elementu z bazy danych, a następnie, usunięciu tych zbiorów kandydujących Ck+1, dla których podzbiór (C[2], C[3],...,C[k+1]) nie jest częsty. Przykład 2 (1) Dana jest baza danych postaci: TR ID Produkt 1 chleb, mleko 2 cukier, mleko, piwo 3 chleb 4 chleb, mleko, piwo 5 Chleb, mleko, piwo Załóżmy następujące wartości minsup i minconf: minsup = 30% minconf = 70% 6

Przykład 2 (2) C1 Zb.kandydujacy id (%) L1 Zb.częsty id (%) chleb 1 60 chleb 1 60 mleko 2 80 mleko 2 80 piwo 3 60 piwo 3 60 cukier 4 40 cukier 4 40 C2 Zb.kandydujacy (%) 1 2 40 1 3 20 1 4 0 2 3 60 2 4 40 3 4 40 L2 Zb.częsty (%) 1 2 40 2 3 60 2 4 40 3 4 40 Przykład 2 (3) C3 Zb.kandydujacy (%) L3 Zb.częsty (%) 2 3 4 40 1 2 40 C4 = Ø L4 = Ø To jest koniec pierwszego etapu generowania zbiorów częstych Przykład 2 generacja reguł (1) Zb.cz sup reguła conf 1 0.40 piwo cukier 0.67 1 0.40 cukier piwo 1.00 2 0.60 piwo mleko 1.00 2 0.60 mleko piwo 0.75 3 0.40 cukier mleko 1.00 3 0.40 mleko cukier 0.50 4 0.40 mleko chleb 0.50 4 0.40 chleb mleko 0.67 5 0.40 piwo cukier mleko 1.00 5 0.40 piwo mleko cukier 0.67 5 0.40 cukier mleko piwo 1.00 5 0.40 piwo cukier mleko 0.67 5 0.40 cukier piwo mleko 1.00 5 0.40 mleko piwo cukier 0.50 7

Przykład 2 generacja reguł (2) Tylko kilka ze znalezionych reguł spełnia warunek minimalnej ufności. Stad, ostateczny wynik działania algorytmu Apriori jest następujący: Zb.cz. sup reguła conf 1 0.40 cukier piwo 1.00 2 0.60 piwo mleko 1.00 2 0.60 mleko piwo 0.75 3 0.40 cukier mleko 1.00 5 0.40 piwo cukier mleko 1.00 5 0.40 cukier mleko piwo 1.00 5 0.40 cukier piwo mleko 1.00 Podsumowanie Algorytm Apriori Funkcja apriori_gen(ck) Generacja zbiorów kandydujących Generacja reguł Efektywności działania Własności algorytmu Przykład 8