Odkrywanie asocjacji

Podobne dokumenty
Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Metody eksploracji danych. Reguły asocjacyjne

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Wielopoziomowe i wielowymiarowe reguły asocjacyjne

Odkrywanie reguł asocjacyjnych. Rapid Miner

Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu

Odkrywanie asocjacji. Cel. Geneza problemu analiza koszyka zakupów

Odkrywanie asocjacji

Algorytmy odkrywania binarnych reguł asocjacyjnych

Ewelina Dziura Krzysztof Maryański

Systemy Wspomagania Decyzji

Eksploracja danych - wykład VIII

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Inżynieria biomedyczna

Analiza i eksploracja danych

Reguły asocjacyjne, wykł. 11

1. Odkrywanie asocjacji

Reguły asocjacyjne. Żródło: LaroseD.T., Discovering Knowledge in Data. An Introduction to Data Minig, John Wiley& Sons, Hoboken, New Jersey, 2005.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Inżynieria Wiedzy i Systemy Ekspertowe. Reguły asocjacyjne

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

Algorytm DIC. Dynamic Itemset Counting. Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek

Odkrywanie wzorców sekwencji

Reguły asocjacyjne. 1. Uruchom system weka i wybierz aplikację Knowledge Flow.

data mining machine learning data science

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Bazy danych. Plan wykładu. Zależności funkcyjne. Wykład 2: Relacyjny model danych - zależności funkcyjne. Podstawy SQL.

ZADANIA ZAMKNIETE W zadaniach 1-25 wybierz i zaznacz na karcie odpowiedzi poprawna

1. Które składowe klasa posiada zawsze, niezależnie od tego czy je zdefiniujemy, czy nie?

Odkrywanie wzorców sekwencji

Ćwiczenie 5. Metody eksploracji danych

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Odkrywanie reguł asocjacyjnych

Zależności funkcyjne

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Analiza asocjacji i reguły asocjacyjne w badaniu wyborów zajęć dydaktycznych dokonywanych przez studentów. Zastosowanie algorytmu Apriori

REGU LY ASOCJACYJNE. Nguyen Hung Son. 25 lutego i 04 marca Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski.

PRÓBNY EGZAMIN MATURALNY

Reguły asocjacyjne w programie RapidMiner Michał Bereta

Podstawy nauk przyrodniczych Matematyka Zbiory

Teoretyczne podstawy informatyki

WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY PRZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH

Reguły asocjacyjne, algorytm Apriori

Indukowane Reguły Decyzyjne I. Wykład 3

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

REGU LY ASOCJACYJNE. Nguyen Hung Son. Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski. 28.II i 6.III, 2008

Geometria analityczna

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Hurtownie danych. Analiza zachowań użytkownika w Internecie. Ewa Kowalczuk, Piotr Śniegowski. Informatyka Wydział Informatyki Politechnika Poznańska

Programowanie dynamiczne i algorytmy zachłanne

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. podstawy

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

10. Kolorowanie wierzchołków grafu

KaŜdemu atrybutowi A przyporządkowana jest dziedzina Dom(A), czyli zbiór dopuszczalnych wartości.

INFORMATYKA GEODEZYJNO- KARTOGRAFICZNA Relacyjny model danych. Relacyjny model danych Struktury danych Operacje Oganiczenia integralnościowe

A,B M! v V ; A + v = B, (1.3) AB = v. (1.4)

Algorytmy optymalizacji zapytań eksploracyjnych z wykorzystaniem materializowanej perspektywy eksploracyjnej

Generowanie zbioru reguł asocjacyjnych i decyzyjnych ze statystycznie reprezentatywnym wsparciem i anty-wsparciem

Jarosław Wróblewski Matematyka Elementarna, zima 2012/13

Zadania przygotowawcze do konkursu o tytuł NAJLEPSZEGO MATEMATYKA KLAS PIERWSZYCH I DRUGICH POWIATU BOCHEŃSKIEGO rok szk. 2017/2018.

Określanie ważności atrybutów. RapidMiner

FUNKCJE. (odwzorowania) Funkcje 1

Bukiety matematyczne dla szkoły podstawowej

Ćwiczenia z Zaawansowanych Systemów Baz Danych

Metody Inżynierii Wiedzy

- Dla danego zbioru S zbiór wszystkich jego podzbiorów oznaczany symbolem 2 S.

1 Działania na zbiorach

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Metody Rozmyte i Algorytmy Ewolucyjne

RACHUNEK ZBIORÓW 5 RELACJE

Plan wykładu. Reguły asocjacyjne. Przykłady asocjacji. Reguły asocjacyjne. Jeli warunki to efekty. warunki efekty

Wyszukiwanie reguł asocjacji i ich zastosowanie w internecie

Przykładowe rozwiązania

Pojęcie zależności funkcyjnej

1.1 Definicja. 1.2 Przykład. 1.3 Definicja. Niech G oznacza dowolny, niepusty zbiór.

ZADANIA ZAMKNIETE W zadaniach 1-25 wybierz i zaznacz na karcie odpowiedzi poprawna

Transformacja modelu ER do modelu relacyjnego

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

Jarosław Wróblewski Matematyka Elementarna, zima 2013/14. Czwartek 21 listopada zaczynamy od omówienia zadań z kolokwium nr 2.

Elementy cyfrowe i układy logiczne

Lista zadania nr 7 Metody probabilistyczne i statystyka studia I stopnia informatyka (rok 2) Wydziału Ekonomiczno-Informatycznego Filia UwB w Wilnie

Przykładowy zestaw zadań nr 2 z matematyki Odpowiedzi i schemat punktowania poziom rozszerzony

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Materiał ćwiczeniowy z matematyki Poziom podstawowy Styczeń Klucz odpowiedzi do zadań zamkniętych oraz schemat oceniania

RACHUNEK PRAWDOPODOBIEŃSTWA WYKŁAD 1. L. Kowalski, Statystyka, 2005

Lokalna odwracalność odwzorowań, odwzorowania uwikłane

WYPEŁNIA KOMISJA KONKURSOWA

5. Algebra działania, grupy, grupy permutacji, pierścienie, ciała, pierścień wielomianów.

VIII Olimpiada Matematyczna Gimnazjalistów

Obóz Naukowy Olimpiady Matematycznej Gimnazjalistów


0 + 0 = 0, = 1, = 1, = 0.

Technologie baz danych

PRÓBNY EGZAMIN MATURALNY Z MATEMATYKI

Algorytmy klasyfikacji

Estymacja przedziałowa - przedziały ufności dla średnich. Wrocław, 5 grudnia 2014

Transkrypt:

Odkrywanie asocjacji

Cel odkrywania asocjacji Znalezienie interesujących zależności lub korelacji, tzw. asocjacji Analiza dużych zbiorów danych Wynik procesu: zbiór reguł asocjacyjnych Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 39/633

Geneza problemu - MBA TS ID_KLIENTA Koszyk 12:57 1123 {mleko, pieluszki, piwo} 13:12 1412 {mleko, piwo, bułki, masło}... Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 40/633

Tablica obserwacji Atrybuty A={A1,A2,,An}, np. lista towarów Obserwacje T={T1,T2,,Tm}, np. koszyki 0/1 Czy dany towar jest w danym koszyku Tr_id A1 A2 A3 An T1 1 0 0 1 T2 1 1 1 1 T3 1 0 1 0 T4 0 0 1 1 T5 0 1 1 1 Tm 1 1 1 0 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 41/633

Reguły asocjacyjne Postać: nazywamy poprzednikiem reguły nazywamy następnikiem reguły Poprzednik i następnik to koniunkcje warunków Ai=1 1 1 1 1 1 Cała reguła: 1 1 1 1 1 Interpretacja: Jeżeli klient kupił Ax, Ay i Az, to prawdopodobnie kupi też Ak i Al. Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 42/633

Reguły asocjacyjne Regułę 1 1 1 1 1 Można zapisać bardziej zwięźle:,,, Miary oceny reguł asocjacyjnych Wsparcie (ang. support) - sup Ufność (ang. confidence) - conf Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 43/633

Wsparcie sup 2 4 50% Tr_id Koszyk 1 2 3 2 4 4 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 44/633

Wsparcie reguły Stosunek liczby obserwacji spełniających warunek: do liczby wszystkich obserwacji Oszacowanie prawdopodobieństwa zajścia zdarzenia p. Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 45/633

Ufność conf 2 3 66, 6% Tr_id Koszyk 1 2 3 2 3 4 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 46/633

Ufność reguły Stosunek liczby obserwacji spełniających warunek: do liczby obserwacji spełniających warunek. Oszacowanie prawdopodobieństwa warunkowego zajścia pod warunkiem zajścia - p Ufność można również obliczyć ze wzoru: sup!"#$ sup Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 47/633

Binarne reguły asocjacyjne Silna reguła asocjacyjna: Jej wsparcie jest większe niż próg minsup Jej ufność jest większa niż próg minconf Progi te są zadawane przez użytkownika Odkrywanie reguł asocjacyjnych: Wejście: baza danych, minsup, minconf Wynik: zbiór silnych reguł asocjacyjnych Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 48/633

Przykład Tr_id 1 Koszyk %&#'() 0.4 %&#!"#$ 0.6 2 3 4 5 Reguła sup conf piwo orzeszki 0,6 1 orzeszki piwo 0,6 0,75 piwo ^ pieluszki orzeszki 0,4 1 pieluszki ^ orzeszki piwo 0,4 1 pieluszki piwo ^ orzeszki 0,4 1 pieluszki piwo 0,4 1 pieluszki orzeszki 0,4 1 piwo ^ orzeszki pieluszki 0,4 0,67 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 49/633

Naiwny algorytm Dane: I zbiór wszystkich elementów (towarów), minsup, minconf. 1. Wygeneruj wszystkie podzbiory zbioru I. Oblicz wsparcie każdego podzbioru. 2. Pozostaw tylko podzbiory o wsparciu>minsup. Są to tzw. zbiory częste. 3. Z każdego pozostawionego podzbioru utwórz wszystkie możliwe reguły asocjacyjne. Oblicz ufność każdej reguły. 4. Pozostaw tylko reguły o ufności>minconf. Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 50/633

Naiwny algorytm Dlaczego jest do niczego? Liczba podzbiorów zbioru I: # 2 +, 1 W praktyce I. 200000, czyli # 2 /00000, 1 Liczba atomów w ciele człowieka: 7 2 30 Liczba atomów w kuli ziemskiej: 1.3 2 455 Liczba atomów we wszechświecie: 2 /55 Szukanie zbiorów częstych jest zatem bardzo wolne. Algorytm APRIORI Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 51/633

Własność monotoniczności Niech będzie dany zbiór elementów I oraz jego zbiór potęgowy J = 2 L. Mówimy, ze miara f jest monotoniczna na zbiorze J, jeżeli: 7, 8 :: 7 8 $ 7 = $8 Własność monotoniczności miary f oznacza, ze jeżeli X jest podzbiorem zbioru Y, to wartość miary f (X) nie może być większa od f (Y) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 52/633

Własność antymonotoniczności Niech będzie dany zbiór elementów I oraz jego zbiór potęgowy J = 2 L. Mówimy, ze miara f jest antymonotoniczna na zbiorze J, jeżeli: 7, 8 :: 7 8 $ 7 > $8 Własność antymonotoniczności miary f oznacza, ze jeżeli X jest podzbiorem zbioru Y, to wartość miary f (Y) nie może być większa od f (X) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 53/633

Antymonotoniczność miary wsparcia Własność antymonotoniczności - wszystkie podzbiory zbioru częstego muszą być częste, innymi słowy, jeżeli Y jest zbiorem częstym i 7 8, to X jest również zbiorem częstym Wniosek: jeżeli zbiór X nie jest zbiorem częstym, to żaden nadzbiór Y zbioru X, 7 8, nie będzie zbiorem częstym Nie musimy rozważać wsparcia zbioru X, którego jakikolwiek podzbiór nie jest zbiorem częstym Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 54/633

Algorytm APRIORI Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 55/633

Algorytm APRIORI Częsty zbiór Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 56/633

Algorytm APRIORI Częsty zbiór Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 57/633

Algorytm APRIORI Częsty zbiór Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 58/633

Algorytm APRIORI Zbiór nie częsty Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 59/633

Algorytm APRIORI Zbiór nie częsty Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 60/633

Algorytm APRIORI Zbiór nie częsty Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 61/633

Oznaczenia Poszczególne towary oznaczmy przez litery Zakładamy, że zbiory są posortowane, np.: T1, @, A Przez B C oznaczamy kolekcję zbiorów częstych o rozmiarze. Przez @ C oznaczamy kolekcję zbiorów o rozmiarze. Są to tzw. zbiory kandydujące. Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 62/633

Schemat algorytmu Znajdź kolekcję zbiorów częstych L1. Na podstawie L1 wygeneruj zbiór kandydatów C2. Oblicz wsparcie kandydatów ze zbioru C2. Usuń kandydatów, których wsparcie<minsup. W ten sposób powstaje kolekcja L2. Na podstawie L2, wygeneruj zbiór kandydatów C3. Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 63/633

Generowanie kandydatow (1) L1 A B C C2 AB AC BC L3 ABC ABD C4 ABCD ABCE L2 AB AC AD BC BD C3 ABC ABD ACD BCD ABE ABF BCD BDE ABCF ABDE ABDF ABCF Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 64/633

Generowanie kandydatow (2) Każdy podzbior musi być częsty! L3 ABC ABD ABE ABF BCD BDE ABCD ABC ABD BCD Podzbiory 3-elementowe Czy należy sprawdzać 2 elementowe podzbiory? Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 65/633

Przykład (1/3) Tr_id Koszyk %&#'() 0.4 1 2 A B C D 3 4 5 Tr_id 1 AB 2 ACD 3 B 4 ABC 5 ACD Koszyk Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 66/633

Przykład (2/3) Tr_id 1 AB 2 ACD 3 B 4 ABC 5 ACD Kandydaci: Koszyk %&#'() 0.4 sup 0.8 sup D 0.6 sup @ 0.4 sup A 0.4 Kandydat Wsparcie Kandydat Wsparcie Kandydat Wsparcie AB 0.4 AC 0.4 BC 0.2 AD 0.4 BD 0 CD 0.4 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 67/633

Przykład (3/3) Tr_id 1 AB 2 ACD 3 B 4 ABC 5 ACD Kandydaci: Koszyk %&#'() 0.4 sup D 0.4 sup @ 0.4 sup A 0.4 sup @A 0.4 Kandydat Wsparcie ABC Nie wszystkie podzbiory są częste ABD Nie wszystkie podzbiory są częste ACD 0.4 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 68/633

Przykład - podsumowanie Tr_id 1 AB 2 ACD 3 B 4 ABC 5 ACD Koszyk Zbiór częsty Wsparcie A 0.8 B 0.6 C 0.4 D 0.4 AB 0.4 AC 0.4 AD 0.4 CD 0.4 ACD 0.4 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 69/633

Wyszukiwanie reguł Reguły powstają ze zbiorów częstych Miarą oceny reguły jest miara confidence sup!"#$ sup Niech F będzie zbiorem częstym i niech F Wówczas regułę można utworzyć następująco: F, Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 70/633

Ufność reguł opartych o jeden zbiór Niech będzie dana reguła F, Taka, że: con$ F, H %&#!"#$ Wówczas dowolna reguła Gdzie: I I F, I Spełnia warunek: con$ I F, I H %&#!"#$ Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 71/633

Eliminacja na kracie Zbiór częsty: ABCD ABC A ABD @ ACD D BCD AB @A A@ DA BC A AA D@ BA @ CD D A D@A B @A C DA D D@ Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 72/633

Eliminacja na kracie Zbiór częsty: ABCD ABC A ABD @ ACD D BCD AB @A A@ DA BC A AA D@ BA @ CD D A D@A B @A C DA D D@ Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 73/633

Eliminacja na kracie Zbiór częsty: ABCD ABC A ABD @ ACD D BCD AB @A A@ DA BC A AA D@ BA @ CD D A D@A B @A C DA D D@ Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 74/633

Eliminacja na kracie Zbiór częsty: ABCD ABC A ABD @ ACD D BCD AB @A A@ DA BC A AA D@ BA @ CD D A D@A B @A C DA D D@ Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 75/633

Przykład (1/3) Zbiór częsty Wsparcie A 0.8 B 0.6 C 0.4 D 0.4 AB 0.4 AC 0.4 AD 0.4 CD 0.4 ACD 0.4 AC A %&#!"#$ 0.6 Zbiór częsty: ACD conf AC A conf AA @ conf CD AA @ CD sup @A sup @ 0.4 0.4 1 sup @A sup A 0.4 0.4 1 sup @A sup @A 0.4 0.4 1 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 76/633

Przykład (2/3) Zbiór częsty Wsparcie A 0.8 B 0.6 C 0.4 D 0.4 AB 0.4 AC 0.4 AD 0.4 CD 0.4 ACD 0.4 AC A A @A %&#!"#$ 0.6 Zbiór częsty: ACD conf A @A conf C A conf D @ AA @ C A sup @A sup sup @A sup @ sup @A sup A CD D @ 0.4 0.8 0.5 0.4 0.4 1 0.4 0.4 1 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 77/633

Przykład (3/3) Zbiór częsty Wsparcie A 0.8 B 0.6 C 0.4 D 0.4 AB 0.4 AC 0.4 AD 0.4 CD 0.4 ACD 0.4 A D %&#!"#$ 0.6 Zbiór częsty: AB conf A D conf B D sup D sup 0.4 0.8 0.5 sup D sup D 0.4 0.6 0.66 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 78/633

Wielowymiarowe reguły asocjacyjne Regułę asocjacyjną nazywamy wielowymiarową, jeżeli dane występujące w regule reprezentują różne dziedziny wartości (różne wymiary analizy) Reguły wielowymiarowe określają współwystępowanie wartości danych ciągłych i/lub kategorycznych Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 79/633

Przykład tid wiek dochód stan-cywilny płeć partia 100 44 30 000 żonaty męska A 200 55 45 000 żonaty męska A 300 45 50 000 panna żeńska A 400 34 44 000 panna żeńska B 500 45 38 000 żonaty męska A 600 32 43 000 kawaler męska B 700 32 41 000 kawaler męska B 800 33 44 000 panna żeńska A <wiek: 44..55> <Stan-cywilny: żonaty> <Partia: A> (sup = 37,5%, conf = 100%) <Stan-cywilny: panna> <Partia: A> (sup = 25%, conf = 66,6%) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 80/633

Binaryzacja danych Zamiana atrybutu na zbiór atrybutów binarnych Atrybuty ciągłe (2 etapy) Dyskretyzacja, np.: wiek [20-29][30-39] Zamiana na zbiór atrybutów binarnych: Wiek20-29: 0/1, Wiek30-39: 0/1. Atrybuty porządkowe i kategoryczne Każda wartość to osobny atrybut: np.: kolor (red, green,blue) kolorred: 0/1, kolorgreen: 0/1, kolorblue: 0/1 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 81/633

Algorytm 1. Transformuj każdy atrybut na postać binarną 2. Nadaj identyfikator (np. numer) każdemu atrybutowi binarnemu 3. Z każdego rekordu utwórz zbiór zawierający identyfikatory dla których rekord zawiera 1. 4. Odkryj reguły asocjacyjne 5. Zastąp identyfikatory w regułach definicjami atrybutów Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 82/633

Przykład (1/4) tid wiek dochód stan-cywilny płeć partia 100 44 30 000 żonaty męska A 200 55 45 000 żonaty męska A 300 45 50 000 panna żeńska A 400 34 44 000 panna żeńska B 500 45 38 000 żonaty męska A 600 32 43 000 kawaler męska B 700 32 41 000 kawaler męska B 800 33 44 000 panna żeńska A Dziedzinę atrybutu wiek dzielimy na dwa przedziały: wiek [30,44] oraz wiek [45,59] Dziedzinę atrybutu dochód dzielimy na dwa przedziały: dochód [30K,39K] oraz dochód [40K,49K] Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 83/633

Przykład (2/4) 1 2 3 4 5 6 7 8 tid wiek wiek dochód dochód płeć płeć partia partia [30,44] [45,59] [30K,39K] [40K,49K] żeńska męska A B 100 1 0 1 0 0 1 1 0 200 0 1 0 1 0 1 0 1 300 0 1 1 0 0 1 1 0 {1,3,6,7} 400 1 0 0 1 1 0 0 1 500 0 1 1 0 0 1 1 0 600 1 0 0 1 1 0 0 1 700 0 1 1 0 1 0 0 1 800 1 0 0 1 1 0 1 0 1 2 3 4 5 6 7 8 Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 84/633

Przykład (3/4) tid transakcja 100 1, 3, 6, 7 200 2, 4, 6, 8 300 2, 3, 6, 7 400 1, 4, 5, 8 500 2, 3, 6, 7 600 1, 4, 5, 8 700 2, 3, 5, 8 800 1, 4, 5, 7 Otrzymane reguły: Reguła Wsparcie Ufność 1 ^ 4 5 sup= 37,5% Conf=100% 1 ^ 5 4 sup= 37,5% Conf=100% 4 ^ 5 1 sup= 37,5% Conf=100% 3 ^ 6 7 sup= 37,5% Conf=100% 3 ^ 7 6 sup= 37,5% Conf=100% 6 ^ 7 3 sup= 37,5% Conf=100% Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 85/633

Przykład (4/4) 1 ^ 4 5 1 2 3 4 5 6 7 8 tid wiek wiek dochód dochód płeć płeć partia partia [30,44] [45,59] [30K,39K] [40K,49K] żeńska męska A B 100 1 0 1 0 0 1 1 0 wiek [30,44]^dochód [40K,49K] płeć=żeńska Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 86/633

Dyskretyzacja atrybutów ilościowych Dyskretyzacja może mieć charakter statyczny lub dynamiczny Dyskretyzacja statyczna np. dyskretyzacja atrybutu na przedziały o równej szerokości lub gęstości Dyskretyzacja dynamiczna w oparciu o rozkład wartości atrybutu w oparciu o odległości pomiędzy wartościami atrybutu w oparciu o wartości innego atrybutu Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 87/633

Dyskretyzacja atrybutów ilościowych Przedziały o równej szerokości rozmiar każdego przedziału jest identyczny (np. przedziały 10K dla atrybutu zarobek ) Przedziały o równej gęstości każdy przedział posiada zbliżoną (równą) liczbę rekordów przypisanych do przedziału Dyskretyzacja poprzez grupowanie (ang. cluster-based) przedziały odpowiadają skupieniom wartości dyskretyzowanego atrybutu Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 88/633

Wielopoziomowe reguły asocjacyjne Czy reguły: {sobieski, żubr} {panadol} {żytnia, lech} {apap} to to samo czy nie? Wsparcie konkretnego produktu może być zbyt niskie aby odkryć regułę, ale wsparcie rodzaju produktu już może być wystarczające Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 89/633

Wielopoziomowe reguły asocjacyjne Aby rozwiązać problem należy rozbudować algorytm o obsługę hierarchii np.: Towar Pieczywo Piwo Środek przeciwbólowy Chleb żytni Chleb Pszenny Lech Żubr Apap Panadol Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 90/633

Algorytm 1. Uzupełnij każdy zbiór w bazie o poprzedników w hierarchii każdego towaru w zbiorze 2. Odkryj zbiory częste i reguły asocjacyjne standardowym algorytmem 3. Usuń trywialne reguły (wynikające z hierarchii, np. Apap środek przeciwbólowy) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 91/633

Problem oceny reguł asocjacyjnych Reguły o dużym wsparciu niekoniecznie muszą być interesujące Reguły o wysokim współczynniku ufności, najczęściej, są dobrze znane użytkownikom Tylko użytkownik potrafi ocenić na ile znaleziona reguła jest interesująca Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 92/633

Problem oceny reguł asocjacyjnych Miary wsparcia i ufności są niewystarczające do oceny atrakcyjności reguły asocjacyjnej, gdyż: nie uwzględniają aspektu korelacji pomiędzy poprzednikiem i następnikiem reguły asocjacyjnej i tym samym nie dają użytkownikom możliwości rozróżnienia pomiędzy silnymi pozytywnymi regułami asocjacyjnymi pozytywnie i negatywnie skorelowanymi eliminują możliwość znalezienia interesujących reguł asocjacyjnych o niewielkim wsparciu Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 93/633

Przykład Wynik badań preferencji klientów kafejki: kawa nie-kawa suma herbata 20 5 25 nie-herbata 70 5 75 suma 90 10 100 Reguła asocjacyjna herbata kawa Sup=20/100=20% Conf=20/25=80% Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 94/633

Przykład Kto lubi herbatę, najczęściej, lubi również kawę Reguła o dużym wsparciu i wysokiej ufności 90% ankietowanych lubi kawę!!! Skąd różnica w wartości wsparcia? Ludzie, którzy lubią herbatę najczęściej nie lubią kawy Istnieje negatywna korelacja pomiędzy preferencją lubię herbatę i lubię kawę nie-herbata kawa (sup = 70%, conf = 70/75=93% ) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 95/633