Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Podobne dokumenty
Odkrywanie asocjacji

Metody eksploracji danych. Reguły asocjacyjne

Ewelina Dziura Krzysztof Maryański

Odkrywanie asocjacji. Cel. Geneza problemu analiza koszyka zakupów

Odkrywanie asocjacji

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu

Wielopoziomowe i wielowymiarowe reguły asocjacyjne

Eksploracja danych - wykład VIII

Systemy Wspomagania Decyzji

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Algorytmy odkrywania binarnych reguł asocjacyjnych

Odkrywanie reguł asocjacyjnych. Rapid Miner

Analiza i eksploracja danych

Inżynieria biomedyczna

Inżynieria Wiedzy i Systemy Ekspertowe. Reguły asocjacyjne


1. Odkrywanie asocjacji

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

Reguły asocjacyjne, wykł. 11

Ćwiczenie 5. Metody eksploracji danych

data mining machine learning data science

Reguły asocjacyjne. Żródło: LaroseD.T., Discovering Knowledge in Data. An Introduction to Data Minig, John Wiley& Sons, Hoboken, New Jersey, 2005.

Reguły asocjacyjne w programie RapidMiner Michał Bereta

Reguły asocjacyjne. 1. Uruchom system weka i wybierz aplikację Knowledge Flow.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Odkrywanie wzorców sekwencji

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Indukowane Reguły Decyzyjne I. Wykład 3

Plan wykładu. Reguły asocjacyjne. Przykłady asocjacji. Reguły asocjacyjne. Jeli warunki to efekty. warunki efekty

Grzegorz Harańczyk, StatSoft Polska Sp. z o.o.

6. Zagadnienie parkowania ciężarówki.

Sztuczna Inteligencja Projekt

Modelowanie wzorców zachowań klientów Delikatesów Alma przy wykorzystaniu reguł asocjacyjnych

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Odkrywanie reguł asocjacyjnych

Ćwiczenia z Zaawansowanych Systemów Baz Danych

Analiza danych i data mining.

Algorytmy optymalizacji zapytań eksploracyjnych z wykorzystaniem materializowanej perspektywy eksploracyjnej

Generowanie zbioru reguł asocjacyjnych i decyzyjnych ze statystycznie reprezentatywnym wsparciem i anty-wsparciem

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Data Mining Kopalnie Wiedzy

7. Zagadnienie parkowania ciężarówki.

Mail: Pokój 214, II piętro

INFORMATYKA GEODEZYJNO- KARTOGRAFICZNA. Modelowanie danych. Model związków-encji

Systemy informatyczne. Modelowanie danych systemów informatycznych

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Wstęp do Programowania potok funkcyjny

Klasyfikacja metodą Bayesa

PODSTAWY BAZ DANYCH. 5. Modelowanie danych. 2009/ Notatki do wykładu "Podstawy baz danych"

Eksploracja danych - wykład II

EKSPLORACJA DANYCH METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Reguły asocjacyjne na giełdzie

Wnioskowanie z wiedzy niepełnej

Odkrywanie wzorców sekwencyjnych z zachowaniem prywatności

1 Wstęp do modelu relacyjnego

Systemy uczące się wykład 2

Agnieszka Nowak Brzezińska Wykład III

Podstawowe modele probabilistyczne

Odkrywanie wzorców sekwencji

Baza danych. Modele danych

Analiza asocjacji i reguły asocjacyjne w badaniu wyborów zajęć dydaktycznych dokonywanych przez studentów. Zastosowanie algorytmu Apriori

Agnieszka Nowak Brzezińska Wykład III

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Relacyjny model baz danych, model związków encji, normalizacje

Wprowadzenie do technologii informacyjnej.

Statystyka Matematyczna Anna Janicka

INFORMATYKA W SZKOLE. Podyplomowe Studia Pedagogiczne. Dr inż. Grażyna KRUPIŃSKA. D-10 pokój 227

Machine Learning. KISIM, WIMiIP, AGH

Wyszukiwanie reguł asocjacji i ich zastosowanie w internecie

Mikołaj Morzy, Marek Wojciechowski: "Integracja technik eksploracji danych z systemem zarządzania bazą danych na przykładzie Oracle9i Data Mining"

Laboratorium 3. Odkrywanie reguł asocjacyjnych.

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

PRZYKŁAD BADANIA WZORCÓW ZACHOWAŃ KLIENTÓW ZA POMOCĄ ANALIZY KOSZYKOWEJ

Elementy logiki. Wojciech Buszkowski Wydział Matematyki i Informatyki UAM Zakład Teorii Obliczeń

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Odkrywanie wiedzy z danych przy użyciu zbiorów przybliżonych. Wykład 3

Proces odkrywania wiedzy z baz danych

1 Projektowanie systemu informatycznego

Algorytm DIC. Dynamic Itemset Counting. Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek

ECDL Podstawy programowania Sylabus - wersja 1.0

15. Funkcje i procedury składowane PL/SQL

Wykład 2. Relacyjny model danych

Transformacja modelu ER do modelu relacyjnego

Model relacyjny bazy danych

Implementacja metod eksploracji danych - Oracle Data Mining

Diagramy związków encji. Laboratorium. Akademia Morska w Gdyni

2.1 Przykład wstępny Określenie i konstrukcja Model dwupunktowy Model gaussowski... 7

Zasada rozszerzania. A U A jest zbiorem rozmytym, B jest obrazem zbioru A Przeniesienie rozmytości A w odwzorowaniu f na zbiór B. sup.

Sortowanie przez scalanie

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

ODKRYWANIE WZORCÓW ZACHOWAŃ KONSUMENTÓW ZA POMOCĄ ANALIZY KOSZYKOWEJ DANYCH TRANSAKCYJNYCH

Świat rzeczywisty i jego model

Sortowanie topologiczne skierowanych grafów acyklicznych

Metody Rozmyte i Algorytmy Ewolucyjne

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

Transkrypt:

Data Mining Wykład 2 Odkrywanie asocjacji Plan wykładu Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych Geneza problemu Geneza problemu odkrywania reguł asocjacyjnych: Dane: Cel: problem analizy koszyka zakupów (MBA Market Basket Analysis) baza danych zawierająca informacje o zakupach realizowanych przez klientów supermarketu znalezienie grup produktów, które klienci supermarketu najczęściej kupują razem 1

Analiza koszyka zakupów Cel analizy MBA: znalezienie naturalnych wzorców zachowań konsumenckich klientów Wykorzystanie wzorców zachowań: organizacji półek w supermarkecie opracowania akcji promocyjnych opracowania katalogu oferowanych produktów Znaleziony wzorzec: Zastosowanie MBA ktoś kto kupuje pieluszki, najczęściej kupuje również piwo Akcja promocyjna: (typowy trick) Ogłoś obniżkę cen pieluszek, jednocześnie podnieś piwa Organizacja sklepu: Staraj się umieszczać produkty kupowane wspólnie w przeciwległych końcach sklepu, zmuszając klientów do przejścia przez cały sklep Model koszyka zakupów Model koszyka zakupów jest pewną abstrakcją umożliwiającą modelowanie relacji wiele-do-wiele pomiędzy encjami produkty i koszyki Produkty * * Koszyki Formalnie, model koszyka zakupów można opisać za pomocą tzw. tablicy obserwacji 2

Tablica obserwacji (1) Dany jest zbiór atrybutów A= {A 1, A 2,..., A n } oraz zbiór obserwacji T = {T 1, T 2,..., T m } TR ID A 1 A 2 A 3 A 4 A 5 T 1 1 0 0 0 1 T 2 1 1 1 1 1 T 3 0 0 1 1 0 T 4 0 1 0 0 0 T 5 1 0 0 1 0 T 6 0 0 1 0 0 T 7 1 1 1 0 0 T 8 1 1 0 0 1 Tablica obserwacji (2) Elementy tablicy obserwacji: Atrybuty tablicy reprezentują wystąpienia encji produkty Wiersze tablicy reprezentują wystąpienia encji koszyki Dodatkowy atrybut TR ID wartościami atrybutu są identyfikatory poszczególnych obserwacji Pozycja T i [A j ] = 1 tablicy wskazuje, że i-ta obserwacja zawiera wystąpienie j-tego atrybutu Tablica obserwacji - przykłady koszyki = studenci, produkty = oferowane wykłady MBA poszukiwanie wykładów, które studenci wybierają najczęściej łącznie koszyki = strony WWW, produkty = słowa kluczowe MBA poszukiwanie stron WWW opisanych tymi samymi, lub podobnymi lub podobnymi, zbiorami słów kluczowych (prawdopodobnie, znalezione strony dotyczą podobnej problematyki) 3

Reguły asocjacyjne (1) Wynikiem analizy koszyka jest zbiór reguł asocjacyjnych postaci następującej relacji: {(A i1 = 1)... (A ik = 1)} {(A ik+1 = 1)... (A ik+l = 1)} Interpretacja reguły: jeżeli klient kupił produkty A i1, A i2,..., A ik, to prawdopodobnie kupił również produkty A ik+1, A ik+2,..., A ik+l Reguły asocjacyjne (2) Regułę asocjacyjną (1) można przedstawić jednoznacznie w równoważnej postaci: θ ϕ: (A i1, A i2,..., A ik ) (A ik+1, A ik+2,..., A ik+l ) Z każdą regułą asocjacyjną θ ϕ związane są dwie podstawowe miary określające statystyczną ważność i siłę reguły: Wsparcie - sup(θ ϕ) Ufność - conf(θ ϕ) Reguły asocjacyjne (3) Statystyczna ważność i siła reguły: Wsparciem (sup) reguły asocjacyjnej θ ϕ nazywać będziemy stosunek liczby obserwacji, które spełniają warunek θ ϕ, do liczby wszystkich obserwacji (wsparcie reguły = prawdopodobieństwu zajścia zdarzenia θ ϕ ) Ufnością (conf) reguły asocjacyjnej θ ϕ nazywać będziemy stosunek liczby obserwacji, które spełniają warunek θ ϕ, do liczby obserwacji, które spełniają warunek θ (ufność reguły = warunkowemu prawdopodobieństwu p(ϕ θ) 4

Klasyfikacja reguł asocjacyjnych Klasyfikacja reguł asocjacyjnych ze względu na: Typ przetwarzanych danych Wymiarowość przetwarzanych danych Stopień abstrakcji przetwarzanych danych Inne typy reguł asocjacyjnych Asocjacje vs. analiza korelacji Wyróżniamy: Typ przetwarzanych danych (1) binarne reguły asocjacyjne - regułę asocjacyjną nazywamy binarną, jeżeli dane występujące w regule są danymi (zmiennymi) binarnymi ilościowe reguły asocjacyjne - regułę asocjacyjną nazywamy ilościową, jeżeli dane występujące w regule są danymi ciągłymi i/lub kategorycznymi Typ przetwarzanych danych (2) Binarna reguła asocjacyjna: pieluszki = 1 piwo =1 reprezentuje współwystępowanie danych Ilościowa reguła asocjacyjna: wiek = 30...40 wykształcenie = wyższe opcja_polityczna = demokrata - reprezentuje współwystępowanie wartości danych 5

Wymiarowość przetwarzanych danych (1) Wyróżniamy: jednowymiarowe reguły asocjacyjne - regułę asocjacyjną nazywamy jednowymiarową, jeżeli dane występujące w regule reprezentują tę samą dziedzinę wartości. wielowymiarowe reguły asocjacyjne - regułę asocjacyjną nazywamy wielowymiarową, jeżeli dane występujące w regule reprezentują różne dziedziny wartości. Typ przetwarzanych danych (2) Jednowymiarowa reguła asocjacyjna: pieluszki = 1 piwo =1 Wielowymiarowa reguła asocjacyjna: wiek = 30...40 wykształcenie = wyższe opcja_polityczna = demokrata Stopień abstrakcji przetwarzanych danych (1) Wyróżniamy: jednopoziomowe reguły asocjacyjne - regułę asocjacyjną nazywamy jednopoziomową, jeżeli dane występujące w regule reprezentują ten sam poziom abstrakcji. Wielopoziomowe reguły asocjacyjne - regułę asocjacyjną nazywamy wielopoziomową, jeżeli dane występujące w regule reprezentują różne poziomy abstrakcji. 6

Stopień abstrakcji przetwarzanych danych (2) Jednopoziomowa reguła asocjacyjna: pieluszki_pampers = 1 piwo_zywiec =1 Wielopoziomowa reguła asocjacyjna: pieluszki_pampers = 1 piwo_zywiec =1 napoje = 1 (produkt napoje reprezentuje pewna abstrakcję, będącą generalizacją określonych produktów) Odkrywanie binarnych reguł asocjacyjnych Dane: I={i 1, i 2,..., i n }: zbiór literałów, nazywanych dalej elementami Transakcja T: zbiór elementów, takich że T I i T Baza danych D: zbiór transakcji Transakcja T wspiera element x I, jeżeli x T Transakcja T wspiera zbiór X I, jeżeli T wspiera każdy element ze zbioru X, X T Reguły asocjacyjne miary (1) Binarna reguła asocjacyjna: Binarną regułą asocjacyjną (krótko, regułą asocjacyjną) nazywamy relację postaci X Y, gdzie X I, Y I, i X Y = Wsparcie (support): Reguła X Y posiada wsparcie sup w bazie danych D, 0 sup 1, jeżeli sup% transakcji w D wspiera zbiór X Y Ufność (confidence): Reguła X Y posiada ufność conf w bazie danych D, 0 conf 1, jeżeli conf% transakcji w D, które wspierają zbiór X, wspierają również Y 7

Reguły asocjacyjne miary (2) wsparcie(x Y): oznacza liczbę transakcji w bazie danych, które potwierdzają daną regułę miara wsparcia jest symetryczna względem zbiorów stanowiących poprzednik i następnik reguły ufność(x Y): oznacza stosunek liczby transakcji zawierających X Y do liczby transakcji zawierających Y miara ta jest asymetryczna względem zbiorów stanowiących poprzednik i następnik reguły Reguły asocjacyjne miary (3) Ograniczenia miar (definiowane przez użytkownika): Minimalne wsparcie minsup Minimalna ufność minconf Mówimy, że reguła asocjacyjna X Y jest silna jeżeli: sup(x Y) minsup i conf(x Y) minconf Dana jest baza danych transakcji Należy znaleźć wszystkie silne binarne reguły asocjacyjne Przykład TR ID Produkty 1 A,B,C 2 A,C 3 A,D 4 B,E,F Zakładając: minsup = 50% oraz minconf = 50% w przedstawionej bazie danych można znaleźć następujące reguły asocjacyjne: A C sup = 50%, conf = 66,6 % C A sup = 50%, conf = 100% 8

Algorytm naiwny 1. Dany jest zbiór elementów I i baza danych D 2. Wygeneruj wszystkie możliwe podzbiory zbioru I i następnie, dla każdego podzbioru oblicz wsparcie tego zbioru w bazie danych D 3. Dla każdego zbioru, którego wsparcie jest większe/równe minsup, wygeneruj regułę asocjacyjną dla każdej otrzymanej reguły oblicz ufność reguły Liczba wszystkich możliwych podzbiorów zbioru I wynosi 2 I - 1 (rozmiar I 200 000 elementów) Ogólny algorytm odkrywania reguł asocjacyjnych (1) Algorytm 1.1: Ogólny algorytm odkrywania reguł asocjacyjnych 1. Znajdź wszystkie zbiory elementów Li={ii1, ii2,..., iim}, Li I, których wsparcie(li) minsup. Zbiory Li nazywać będziemy zbiorami częstymi 2. Korzystając z Algorytmu 1.2 i znalezionej kolekcji zbiorów częstych wygeneruj wszystkie reguły asocjacyjne Ogólny algorytm odkrywania reguł asocjacyjnych (2) Algorytm 1.1: Ogólny algorytm odkrywania reguł asocjacyjnych for each zbioru częstego Li do for each podzbioru subli zbioru Li do if wsparcie(li)/wsparcie(subli) minconf then output reguła subli (Li-subLi) conf(subli (Li-subLi)) = support(li)/support(subli), sup(subli (Li-subLi)) = support(li) 9

Podsumowanie Typy reguł asocjacyjnych Typ przetwarzanych danych Wymiarowość przetwarzanych danych Stopień abstrakcji przetwarzanych danych Proces odkrywania reguł asocjacyjnych Wsparcie - sup(θ ϕ) Ufność - conf(θ ϕ) 10