Metody eksploracji danych. Reguły asocjacyjne

Podobne dokumenty
Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Eksploracja danych - wykład VIII

Reguły asocjacyjne. Żródło: LaroseD.T., Discovering Knowledge in Data. An Introduction to Data Minig, John Wiley& Sons, Hoboken, New Jersey, 2005.

Ćwiczenie 5. Metody eksploracji danych

Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu

Odkrywanie asocjacji

Odkrywanie asocjacji

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Ewelina Dziura Krzysztof Maryański

Systemy Wspomagania Decyzji

Inżynieria Wiedzy i Systemy Ekspertowe. Reguły asocjacyjne

Inżynieria biomedyczna

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Odkrywanie reguł asocjacyjnych. Rapid Miner

Algorytmy odkrywania binarnych reguł asocjacyjnych

1. Odkrywanie asocjacji

Reguły asocjacyjne. 1. Uruchom system weka i wybierz aplikację Knowledge Flow.

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Wielopoziomowe i wielowymiarowe reguły asocjacyjne

Algorytm DIC. Dynamic Itemset Counting. Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek

Reguły asocjacyjne, wykł. 11

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

Analiza i eksploracja danych

Odkrywanie asocjacji. Cel. Geneza problemu analiza koszyka zakupów

data mining machine learning data science

Odkrywanie reguł asocjacyjnych

Odkrywanie wzorców sekwencji

EKSPLORACJA DANYCH METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Reguły asocjacyjne w programie RapidMiner Michał Bereta

Algorytmy optymalizacji zapytań eksploracyjnych z wykorzystaniem materializowanej perspektywy eksploracyjnej

Plan wykładu. Reguły asocjacyjne. Przykłady asocjacji. Reguły asocjacyjne. Jeli warunki to efekty. warunki efekty

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

ANALIZA ZACHOWAŃ UŻYTKOWNIKÓW PORTALU ONET.PL W UJĘCIU REGUŁ ASOCJACYJNYCH

EKSPLORACJA DANYCH METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

A C T A UNIVERSITATIS LODZIENSIS FOLIA OECONOMICA 183,2004. Sebastian Szamański, Ryszard Budziński

Analiza asocjacji i reguły asocjacyjne w badaniu wyborów zajęć dydaktycznych dokonywanych przez studentów. Zastosowanie algorytmu Apriori

Sztuczna Inteligencja Projekt

Indukcja matematyczna, zasada minimum i maksimum. 17 lutego 2017

Odkrywanie wzorców sekwencyjnych z zachowaniem prywatności

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Wnioskowanie z wiedzy niepełnej

Reguły asocjacyjne, algorytm Apriori

Odkrywanie wzorców sekwencji

Reguły asocjacyjne na giełdzie

Matematyka dyskretna. Andrzej Łachwa, UJ, /10

Logika Stosowana. Wykład 10 - Wnioskowanie indukcyjne Część 3 Indukcja reguł i ILP. Marcin Szczuka. Instytut Informatyki UW

Sprawozdanie z laboratorium: Hurtownie Danych. Algorytm generowania reguł asocjacyjnych. FP-Growth. 9 czerwca 2011

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Sztuczna Inteligencja Projekt

RACHUNEK ZDAŃ 7. Dla każdej tautologii w formie implikacji, której poprzednik również jest tautologią, następnik także jest tautologią.

Laboratorium 3. Odkrywanie reguł asocjacyjnych.

Matematyczne Podstawy Kognitywistyki

Machine Learning. KISIM, WIMiIP, AGH

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Implementacja metod eksploracji danych - Oracle Data Mining

Text mining w programie RapidMiner Michał Bereta

Ćwiczenia z Zaawansowanych Systemów Baz Danych

Wyszukiwanie reguł asocjacji i ich zastosowanie w internecie

WSPOMAGANIE DECYZJI - MIŁOSZ KADZIŃSKI LAB IV ZBIORY PRZYBLIŻONE I ODKRYWANIE REGUŁ DECYZYJNYCH

Technologie baz danych

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

1 Działania na zbiorach

ALGEBRA Z GEOMETRIĄ BAZY PRZESTRZENI WEKTOROWYCH

Logika. Michał Lipnicki. 15 stycznia Zakład Logiki Stosowanej UAM. Michał Lipnicki () Logika 15 stycznia / 37

1 Podstawowe oznaczenia


Wykład z równań różnicowych

Pozyskiwanie wiedzy z dużych zbiorów danych z zastosowaniem adaptacyjnych procedur generowania zapytań

Zastosowanie logiki matematycznej w procesie weryfikacji wymagań oprogramowania

Elementy logiki i teorii mnogości

Wprowadzenie do technologii informacyjnej.

Metody Inżynierii Wiedzy

MECHANIZM PERSPEKTYW MATERIALIZOWANYCH W EKSPLORACJI DANYCH

NEGATYWNE REGUŁY ASOCJACYJNE WYZNACZANIE, MIARY I OBSZARY ZASTOSOWANIA

0 + 0 = 0, = 1, = 1, = 0.

Modelowanie wzorców zachowań klientów Delikatesów Alma przy wykorzystaniu reguł asocjacyjnych

Wielkie wolumeny danych są trudne w analizowaniu. system satelitarnej obserwacji EOS zbudowany przez NASA generuje

Odkrywanie wiedzy w danych

Algorytmy klasyfikacji

Matematyka dyskretna - wykład - część Podstawowe algorytmy kombinatoryczne

WYKŁAD 6. Reguły decyzyjne

Programowanie liniowe

Eksploracja danych. Plan prezentacji. Problemy eksploracji danych. Wielkie bazy danych SCHEMATY. zakresie baz danych, uczenia maszynowego i statystyki

BAZY DANYCH model związków encji. Opracował: dr inż. Piotr Suchomski

Indukcja. Materiały pomocnicze do wykładu. wykładowca: dr Magdalena Kacprzak

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

REGU LY ASOCJACYJNE. Nguyen Hung Son. 25 lutego i 04 marca Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski.

LOGIKA I TEORIA ZBIORÓW

Spacery losowe generowanie realizacji procesu losowego

REGU LY ASOCJACYJNE. Nguyen Hung Son. Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski. 28.II i 6.III, 2008

Grzegorz Harańczyk, StatSoft Polska Sp. z o.o.

A i. i=1. i=1. i=1. i=1. W dalszej części skryptu będziemy mieli najczęściej do czynienia z miarami określonymi na rodzinach, które są σ - algebrami.

Cel normalizacji. Tadeusz Pankowski

Matematyka dyskretna. Andrzej Łachwa, UJ, /10

Algorytmy genetyczne. Paweł Cieśla. 8 stycznia 2009

Mikołaj Morzy, Marek Wojciechowski: "Integracja technik eksploracji danych z systemem zarządzania bazą danych na przykładzie Oracle9i Data Mining"

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Transkrypt:

Metody eksploracji danych Reguły asocjacyjne

Analiza podobieństw i koszyka sklepowego Analiza podobieństw jest badaniem atrybutów lub cech, które są powiązane ze sobą. Metody analizy podobieństw, znane również jako analiza koszyka sklepowego, szukają nieodkrytych powiązań pomiędzy tymi atrybutami, to znaczy szukają nieodkrytych reguł do ilościowego określania relacji pomiędzy dwoma lub więcej atrybutami Reguły asocjacyjne przyjmują postać: Jeżeli poprzednik, to następnik razem z miarą wsparcia i dokładności (ufności) reguły

Analiza podobieństw i koszyka sklepowego - przykład W supermarkecie sporządzono raport sprzedaży, z którego m.in. wynika, że w ostatni czwartek w nocy z 1000 klientów robiących zakupy 200 kupiło chleb, a z tych 200, którzy kupili chleb, 50 kupiło masło Reguła asocjacyjna: Jeżeli kupuje chleb, to kupuje masło miarą wsparcia 5% miara dokładności 25% 50 1000 50 200

Wsparcie i ufność reguły Niech D oznacza zbiór transakcji, gdzie każda transakcja T z D reprezentuje zbiór artykułów z I. Wsparcie (ang. support) s dla danej reguły asocjacyjnej A => B jest procentem transakcji w D, które zawierają A i B, tzn. s P A B liczba transakcji zawierajacych A i B calkowita liczba transakcji Ufność (ang. confidence) c dla danej reguły asocjacyjnej A => B jest miarą dokładności reguły, określoną jako procent transakcji zawierających A, które również zawierają B, tzn. P A B c P B A P A liczba transakcji zawierajacych A i B liczba transakcji zawierajacych A Mocna reguła reguła, dla której s i c są >= od pewnych, określonych wartości minimalnych.

Zbiory zdarzeń i zbiory częste Zbiór zdarzeń jest zbiorem zawartym w I (np. {fasola, kabaczki} to 2- elementowy zbiór zdarzeń, {brokuły, kukurydza, pomidory} to 3-elementowy zbiór zdarzeń). Częstość zbioru zdarzeń jest liczbą transakcji zawierającym dany zbiór zdarzeń. Zbiór częsty to zbiór zdarzeń, który występuje przynajmniej pewną minimalną liczbę razy, czyli z częstością Φ. Zbiór częstych zbiorów zdarzeń o k elementach będziemy oznaczać przez F k

Mówimy, że transakcja t wspiera (ang. supports) zbiór X wtedy i tylko wtedy gdy dla wszystkich elementów I k X, I k t (t zawiera co najmniej wszystkie elementy zbioru X). Wsparciem zbioru X nazywamy iloraz liczby transakcji w T, które wspierają X do liczby wszystkich transakcji w T.

Reguła asocjacyjna Regułą asocjacyjną nazywamy implikację postaci X Y, gdzie X i Y są dowolnymi zbiorami elementów z I i zachodzi X I, Y I i X Y=. Zbiór X nazywamy poprzednikiem reguły (ang. body, antecedent), a zbiór Y następnikiem reguły (ang. head, consequent).

Z każdą regułą asocjacyjną są związane dwie wartości liczbowe opisujące jej siłę i dokładność. Mówimy, że reguła X Y ma wsparcie s (ang. support), 0 s 1, jeżeli dokładnie s% transakcji w T wspiera X Y. Mówimy, że reguła X Y ma ufność c (ang. confidence), 0 c 1, jeżeli dokładnie c% transakcji w T, które wspierają X, wspiera również Y.

Ogólny algorytm generowania reguł asocjacyjnych Ogólny algorytm generowania reguł asocjacyjnych, dla zadanej bazy danych transakcji T, ma następującą postać: Krok 1: Ogólny algorytm generowania reguł Asocjacyjnych Krok 2: Generowanie reguł ze zbiorów częstych

Krok 1: Ogólny algorytm generowania reguł asocjacyjnych 1. Utworzyć zbiory elementów Li={Ii1, Ii2,..., Iim}, takie, że Li I, posiadające wsparcie support(li) minsup. Zbiory Li są nazywane zbiorami częstymi (ang. large, frequent itemsets). 2. Na podstawie zbiorów częstych znalezionych w kroku (1) wygenerować wszystkie reguły asocjacyjne dla elementów zbiorów częstych - zastosuj algorytm (krok 2->)

Krok 2: Generowanie reguł ze zbiorów częstych. 1. Dla każdego zbioru częstego Li znajdź wszystkie niepuste podzbiory subli. 2. Dla każdego podzbioru subli wygeneruj regułę postaci: subli (Li-subLi) support(li)/support(subli) minconf. jeżeli

Ogólny algorytm generowania reguł asocjacyjnych Algorytm (krok 1) składa się z dwóch kroków. W pierwszym kroku znajdowane są zbiory częste, które reprezentują zbiory elementów występujących wspólnie w transakcjach. Zakłada się przy tym, że interesujące są tylko te zbiory częste, których wsparcie w bazie danych jest większe, niż zadany próg wsparcia minsup. W kroku drugim, na podstawie znalezionych zbiorów częstych są generowane wszystkie reguły asocjacyjne, których ufność jest większa niż zadany próg ufności minconf.

przykład Załóżmy, że: minimalne wsparcie wynosi 30% (0.3), natomiast minimalna ufność 70% (0.7).

W pierwszym kroku są znajdowane zbiory częste 1-elementowe:

Funkcja apriori-gen generuje zbiory kandydujące 2-elementowe: Zbiór częsty 2-elementowy składa się z tych zbiorów częstych 2- elementowych, których wsparcie jest większe niż 0.30

Funkcja apriori-gen generuje zbiory kandydujące 3-elementowe

Na podstawie otrzymanych zbiorów częstych wygenerowano następujące reguły asocjacyjne Zauważmy, że tylko cześć otrzymanych reguł spełnia warunki na minimalne wsparcie i minimalną ufność.

Stąd, końcowy wynik działania algorytmu Apriori jest następujący:

Stąd, końcowy wynik działania algorytmu Apriori jest następujący:

Rzut ekranu z WEKA

Rzut ekranu z Rattle

Rzut ekranu z Rattle