Reguły asocjacyjne w programie RapidMiner Michał Bereta

Podobne dokumenty
Wprowadzenie do programu RapidMiner, część 4 Michał Bereta

Inżynieria Wiedzy i Systemy Ekspertowe. Reguły asocjacyjne

Ćwiczenie 5. Metody eksploracji danych

Reguły asocjacyjne. Żródło: LaroseD.T., Discovering Knowledge in Data. An Introduction to Data Minig, John Wiley& Sons, Hoboken, New Jersey, 2005.

1. Odkrywanie asocjacji

Eksploracja danych - wykład VIII

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Metody eksploracji danych. Reguły asocjacyjne

Wprowadzenie do programu RapidMiner Studio 7.6, część 4 Michał Bereta

Text mining w programie RapidMiner Michał Bereta

Odkrywanie reguł asocjacyjnych. Rapid Miner

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu

Systemy Wspomagania Decyzji

Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów

Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów

Laboratorium 3. Odkrywanie reguł asocjacyjnych.

Wybór / ocena atrybutów na podstawie oceny jakości działania wybranego klasyfikatora.

Algorytm DIC. Dynamic Itemset Counting. Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Wprowadzenie do uczenia maszynowego

Ewelina Dziura Krzysztof Maryański

Podstawy grupowania danych w programie RapidMiner Michał Bereta

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

Odkrywanie asocjacji

Inżynieria biomedyczna

data mining machine learning data science

Reguły asocjacyjne, wykł. 11

Odkrywanie asocjacji

REGU LY ASOCJACYJNE. Nguyen Hung Son. 25 lutego i 04 marca Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski.

Laboratorium z przedmiotu MED. Lab1 - wprowadzenie

Reguły asocjacyjne na giełdzie

Drzewa klasyfikacyjne algorytm podstawowy

Sprawozdanie z laboratorium: Hurtownie Danych. Algorytm generowania reguł asocjacyjnych. FP-Growth. 9 czerwca 2011

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Wprowadzenie do programu RapidMiner Studio 7.6, część 9 Modele liniowe Michał Bereta

Algorytmy odkrywania binarnych reguł asocjacyjnych

Laboratorium 4. Naiwny klasyfikator Bayesa.

y = The Chain Rule Show all work. No calculator unless otherwise stated. If asked to Explain your answer, write in complete sentences.

Reguły asocjacyjne. 1. Uruchom system weka i wybierz aplikację Knowledge Flow.

Data Mining z wykorzystaniem programu Rapid Miner

Python wstęp. Michał Bereta

Implementacja metod eksploracji danych - Oracle Data Mining

Logika funkcji. Modelowanie SI - GHJ 1

Wielopoziomowe i wielowymiarowe reguły asocjacyjne

1. Przygotowanie danych do analizy. Transformacja danych

Wprowadzenie do programu RapidMiner, część 3 Michał Bereta

REGU LY ASOCJACYJNE. Nguyen Hung Son. Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski. 28.II i 6.III, 2008

Wprowadzenie do programu RapidMiner, część 5 Michał Bereta

Odkrywanie wzorców sekwencyjnych z zachowaniem prywatności

Wprowadzenie do klasyfikacji

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Hard-Margin Support Vector Machines

Bioinformatyka Laboratorium, 30h. Michał Bereta

Algorytmy dla maszyny PRAM

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Odkrywanie reguł asocjacyjnych

Laboratorium 5. Adaptatywna sieć Bayesa.

Analiza i eksploracja danych

Plan wykładu. Reguły asocjacyjne. Przykłady asocjacji. Reguły asocjacyjne. Jeli warunki to efekty. warunki efekty

Analiza Danych Case study Analiza diagnostycznej bazy danych Marek Lewandowski, inf59817 zajęcia: środa, 9.

Wprowadzenie do programu RapidMiner, częśd 1 Michał Bereta Program RapidMiner (RM) ma trzy główne widoki (perspektywy):

Reguły asocjacyjne, algorytm Apriori

Określanie ważności atrybutów. RapidMiner

Klasyfikacja i regresja Wstęp do środowiska Weka

Instrukcja konfiguracji usługi Wirtualnej Sieci Prywatnej w systemie Mac OSX

Generowanie zbioru reguł asocjacyjnych i decyzyjnych ze statystycznie reprezentatywnym wsparciem i anty-wsparciem

NEGATYWNE REGUŁY ASOCJACYJNE WYZNACZANIE, MIARY I OBSZARY ZASTOSOWANIA

Wprowadzenie do uczenia maszynowego

Laboratorium 6. Indukcja drzew decyzyjnych.

E.14 Bazy Danych cz. 18 SQL Funkcje, procedury składowane i wyzwalacze

INSTRUKCJE JAK AKTYWOWAĆ SWOJE KONTO PAYLUTION



Jeśli przeszkoda jest blisko to przyhamuj

Wprowadzenie do programu RapidMiner, część 3 Michał Bereta

Systemy uczące się wykład 1

WYKRYWANIE NIESPÓJNOŚCI DANYCH W ROZPROSZONYCH SYSTEMACH TRANSAKCYJNYCH Z WYKORZYSTANIEM REGUŁ ASOCJACYJNYCH (ALGORYTM A PRIORI)

Java Podstawy. Michał Bereta

Modulacja i kodowanie. Labolatorium. Kodowanie źródłowe Kod Huffman a

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Raport Hurtownie Danych

Tworzenie rozmytego systemu wnioskowania

Odkrywanie asocjacji. Cel. Geneza problemu analiza koszyka zakupów

Temat zajęć: ANALIZA DANYCH ZBIORU EKSPORT. Część I: analiza regresji

SID Wykład 10 Systemy uczace się

Algorytmy i Struktury Danych.

Odkrywanie wzorców sekwencji

Złożoność i zagadnienia implementacyjne. Wybierz najlepszy atrybut i ustaw jako test w korzeniu. Stwórz gałąź dla każdej wartości atrybutu.

Kopie bezpieczeństwa NAPRAWA BAZ DANYCH

Zadanie 0 gdy nie mamy logiki rozmytej. Zadanie 1- gdy już mamy logikę rozmytą

Wprowadzenie do programowania

Cele. Definiowanie wyzwalaczy

& portable system. Keep the frame, change the graphics, change position. Create a new stand!

OpenPoland.net API Documentation

Jeśli X jest przestrzenią o nieskończonej liczbie elementów:

PODSTAWY BAZ DANYCH 13. PL/SQL

Wyk lad 8: Leniwe metody klasyfikacji

Transkrypt:

Reguły asocjacyjne w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Reguły asocjacyjne mają na celu odkrycie związków współwystępowania pomiędzy atrybutami. Stosuje się je często do danych transakcyjnych. Dane takie zawierają przeważnie wiele atrybutów/produktów, lecz pojedyncza transakcja zawiera jedynie niewielki podzbiór. Przykład danych transakcyjnych (5 produktów i 5 transakcji): Celem jest znalezienie reguł typu A->B, gdzie A oraz B to pewne podzbiory zbioru wszystkich atrybutów (produktów). Przykładowo: JEŚLI Produkt_01 ORAZ Produkt_03 TO Produckt_05 Interesują nas reguły często występujące (duże wsparcie, ang. suppport) oraz pewne (duża ufność, ang. confidence). Najpopularniejsze algorytmy poszukiwania takich reguł (np. Apriori, FP-Growth) opierają się na poszukiwaniu częstych podzbiorów atrybutów (o wsparciu większym niż zadane minimum), a następnie z nich składane są reguły, które spełniają wymagania minimalnej ufności (oraz wsparcia). Algorytmy te zazwyczaj wymagają atrybutów binarnych (binominal w RM), stąd częsta koniecznośd przekształcenia atrybutów nominalnych o wielu wartościach w zbiór atrybutów binarnych. 1

2. Reguły asocjacyjne dla danych nominalnych Zaimportuj dane dotyczące zakupów warzyw (plik transakcje_warzywa.csv). Pamiętaj, by ID oznaczyd jako id, a pozostałe atrybuty (produkty) jako binominal. 2

W RM można generowad reguły asocjacyjne za pomocą operatora Create Association Rules. Jednak wymaga on na wejściu zbioru częstych podzbiorów produktów. W tym celu użyjemy implementacji algorytmu FP-Growth: Poszukujemy reguł o minimalnej ufności 0.8, oraz o minimalnym wsparciu 0.4: 3

Znalezione częste podzbiory: Znalezione reguły: Zwród uwagę, że wśród znalezionych reguł są (7 oraz 8): Papryka -> Brokuły oraz Brokuły -> Papryka. Jednak przykładowo, obok reguły (9) Szparagi -> Papryka nie ma reguły Papryka -> Szparagi. 4

W celu sprawdzenia, która transakcja pasuje do danej reguły, można wykorzystad operator Apply Association Rules. Z dokumentacji RM: This operator creates a new confidence attribute for each item occurring in at least one conclusion of an association rule. Then it checks for each example and for each rule, if the example fulfills the premise of the rule, which it does, if it covers all items in the premise. An example covers an item, if the attribute representing the item contains the positive value. If the check is positive, a confidence value for each item in the conclusion is derived. 5

3. Reguły asocjacyjne dla danych numerycznych W przypadku danych zawierających atrybuty numeryczne, należy poddad je dyskretyzacji (operator Discretize by Frequency), a powstałe atrybuty nominalne przekształcid na zbiór atrybutów binarnych (operator Nominal to Binominal). Operator Discretize by Frequency koduje każdą wartośd numeryczną jako nominalny atrybut oznaczający przedział (bin), do którego ta wartośd wpada. Szerokośd przedziałów w tym przykładzie jest ustalana tak, by każdy z nich był jednakowo liczny dla danego zbioru trenującego stąd przedziały te nie muszą byd jednakowej długości. 6

Przykładowo dla danych irysów (uwaga: to nie jest rozwiązanie zadania tworzenia klasyfikatora dla trzech klas irysów): Oryginalne dane (atrybuty numeryczne): 7

Przekształcenie do atrybutów nominalnych (4 atrybuty nominalne): Przekształcenie do atrybutów binarnych (5x4 = 20 atrybutów binarnych): 8

Wyniki częste podzbiory: 9

Wyniki reguły: Sprawdzenie: 10