Plan wykładu. Reguły asocjacyjne. Przykłady asocjacji. Reguły asocjacyjne. Jeli warunki to efekty. warunki efekty

Podobne dokumenty
Metody eksploracji danych. Reguły asocjacyjne

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Bazy danych. Plan wykładu. Zalenoci funkcyjne. Wykład 4: Relacyjny model danych - zalenoci funkcyjne. SQL - podzapytania A B

PROWIZJE Menad er Schematy rozliczeniowe

Bazy danych. Plan wykładu. Podzapytania - wskazówki. Podzapytania po FROM. Wykład 5: Zalenoci wielowartociowe. Sprowadzanie do postaci normalnych.

Listy i operacje pytania

Temat: Liniowe uporzdkowane struktury danych: stos, kolejka. Specyfikacja, przykładowe implementacje i zastosowania. Struktura słownika.

Reguły asocjacyjne. Żródło: LaroseD.T., Discovering Knowledge in Data. An Introduction to Data Minig, John Wiley& Sons, Hoboken, New Jersey, 2005.

stopie szaro ci piksela ( x, y)

Temat: Technika zachłanna. Przykłady zastosowania. Własno wyboru zachłannego i optymalnej podstruktury.

Ewelina Dziura Krzysztof Maryański

Systemy Wspomagania Decyzji

WYKŁAD 4 PLAN WYKŁADU. Sieci neuronowe: Algorytmy uczenia & Dalsze zastosowania. Metody uczenia sieci: Zastosowania

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu

Odkrywanie asocjacji

Ćwiczenie 5. Metody eksploracji danych

Wstp. Warto przepływu to

Inżynieria biomedyczna

Bazy danych Podstawy teoretyczne

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Zad. 1 Zad. 2 Zad. 3 Zad. 4 Zad. 5 SUMA. W obu podpunktach zakªadamy,»e kolejno± ta«ców jest wa»na.

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Bazy danych. Plan wykładu. Proces modelowania i implementacji bazy danych. Elementy ERD. Wykład 2: Diagramy zwizków encji (ERD)

Bazy danych. Plan wykładu. Proces modelowania i implementacji bazy danych. Elementy ERD. Wykład 2: Diagramy zwizków encji (ERD)

Problem decyzyjny naley do klasy NP. (Polynomial), jeeli moe by rozwizany w czasie conajwyej wielomianowym przez algorytm A dla DTM.

Szukanie najkrótszych dróg z jednym ródłem

Eksploracja danych - wykład VIII

ANALIZA NUMERYCZNA. Grzegorz Szkibiel. Wiosna 2014/15

Reguły asocjacyjne. 1. Uruchom system weka i wybierz aplikację Knowledge Flow.

Logika Stosowana. Wykład 1 - Logika zdaniowa. Marcin Szczuka. Instytut Informatyki UW. Wykład monograficzny, semestr letni 2016/2017

WYKŁAD 6. Reguły decyzyjne

Odkrywanie asocjacji

Algorytm DIC. Dynamic Itemset Counting. Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek

Temat: Geometria obliczeniowa cz II. Para najmniej odległych punktów. Sprawdzenie, czy istnieje para przecinajcych si odcinków.

Reguły asocjacyjne w programie RapidMiner Michał Bereta

1. Odkrywanie asocjacji

Podstawowe algorytmy i ich implementacje w C. Wykład 9

Wykład VII. Kryptografia Kierunek Informatyka - semestr V. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej

Temat: Problem najkrótszych cieek w grafach waonych, cz. I: Algorytmy typu label - setting.

Bazy danych. Plan wykładu. Definicja zalenoci funkcyjnych. Zalenoci funkcyjne. Wykład 4: Relacyjny model danych - zalenoci funkcyjne.

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

Metody probabilistyczne klasyfikatory bayesowskie

Wzorce projektowe kreacyjne

Temat: Problem minimalnego drzewa Steinera. Definicja problemu. Zastosowania. Algorytm dokładny Hakimi. Algorytmy aproksymacyjne.

Planowanie adresacji IP dla przedsibiorstwa.

Izolacja Anteny szerokopasmowe i wskopasmowe

Algorytmy odkrywania binarnych reguł asocjacyjnych

Bazy danych. Plan wykładu. Dekompozycja relacji. Anomalie. Wykład 5: Projektowanie relacyjnych schematów baz danych. SQL - funkcje grupujce

Ekonometria - wykªad 8

Odkrywanie reguł asocjacyjnych. Rapid Miner

Gramatyki regularne i automaty skoczone

1 Metody iteracyjne rozwi zywania równania f(x)=0

Standardy danych w tagu EPC

JAO - J zyki, Automaty i Obliczenia - Wykªad 1. JAO - J zyki, Automaty i Obliczenia - Wykªad 1

Bazy danych. Plan wykáadu. Zale*noci funkcyjne. Wykáad 4: Relacyjny model danych - zale*noci funkcyjne. A B

Bezpieczestwa Ruchu Drogowego dla dzieci i młodziey oraz elementów dodatkowych.szczegółowy opis

1) Grafy eulerowskie własnoci algorytmy. 2) Problem chiskiego listonosza

Prawdopodobieństwo i statystyka

Maszyny Turinga i problemy nierozstrzygalne. Maszyny Turinga i problemy nierozstrzygalne


Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Metodydowodzenia twierdzeń

Mierzalne liczby kardynalne

obsług dowolnego typu formularzy (np. formularzy ankietowych), pobieranie wzorców formularzy z serwera centralnego,

Matematyka dyskretna - wykład - część Podstawowe algorytmy kombinatoryczne

Programowanie wspóªbie»ne

Ekonometria Bayesowska

Inżynieria Wiedzy i Systemy Ekspertowe. Reguły asocjacyjne

Temat: Programowanie zdarzeniowe. Zdarzenia: delegacje, wykorzystywanie zdarze. Elementy Windows Application (WPF Windows Presentation Foundation).

FV Ando. Nie usuwasz danych Produkty, których ju nie sprzedajesz, nieaktywni kliencie oraz faktury mog by po prostu przeniesione do archiwum.

Wzorce projektowe strukturalne cz. 1

1 Bª dy i arytmetyka zmiennopozycyjna

Bazy danych. Plan wykładu. Metody organizacji pliku rekordów. Pojcie indeksu. Wykład 11: Indeksy. Pojcie indeksu - rodzaje indeksów

PRZYPOMNIENIE Ka»d przestrze«wektorow V, o wymiarze dim V = n < nad ciaªem F mo»na jednoznacznie odwzorowa na przestrze«f n n-ek uporz dkowanych:

Programowanie dynamiczne cz. 2

Bazy danych. Plan wykładu. Pierwsza posta normalna. Druga posta normalna. Wykład 7: Sprowadzanie do postaci normalnych. DDL, DML

A = n. 2. Ka»dy podzbiór zbioru sko«czonego jest zbiorem sko«czonym. Dowody tych twierdze«(elementarne, lecz nieco nu» ce) pominiemy.

Wykªad 7. Ekstrema lokalne funkcji dwóch zmiennych.

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

Zadania do wykonaj przed przyst!pieniem do pracy:

Program Sprzeda wersja 2011 Korekty rabatowe

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

System informacyjny a system decyzyjny Relacja nierozróżnialności Klasy abstrakcji Teoria zbiorów przybliżonych Usuwanie niespójności z tablicy

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

1 Stos: Stack i Stack<T>

Hipotezy statystyczne

Minimalne drzewa rozpinaj ce

Cash flow projektu zakładajcego posiadanie własnego magazynu oraz posiłkowanie si magazynem obcym w przypadku sezonowych zwyek

Hipotezy statystyczne

Programowanie wspóªbie»ne

AltiumLive - Content Store. AltiumLive - Content Store. Language. Contents

Projektowanie algorytmów rekurencyjnych

Wykład 2. Poprawność algorytmów

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

System midzybankowej informacji gospodarczej Dokumenty Zastrzeone MIG DZ ver Aplikacja WWW ver. 2.1 Instrukcja Obsługi

Dowody założeniowe w KRZ

Sztuczna Inteligencja Projekt

Algorytmy zwiazane z gramatykami bezkontekstowymi

Transkrypt:

Plan wykładu Reguły asocjacyjne Marcin S. Szczuka Wykład 6 Terminologia dla reguł asocjacyjnych. Ogólny algorytm znajdowania reguł. Wyszukiwanie czstych zbiorów. Konstruowanie reguł - APRIORI. Reguły asocjacyjne Reguł asocjacyjn nazwiemy formuł postaci: Jeli warunki to efekty zwykle zapisywane jako: warunki efekty Przykłady asocjacji (Status=Open) (Gender=Male) (Age=Young) (Activity=Active) (ClientType=N) Jeli dochody przekraczaj 50 ty i miasto ma wicej ni 200 ty. posiada samochód i wyjedał za granic w ostatnim roku. Jeli w pitkowy wieczór mczyzna kupuje w supermarkecie piwo kupuje te pieluchy. 1

Motywacja Chcemy wydobywa z danych zwizki (wzorce), które Maj intuicyjn interpretacj. Sprawdzaj si w licznych przypadkach. Mog pokaza istotne, wczeniej nieuwiadomione zwizki. Pozwalaj uzupełni brakujc informacj. Maj przełoenie na zysk Oryginalnie problem formułowany jako badanie zawartoci koszyka w sklepie. Cel Chcemy konstruowa reguły które s: Zgodne z danymi na jak najwikszym podzbiorze. Mocne i szczegółowe. Moliwe do wyliczenia (przy stosowaniu rozsdnych algorytmów) dla duych zbiorów danych. Zrozumiałe Oznaczenia Dla atrybutu (cechy) av a wprowadzamy pojcie selektora (jak w zwykłych regułach). Selektor s identyfikujemy z podzbiorem V s zbioru wartoci atrybutu. Cz warunkow i wynikow reguły przedstawiamy zwykle jako zestaw selektorów: {s 1, s 2,, s m } Oznaczenia c.d. Tradycyjnie (z analizy koszyka) rozwaa si przede wszystkim selektory pojedyncze, które nazywa si przedmiotami (od ang. item). O zestawach selektorów mówi si jako o zbiorach przedmiotów (od ang. itemset). Interesuj nas tzw. zbiory czste (przedmiotów) (od ang. frequent itemsets) 2

Jeszcze troche oznacze Wane miary dla reguł T zbiór przykładów (transakcji) (s=v) pojedynczy przedmiot, selektor prosty S zbiór wszystkich selektorów prostych wystpujcych w danych. T p zbiór przykładów (transakcji) w których wystpuje zbiór przedmiotów p p q wszystkie przedmioty z p wystpuj w q p - rozmiar zbioru przedmiotów - liczba wystpujcych w nim pojedynczych selektorów. Mamy reguł asocjacyjn p q dla zbiorów przedmiotów (warunków) p i q Wsparcie (pokrycie) dla warunku p: s p (T)= T p / T Wsparcie (pokrycie) dla reguły p q : s p q (T)= T p T q / T Poziom zaufania (dokładno) dla reguły p q : c p q (T)= T p T q / T p Generowanie reguł Nie mona po prostu wygenerowa wszystkich reguł asocjacyjnych, a potem wybra najlepszych. W złoliwym przypadku reguł moe by nawet O(n 2 n-1 ) gdzie n liczba przedmiotów (atrybutów). Ponadto, poniewa chcemy działa na duych zbiorach danych, powinnimy unika wielokrotnego ich przegldania. Szukanie reguł 1. Ustalamy podany poziom wsparcia (pokrycia) θ i zaufania (dokładnoci) λ. 2. Tworzymy rodzin zbiorów przedmiotów, które maj pokrycie powyej ustalonego progu θ. 3. Z uzyskanych w 2 zbiorów tworzymy reguły o zaufaniu powyej ustalonego progu λ. 3

Kluczowa obserwacja!! Znajdowanie czstych zbiorów Kady podzbiór czstego zbioru przedmiotów jest zbiorem czstym. Tylko zbiory zbudowane z czstych podzbiorów maj szans by czste. (s p p p' (T)> θ ) (s p (T)> θ ) Algorytm APRIORI przy ustalonym progu na wsparcie (pokrycie): Wyszukaj wszystkie czste 1-zbiory. Korzystajc z kluczowej obserwacji spróbuj skonstruowa z czstych 1-zbiorów, czste 2-zbiory odrzu te 2-zbiory, które s poniej progu. Korzystajc z kluczowej obserwacji spróbuj skonstruowa z czstych k-zbiorów, czste (k+1)-zbiory odrzu te (k+1)-zbiory, które s poniej progu. Zwiksz k o jeden. Zatrzymaj si gdy nie ma ju wikszych czstych zbiorów lub gdy wszystkie przedmioty zostan wykorzystane. APRIORI(T,θ) S 1 :={ ps s p (T)> θ }; for k=1 to n do S' k := join(s k-1 ); S'' k :=prune(s' k,s k-1 ); S k :={ ps'' k s p (T)> θ }; end; return S = n i=1 S i ; APRIORI -join Z rodziny (k-1)-zbiorów S k-1 wybieramy pary takich zbiorów, które maj dokładnie k-2 wspólne elementy. Jeli wemiemy sum takiej pary to dostaniemy k-zbiór. Dodatkowo stawiamy warunek, aby te zbiory róniły si na przedmiotach zwizanych z rónymi atrybutami. W ten sposób otrzymujemy kandydatów na czste k-zbiory. Formalnie: Niech p= { s 1,, s k-2, s k-1 }, q= { t 1,, t k-2, t k-1 } i s i =t i dla i=1,,k-2. Ponadto selektory s k-1 i t k-1 s zdefiniowane dla rónych atrybutów. Wtedy rezultat oznaczony przez p q jest równy: { s 1,, s k-2, s k-1,t k-1 }. 4

APRIORI -prune Zachowujemy w S'' k tylko te k-zbiory, których kady podzbiór rozmiaru k-1 jest czsty, czyli wystpuje w S k-1. Jest to dosłowne stosowanie kluczowej obserwacji. (ps k ) ( q p ( q =k-1) (qs k-1 )) Kolejna kluczowa obserwacja Jeli mamy dwie reguły asocjacyjne pqi p' q'takie, e q=q' r oraz p'=p r dla pojedynczego selektora (1-zbioru) r=(s=v), to: (c p q (T)> λ) (c p q (T)> λ) Oznacza to, e z punktu widzenia zaufania nie warto rozpatrywa reguły pqjeli reguła powstała z tego samego zbioru (pq) i majca krótsz cz decyzyjn (nastpnik) nie przekracza progu ustalonego dla dokładnoci. Tworzenie reguł ze zbiorów Majc k-zbiory czste zamieniamy je na reguły. Chcielibymy dosta reguły które: Maj mały poprzednik i duy nastpnik Maj poziom zaufania powyej progu λ. Tworzenie reguł Zaczynamy majc zbiory czste z S = i=1n S i oraz ograniczenie λ. Tworzymy wszystkie reguły o jednym elemencie w nastpniku dla kadego ze zbiorów w S. Usuwamy reguły o dokładnoci mniejszej od λ z dalszych rozwaa. W kadym nastpnym kroku staramy si dla kadej z jeszcze nie odrzuconych reguł przerzuci jeden warunek (przedmiot) ze strony poprzednika na stron nastpnika. Odrzucamy te sporód tak otrzymanych reguł, które maj niedostateczn dokładno (poniej λ). 5

Podsumowanie Przedstawiony algorytm został opracowany dla atrybutów binarnych, ale rozszerza si na ogólniejszy przypadek. Właciwy wybór ogranicze (θ, λ) ma krytyczne znaczenie. Dlatego warto zaczyna od bezpiecznych wartoci. W praktyce trzeba korzysta ze specjalnych struktur danych do przechowywania przykładów, zbiorów czstych i reguł. Stosowalno tego podejcia zaley od implementacji i doboru parametrów. 6