METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Podobne dokumenty
EKSPLORACJA DANYCH METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

EKSPLORACJA DANYCH METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Metody Inżynierii Wiedzy

Inżynieria biomedyczna

Metody eksploracji danych. Reguły asocjacyjne

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY

METODY INŻYNIERII WIEDZY

Ewelina Dziura Krzysztof Maryański

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Odkrywanie asocjacji

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu

Systemy Wspomagania Decyzji

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

WIEDZA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Algorytm DIC. Dynamic Itemset Counting. Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek

Reguły asocjacyjne, wykł. 11

Adrian Horzyk

Ćwiczenie 5. Metody eksploracji danych

TRANSFORMACJE I JAKOŚĆ DANYCH

1. Odkrywanie asocjacji

SZTUCZNA INTELIGENCJA

Algorytmy odkrywania binarnych reguł asocjacyjnych

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Odkrywanie asocjacji

BAZY DANYCH. Microsoft Access NAWIGACJA, MENU I PARAMETRY WYSZUKIWANIA. Adrian Horzyk. Akademia Górniczo-Hutnicza

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Adrian Horzyk

data mining machine learning data science

BAZY DANYCH NORMALIZACJA BAZ DANYCH. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

Analiza i eksploracja danych

Odkrywanie wzorców sekwencji

PROLOG WSTĘP DO INFORMATYKI. Akademia Górniczo-Hutnicza. Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej.

A C T A UNIVERSITATIS LODZIENSIS FOLIA OECONOMICA 183,2004. Sebastian Szamański, Ryszard Budziński

Odkrywanie reguł asocjacyjnych. Rapid Miner

BAZY DANYCH NORMALIZACJA BAZ DANYCH. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza

Reguły asocjacyjne na giełdzie

Reguły asocjacyjne. Żródło: LaroseD.T., Discovering Knowledge in Data. An Introduction to Data Minig, John Wiley& Sons, Hoboken, New Jersey, 2005.

MECHANIZM PERSPEKTYW MATERIALIZOWANYCH W EKSPLORACJI DANYCH

BAZY DANYCH MAKRA I PRZYCISKI. Microsoft Access. Adrian Horzyk. Akademia Górniczo-Hutnicza

Odkrywanie wzorców sekwencji

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

REGU LY ASOCJACYJNE. Nguyen Hung Son. 25 lutego i 04 marca Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski.

REGU LY ASOCJACYJNE. Nguyen Hung Son. Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski. 28.II i 6.III, 2008

Algorytmy optymalizacji zapytań eksploracyjnych z wykorzystaniem materializowanej perspektywy eksploracyjnej

PODSTAWY INFORMATYKI wykład 5.

Inżynieria Wiedzy i Systemy Ekspertowe. Reguły asocjacyjne

Odkrywanie wzorców sekwencyjnych z zachowaniem prywatności

Odkrywanie asocjacji. Cel. Geneza problemu analiza koszyka zakupów

Wprowadzenie do technologii informacyjnej.

Implementacja metod eksploracji danych - Oracle Data Mining

Wielkie wolumeny danych są trudne w analizowaniu. system satelitarnej obserwacji EOS zbudowany przez NASA generuje

PODSTAWY INFORMATYKI wykład 10.

EKSPLORACJA ZASOBÓW INTERNETU - MIŁOSZ KADZIŃSKI LABORATORIUM V INDEKS ODWROTNY + WEB ADVERTISING + MINING NAVIGATIONAL PATTERNS + APRIORI

Klasyfikacja materiałów dźwiękowych w oparciu o algorytm zbiorów domkniętych

Data Mining Kopalnie Wiedzy

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Machine Learning. KISIM, WIMiIP, AGH

Reguły asocjacyjne. 1. Uruchom system weka i wybierz aplikację Knowledge Flow.

ANALIZA ZACHOWAŃ UŻYTKOWNIKÓW PORTALU ONET.PL W UJĘCIU REGUŁ ASOCJACYJNYCH

Logika Stosowana. Wykład 10 - Wnioskowanie indukcyjne Część 3 Indukcja reguł i ILP. Marcin Szczuka. Instytut Informatyki UW

Eksploracja danych (data mining)

Wielopoziomowe i wielowymiarowe reguły asocjacyjne

Wyszukiwanie reguł asocjacji i ich zastosowanie w internecie

Analiza asocjacji i reguły asocjacyjne w badaniu wyborów zajęć dydaktycznych dokonywanych przez studentów. Zastosowanie algorytmu Apriori

Wstęp do Sztucznej Inteligencji

Sztuczna inteligencja

prowadzący dr ADRIAN HORZYK /~horzyk tel.: Konsultacje paw. D-13/325

Odkrywanie reguł asocjacyjnych

Reguły asocjacyjne w programie RapidMiner Michał Bereta

BAZY DANYCH. Microsoft Access. Adrian Horzyk OPTYMALIZACJA BAZY DANYCH I TWORZENIE INDEKSÓW. Akademia Górniczo-Hutnicza

Eksploracja danych. Wielkie bazy danych. Zależności w bazach danych Przykład 1. Zależności w bazach danych Przykład 2

Wykorzystanie analizy koszykowej do wspomagania planowania zapasów magazynowych

Sprawozdanie z laboratorium: Hurtownie Danych. Algorytm generowania reguł asocjacyjnych. FP-Growth. 9 czerwca 2011

BAZY DANYCH. NIERELACYJNE BAZY DANYCH NoSQL I ASOCJACYJNE STRUKTURY DANYCH. Adrian Horzyk. Akademia Górniczo-Hutnicza

Efektywność Procedur Obliczeniowych. wykład 5

WSTĘP DO INFORMATYKI. Struktury liniowe

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Eksploracja danych - wykład VIII

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

Analiza danych i data mining.

Analiza i wizualizacja danych Data analysis and visualization

Plan wykładu. Reguły asocjacyjne. Przykłady asocjacji. Reguły asocjacyjne. Jeli warunki to efekty. warunki efekty

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

ANALIZATOR TOPAS 1000 (FLUKE 1760) POMIARY PARAMETRÓW JAKOŚCI ENERGII ELEKTRYCZNEJ

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Eksploracja danych: problemy i rozwiązania

Wykład 2. Prawdopodobieństwo i elementy kombinatoryki

Adrian Horzyk

AKADEMIA GÓRNICZO - HUTNICZA IM. STANISŁAWA STASZICA w KRAKOWIE

NEGATYWNE REGUŁY ASOCJACYJNE WYZNACZANIE, MIARY I OBSZARY ZASTOSOWANIA

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Wykład VII. Kryptografia Kierunek Informatyka - semestr V. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej

Grzegorz Harańczyk, StatSoft Polska Sp. z o.o.

BIOCYBERNETYKA PROLOG

Transkrypt:

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING EKSPLORACJA DANYCH Ćwiczenia Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra Automatyki i Inżynierii Biomedycznej, Laboratorium Biocybernetyki 30-059 Kraków, al. Mickiewicza 30, paw. C3/205 horzyk@agh.edu.pl, Google: Adrian Horzyk

DOKONAJ BEZPOŚREDNIEJ EKSPLORACJI 1. Załóżmy, że minimalne wsparcie smin=30% oraz minimala pewność cmin = 20% 2. Wykorzystaj zbiór Iris i znajdź: Wszystkie wzorce częste Wzorce zamknięte Wzorce maksymalne 3. Weź dowolny tekst (np. Baśnie Grimm) zawierający minimalnie kilkaset zdań i znajdź w nim częste i maksymalne wzorce sekwencyjne, traktując zdania jak transakcje, zaś słowa jak elementy tych transakcji. 4. W celu realizacji zadań wykorzystaj metodę Apriori oraz inne poznane na wykładzie

POLICZ WSPARCIE POSZCZEGÓLNYCH WZORCÓW I POSORTUJ JE WZGLĘDEM CZĘSTOŚCI 1. Wczytaj zbiór transakcji ze strony: http://home.agh.edu.pl/~horzyk/lectures/ahdydmiw.php 2. Oblicz wsparcie (support) s to częstotliwość lub ilość wystąpień wzorca lub zbioru elementów X w analizowanej encji lub transakcji. 3. Wyznacz próg na poziomie s = 50% i określ, które wzorce są częste (frequent), tzn. gdy jego wsparcie (support) jest nie mniejszy niż ustalony próg s (minsup) Przykład: CZĘSTE > 50% Cukier (80%) Kawa (60%) Jajka (60%) Mleko (40%) Orzeszki (40%) Masło (40%) Chleb (20%) Miód (20%)

OKREŚL REGUŁY ASOCJACYJNE (wsparcie i pewność) DLA TRANSAKCJI Z POPRZEDNIEGO ĆWICZENIA Reguły asocjacyjne (association rules) elementów transakcji/wzorców: X Y (s, c). Wsparcie (support) s to prawdopodobieństwo, że określona transakcja zawiera X Y liczone względem wszystkich możliwych transakcji. Pewność (confidence) c to prawdopodobieństwo warunkowe, że transakcja zawierająca X zawiera również Y. Eksploracja reguł asocjacyjnych polega na odnalezieniu wszystkich reguł X Y o określonym minimalnym wsparciu s oraz o określonej minimalnej pewności c: np. s 50%, c 50%. Wielowymiarowe reguły asocjacyjne, np.: wiek (X, 18-24 ) zawód (X, student ) kupuje (X, cola ) wiek (X, 18-24 ) kupuje (X, pop-corn ) kupuje (X, cola ) PRZYKŁADY REGUŁ ASOCJACYJNYCH: Kawa Cukier (80%, 100%) Cukier Kawa (80%, 75%) Cukier Jajka (100%, 50%) Jajka Cukier (100%, 67%) NIE SĄ NIMI dla s 50%, c 50%: Kawa Jajka (100%, 33%) Jajka Kawa (100%, 33%)

ZASTOSUJ REGUŁĘ OCZYSZCZANIA APRIORI Zastosuj regułę oczyszczania Apriori (pruning principle) do usunięcia rzadkich podzbiorów i odfiltrowania częstych. Reguła Apriori: Każdy podzbiór zbioru częstego (frequent itemset) jest częsty (frequent). Wniosek: Jeśli jakikolwiek podzbiór zbioru S jest rzadki (infrequent), wtedy S również jest rzadki (infrequent). Powyższy wniosek umożliwia odfiltrowanie wszystkich większych wzorców (super-patterns), które zawierają rzadkie (infrequent) podzbiory (itemsubsets), w celu podniesienia efektywności przeszukiwania wzorców w trakcie ich eksploracji. Reguła oczyszczania Apriori (pruning principle) mówi, iż jeśli istnieje jakikolwiek podzbiór (itemsubset), który jest rzadki (infrequent), wtedy jego dowolny zawierający go zbiór (superset) nie powinien być uwzględniany/generowany w procesie eksploracji.

DOKONAJ EKWIWALENTNEJ TRANSFORMACJI KLAS Ekwiwalentna Transformacja Klas ECLAT (Equivalence Class Transformation) to algorytm przeszukiwania w głąb (depth-first search) wykorzystujący przecięcie zbiorów. Służy do eksploracji częstych wzorców poprzez badanie ich wertykalnego (kolumnowego) formatu: t(b) = {T 2, T 3 }; t(c) = {T 1, T 3 } t(bc) = {T 3 } t(e) = {T 1, T 2, T 3 } diffset (BE, E) = {T 1 } zbiór różnic Częsty wzorzec to taki podzbiór elementów, który często występuje w transakcjach. Należy więc w tablicy asocjacji odszukać takie elementy, które równocześnie występują w kilku transakcjach, a więc policzyć przecięcie zbiorów transakcji dla poszczególnych elementów, np. dla C i E otrzymamy podzbiór transakcji {1, 3}.

EKSPLORACJA WZORCÓW SEKWENCYJNYCH Wzorce sekwencyjne (sequential patterns) składają się z sekwencji zbiorów elementów (sets of items), zwanych też zdarzeniami (events), np.: <EF(AB)(ABC)D(CF)G> Elementy zbiorów tworzących sekwencje nie są porządkowane, tzn. ich kolejność nie ma znaczenia: np. (ABC) = (CBA) = (ACB) zapisujemy je w nawiasach. Dla poniższej bazy sekwencji i minimalnego progu wsparcia minsup = 3 otrzymamy sekwencyjny wzorzec (sequential pattern) <(AB)CA> Wzorce sekwencyjne mają liczne zastosowania, np. w: inżynierii oprogramowania, analizy i porównywania łańcuchów DNA, protein, sekwencji czasowych i zmian w czasie (np. na giełdzie kursów walut, akcji), procedur leczniczych w medycynie, analizie i przewidywaniu pogody, analizy, indywidualnego dostosowania ofert i optymalizacji akcji promocyjnych oraz reklamowych

EKSPLORACJA APRIORI WZORCÓW SEKWENCYJNYCH Eksploracja Apriori wzorców sekwencyjnych (apriori-based sequential pattern mining) polega na określeniu częstotliwości wystąpień (wsparcia/support) sekwencji jedno, następnie dwu, elementowych: <A>, <B>, <C>, <D>, <E>, <F>, <H> Dla których minimalna częstotliwość czyli wsparcie (minsup) jest powyżej pewnego ustalonego progu, np. 5. Stopniowo generujemy kandydatów o długości k+1 na podstawie wcześniej wygenerowanych kandydatów o długości k, przy czym zawsze bierzemy pod uwagę tylko tych kandydatów, których wsparcie jest powyżej pewnego ustalonego progu. Postępujemy tak dopóki istnieją dłużsi kandydaci spełniający to kryterium (APRIORI). Apriori pozwala badać tylko ograniczoną ilość kandydatów, a nie wszystkie podciągi. Eksploracja wzorców wygenerowanych i oczyszczonych na podstawie reguły Apriori nazywana jest algorytmem Generalized Sequential Pattern (GSP) algorithm for Mining and Pruning.