Eksploracja danych - wykład VIII

Podobne dokumenty
Inżynieria Wiedzy i Systemy Ekspertowe. Reguły asocjacyjne

Metody eksploracji danych. Reguły asocjacyjne

Reguły asocjacyjne. Żródło: LaroseD.T., Discovering Knowledge in Data. An Introduction to Data Minig, John Wiley& Sons, Hoboken, New Jersey, 2005.

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Ewelina Dziura Krzysztof Maryański

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Ćwiczenie 5. Metody eksploracji danych

Odkrywanie asocjacji

Odkrywanie asocjacji

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Reguły asocjacyjne w programie RapidMiner Michał Bereta

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Wielopoziomowe i wielowymiarowe reguły asocjacyjne

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Eksploracja danych - wykład II

Systemy Wspomagania Decyzji

Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu

1. Odkrywanie asocjacji


Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Algorytmy klasyfikacji

Reguły asocjacyjne. 1. Uruchom system weka i wybierz aplikację Knowledge Flow.

Inżynieria biomedyczna

Odkrywanie asocjacji. Cel. Geneza problemu analiza koszyka zakupów

Algorytm DIC. Dynamic Itemset Counting. Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

Michał Kukliński, Małgorzata Śniegocka-Łusiewicz

Świat rzeczywisty i jego model

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

PLAN WYKŁADU BAZY DANYCH ZALEŻNOŚCI FUNKCYJNE

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

LABORATORIUM 8,9: BAZA DANYCH MS-ACCESS

Algorytmy odkrywania binarnych reguł asocjacyjnych

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Eksploracja danych - wykład IV

Krzysztof Kluza proste ćwiczenia z baz danych

Klasyfikacja metodą Bayesa

Wykład 2. Relacyjny model danych

Projektowanie systemów informatycznych. Roman Simiński siminskionline.pl. Modelowanie danych Diagramy ERD

Matematyka dyskretna. Andrzej Łachwa, UJ, /10

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Projekt aplikacji prywatnej przychodni weterynaryjnej

Agnieszka Nowak Brzezińska Wykład III

Relacyjny model baz danych, model związków encji, normalizacje

Bazy danych TERMINOLOGIA

Rok akademicki: 2017/2018 Kod: JIS AD-s Punkty ECTS: 5. Kierunek: Informatyka Stosowana Specjalność: Modelowanie i analiza danych

PLAN WYKŁADU BAZY DANYCH GŁÓWNE ETAPY PROJEKTOWANIA BAZY MODELOWANIE LOGICZNE

Informatyka Ćwiczenie 10. Bazy danych. Strukturę bazy danych można określić w formie jak na rysunku 1. atrybuty

Analiza i wizualizacja danych Data analysis and visualization

Tomasz Karwatka Janmedia Interactive ecommerce w czym tkwi siła naszych rozwiązań

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA REALIZACJA W ROKU AKADEMICKIM 2016/2017

Plan wykładu. Reguły asocjacyjne. Przykłady asocjacji. Reguły asocjacyjne. Jeli warunki to efekty. warunki efekty

Reguły asocjacyjne, wykł. 11

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38

Analiza i projektowanie obiektowe 2017/2018. Wykład 3: Model wiedzy dziedzinowej

Opis efektów kształcenia dla modułu zajęć

INFORMATYKA GEODEZYJNO- KARTOGRAFICZNA. Modelowanie danych. Model związków-encji

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

6. Teoria Podaży Koszty stałe i zmienne

Księgarnia PWN: Michael J. Hernandez Bazy danych dla zwykłych śmiertelników

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

KIERUNKOWE EFEKTY KSZTAŁCENIA

ECDL/ICDL Użytkowanie baz danych Moduł S1 Sylabus - wersja 6.0

Inżynieria danych I stopień Praktyczny Studia stacjonarne Wszystkie specjalności Katedra Inżynierii Produkcji Dr Małgorzata Lucińska

Agnieszka Nowak Brzezińska Wykład III

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Zbiory, relacje i funkcje

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW

Modelowanie hierarchicznych struktur w relacyjnych bazach danych

Wykład 10 Skalowanie wielowymiarowe

Eksploracja danych PROCES EKSPLORACJI DANYCH. Wojciech Waloszek. Teresa Zawadzka.

KIERUNKOWE EFEKTY KSZTAŁCENIA

Imię i nazwisko... Grupa...

Wstęp do sieci neuronowych, wykład 02 Perceptrony c.d. Maszyna liniowa.

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

WYKŁAD 6. Reguły decyzyjne

Transformacja wiedzy w budowie i eksploatacji maszyn

Model relacyjny bazy danych

Odkrywanie wzorców sekwencji

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Technologia informacyjna

Wydział Elektrotechniki, Informatyki i Telekomunikacji. Instytut Informatyki i Elektroniki. Instrukcja do zajęć laboratoryjnych

LK1: Wprowadzenie do MS Access Zakładanie bazy danych i tworzenie interfejsu użytkownika

Systemy informatyczne. Modelowanie danych systemów informatycznych

Hierarchiczna analiza skupień

Baza danych. Modele danych

Modelowanie wielowymiarowe hurtowni danych

Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl

TEORIA GRAFÓW I SIECI

Bazy danych. Andrzej Łachwa, UJ, /15

WYKŁAD. Jednostka prowadząca: Wydział Techniczny. Kierunek studiów: Elektronika i telekomunikacja. Nazwa przedmiotu: Język programowania C++

PODSTAWOWE POJĘCIA BAZ DANYCH

Transkrypt:

I Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 2 grudnia 2016 1/31

1 2 2/31

(ang. affinity analysis) polega na badaniu atrybutów lub cech, które są ze sobą powiązane. Metody koszyka sklepowego (ang. market basket analysis) są metodami analizy podobieństw, które szukają nieodkrytych powiązań między atrybutami (ilościowych relacji pomiędzy nimi). 3/31

Odkrywanie polega na ilościowym określeniu relacji pomiędzy dwoma lub więcej atrybutami. przyjmują postać jeżeli poprzednik to następnik z uwzględnieniem miary wsparcia i dokładności lub ufności y. 4/31

Przykłady zadań Zbadanie odsetka abonentów sieci komórkowej, którzy pozytywnie odpowiedzieli na ofertę podniesienia standardu usług. Zbadanie stosunku liczby dzieci, którym czytają rodzice, do liczby tych, które same dużo czytają. Przewidywanie pogorszenia jakości usług w sieci telefonicznej. Znalezienie rzeczy w supermarketach, które są kupowane razem, lub nigdy nie są kupowane razem. Określenie odsetka przypadków, w których nowy lek wywoła dany efekt uboczny. 5/31

Przekleństwo wymiarowości Liczba możliwych asocjacyjnych rośnie wykładniczo wraz ze wzrostem liczby atrybutów: dla k-atrybutów, przy ograniczeniu do atrybutów binarnych i wyjaśnieniu tylko pozytywnych przypadków liczba możliwych wynosi: k 2 (k 1) 6/31

Algorytmy Algorytmy tworzenia asocjacyjnych naiwny A priori uogólniona indukcja - GRI wykorzystywane w metodach nienadzorowanych i nadzorowanych. 7/31

Studium przypadku I Odkrywanie asocjacyjnych z sądowych baz danych 1 Zrozumienie uwarunkowań biznesowych - badacze z dwóch Australijskich uniwersytetów mieli na celu poprawę dostępności usług prawnych i uzyskiwanie sprawiedliwych wyroków poprzez lepsze wykorzystanie dostępnych danych sądowych. 2 Zrozumienie dane udostępniła częściowo rządowa organizacja Victoria Legal Aid niosąca pomoc prawną osobom nieprzystosowanym społecznie. Zebrano 380 000 podań o pomoc prawną z 11 filii, zawierające informacje o ponad 300 zmiennych. Eksperci wybrali z tego 7 najważniejszych zmiennych: płeć, wiek, zawód, 8/31

Studium przypadku II powód odmowy udzielenia pomocy, rodzaj prawa (cywilne itp.), decyzja, typ sprawy. 3 Przygotowanie zbiór świetnie przygotowany, zmienne czyste i poprawne. Wiek skategoryzowano. 4 Modelowanie - y ograniczono do jednego poprzednika i jednego następnika. Odkryto liczne zależności, w tym 144 ciekawe y. 5 Ewaluacja - poproszono 3 ekspertów o ocenę poziomu ufności dla każdej z wykrytych. 6 Wdrożenie - powstała aplikacja internetowa WebAssociator wspomagająca budowanie. Badacze sugerują wykorzystanie aplikacji w sądownictwie. 9/31

Podział asocjacyjncyh Ze względu na typ rozważanych danych: binarne (kupuje kabaczki = tak/nie) ilościowe (zarobki mniejsze niż 85000 rocznie) Ze względu na dziedzinę danych: jednowymiarowe - dane z tej samej dziedziny wielowymiarowe - dane z różnych dziedzin Ze względu na stopień abstrakcji: jednopoziomowe wielopoziomowe 10/31

Prosty przykład Miejscowy rolnik sprzedaje swoje warzywa. Jest 7 rodzajów warzyw, zbiór I. I = { szparagi, fasola, brokuły, kukurydza, zielona papryka, kabaczki, pomidory } Klienci robią różne zakupy - różne podzbiory I. Nie interesuje nas ilość kupionych warzyw tylko czy kupiono dane warzywo czy nie. 11/31

Reprezentacja spis transakcji Dwa możliwe sposoby reprezentacji danych: transakcyjny format danych, macierzowy format danych. 12/31

Transakcyjny format danych Tylko dwa pola (ID transakcji i nazwa towaru). Każdy rekord to pojedynczy artykuł. 13/31

Macierzowy format danych Jeden rekord to jedna transakcja. Rekord ma tyle pól binarnych ile jest towarów... 14/31

Wsparcie Niech D będzie zbiorem transakcji, gdzie każda transakcja T z D reprezentuje zbiór artykułów z I. Mając dwa zbiory artykułów A i B, a asocjacyjna przybieże postać A B (gdzie A i B są rozłączne - wykluczenie trywialnych). Wsparcie s dla danej y j A B jest procentem transakcji w D, które zawierają A i B: s = P(A B) = liczba transakcji zawierających A i B całkowita liczba transakcji 15/31

Ufność Ufność c dla danej y j A B jest miarą dokładności y, określoną jako procent transakcji zawierających A, które również zawierają B: c = P(B A) = P(A B) P(A) = liczba transakcji zawierających A i B liczba transakcji zawierających A 16/31

Dalsze cechy Mocne y to takie, dla których ufność i wsparcie są większe lub równe niż określone przez ekspertów wartości minimalne. Częstość zbioru zdarzeń jest liczbą transakcji zawierających dany zbiór zdarzeń. Zbiór częsty to zbiór występujący przynajmniej określoną liczbę razy. Próg częstości wystąpienia określa liczba φ. Częste zbiory zdarzeń o k elementach oznaczamy F k. 17/31

Odkrywanie asocjacyjnych 1 Znajdź wszystkie częste zbiory zdarzeń ( φ). 2 Na bazie częstych zdarzeń utwórz y, które spełniają warunek minimalnego wsparcia i minimalnego poziomu ufności. 18/31

Dany jest zbiór elementów I i baza danych D. Wygeneruj wszystkie możliwe podzbiory zbioru I i następnie, dla każdego podzbioru oblicz częstość tego zbioru w bazie danych D. Dla każdego zbioru, którego częstość jest większa/równa φ, wygeneruj ę asocjacyjną. Dla każdej otrzymanej y oblicz wsparcie i ufność. 19/31

Właściwość A priori Właściwość A priori Jeżeli zbiór zdarzeń Z nie jest częsty, to dla dowolnego elementu A, zbiór Z A również nie będzie częsty. 20/31

Działanie algorytmu A priori 1 Określamy wartość φ. 2 Tworzenie częstych zbiorów zdarzeń (F 1, F 2, F 3,...). 3 Tworzenie asocjacyjnych. 21/31

Tworzenie częstych zbiorów zdarzeń Tworzenie zbiorów F k Aby znaleźć F k konstruujemy najpierw C k (zbiór k-elementowych kandydatów) poprzez połączenia zbiorów F k 1. Zbiory zdarzeń są łączone jeśli mają wspólnych pierwszych k 1 elementów. 1 Znajdujemy F 1 (jednoelementowe zbiory częste). 2 Znajdujemy F 2 (dwuelementowe zbiory częste): 1 Tworzymy C 2 (zbiór dwuelementowych kandydatów) łącząc zbiory z F 1. 2 Przycinamy C 2 za pomocą właściwości A priori. 3 Pozostałe zbiory tworzą F 2. 3 Znajdujemy F 3 1 Tworzymy C 3 używając F 2. 2 Przycinamy C 3 za pomocą właściwości A priori (tworzone są dwuelementowe podzbiory i sprawdzamy ich częstość). 4... 22/31

Przykład I 23/31

Przykład II Dla φ = 4: F1 : {szparagi, fasola, brokuły, kukurydza, zielona papryka, kabaczki, pomidory} F2 : { {szparagi, fasola}, {szparagi, kabaczki}, {fasola, kukurydza}, {fasola, kabaczki}, {fasola, pomidory}, {kukurydza, pomidory}, {brokuły, zielona papryka} } C3 : { {szparagi, fasola, kabaczki}, {fasola, kukurydza, kabaczki}, {fasola, kukurydza, pomidory}, {fasola, kabaczki, pomidory} } F3 : { {szparagi, fasola, kabaczki} } 24/31

Tworzenie asocjacyjnych Dla jedynego zbioru F 3, s = { szparagi, fasola, kabaczki }: istnieje 6 możliwych podzbiorów s, można stworzyć 6 możliwych asocjacyjnych, np. jeśli ss= { szapragi, fasola } to (s-ss) = { kabaczki } 25/31

Etapy działania I dla 2-elementowego poprzednika i 1-elementowego następnika 26/31

Etapy działania II o pojedynczym poprzedniku i następniku (otrzymane z F 2 ) 27/31

Etapy działania III Ogólna miara użyteczności y j: iloczyn wsparcia i ufności, pozwala ustawić y pod względem występowania i dokładności. Końcowa lista dla ufności nie mniejszej niż 80%: 28/31

Podejście A priori - możliwości i wady może działać też dla zmiennych jakościowych, nie tylko binarnych (1/0). Poprzednikami i następnikami w ach asocjacyjnych będą konkretne wartości zmiennych jakościowych, np.: Jeśli płeć=mężczyzna to zatrudnienie=samozatrudnienie, ufność 85%. Wady: słaba obsługa zmiennych ilościowych - potrzeba ich dyskretyzacji dyskretyzacja może powodować utratę informacji 29/31

(ang. generalized rule induction) - wprowadzona przez Smytha i Goodmana w 1992 r. stosuje podejście teorii informacji aby określić czy dana kandydująca a jest interesujaca. GRI stosuje miarę: J-miara faworyzuje: y, których wartości poprzedników są częste, y, w których p-two następnika jest skrajne (0 lub 1), lub ufność y jest skrajna. 30/31

W wykładzie wykorzystano materiały: D. Hand, H. Mannila, P. Smyth, danych, WNT, Warszawa 2005 D. T. Larose, Odkrywanie Wiedzy z Danych, Wydawnictwo Naukowe PWN, Warszawa 2006 31/31