Inżynieria biomedyczna

Podobne dokumenty
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

Metody eksploracji danych. Reguły asocjacyjne

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Algorytmy odkrywania binarnych reguł asocjacyjnych

Reguły asocjacyjne, wykł. 11

1. Odkrywanie asocjacji

REGU LY ASOCJACYJNE. Nguyen Hung Son. 25 lutego i 04 marca Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski.

Ewelina Dziura Krzysztof Maryański

REGU LY ASOCJACYJNE. Nguyen Hung Son. Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski. 28.II i 6.III, 2008

Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu

Ćwiczenie 5. Metody eksploracji danych

EKSPLORACJA DANYCH METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

EKSPLORACJA DANYCH METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Odkrywanie asocjacji

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Systemy Wspomagania Decyzji

Algorytm DIC. Dynamic Itemset Counting. Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek

Analiza i eksploracja danych

Odkrywanie wzorców sekwencji

Sortowanie. Bartman Jacek Algorytmy i struktury

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Reguły asocjacyjne. Żródło: LaroseD.T., Discovering Knowledge in Data. An Introduction to Data Minig, John Wiley& Sons, Hoboken, New Jersey, 2005.

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Reguły asocjacyjne na giełdzie

Odkrywanie asocjacji. Cel. Geneza problemu analiza koszyka zakupów

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Eksploracja danych Jacek Rumiński

Sprawozdanie z laboratorium: Hurtownie Danych. Algorytm generowania reguł asocjacyjnych. FP-Growth. 9 czerwca 2011

Metody Inżynierii Wiedzy

Reguły decyzyjne, algorytm AQ i CN2. Reguły asocjacyjne, algorytm Apriori.

Odkrywanie asocjacji

Wyszukiwanie reguł asocjacji i ich zastosowanie w internecie

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Eksploracja danych - wykład VIII

Analiza danych i data mining.

WYKŁAD 6. Reguły decyzyjne

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Eksploracja danych. KLASYFIKACJA I REGRESJA cz. 2. Wojciech Waloszek. Teresa Zawadzka.

Reguły asocjacyjne w programie RapidMiner Michał Bereta

Hurtownie danych. Analiza zachowań użytkownika w Internecie. Ewa Kowalczuk, Piotr Śniegowski. Informatyka Wydział Informatyki Politechnika Poznańska

Analiza asocjacji i reguły asocjacyjne w badaniu wyborów zajęć dydaktycznych dokonywanych przez studentów. Zastosowanie algorytmu Apriori

Odkrywanie reguł asocjacyjnych. Rapid Miner

Odkrywanie wzorców sekwencji

Algorytmy klasyfikacji

Klasyfikacja materiałów dźwiękowych w oparciu o algorytm zbiorów domkniętych

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

ANALIZA ZACHOWAŃ UŻYTKOWNIKÓW PORTALU ONET.PL W UJĘCIU REGUŁ ASOCJACYJNYCH

data mining machine learning data science

Ćwiczenia z Zaawansowanych Systemów Baz Danych

A C T A UNIVERSITATIS LODZIENSIS FOLIA OECONOMICA 183,2004. Sebastian Szamański, Ryszard Budziński

METODY INŻYNIERII WIEDZY ASOCJACYJNA REPREZENTACJA POWIĄZANYCH TABEL I WNIOSKOWANIE IGOR CZAJKOWSKI

Automatyczne wyodrębnianie reguł

Algorytmy i struktury danych. Co dziś? Tytułem przypomnienia metoda dziel i zwyciężaj. Wykład VIII Elementarne techniki algorytmiczne

Algorytmy optymalizacji zapytań eksploracyjnych z wykorzystaniem materializowanej perspektywy eksploracyjnej

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Eksploracja danych (data mining)

Mail: Pokój 214, II piętro

Plan wykładu. Reguły asocjacyjne. Przykłady asocjacji. Reguły asocjacyjne. Jeli warunki to efekty. warunki efekty


Analiza algorytmów zadania podstawowe

Adrian Horzyk

Odkrywanie reguł asocjacyjnych

Data Mining Kopalnie Wiedzy

Inżynieria Wiedzy i Systemy Ekspertowe. Reguły asocjacyjne

ALGORYTM RANDOM FOREST

Strategia "dziel i zwyciężaj"

Eksploracja logów procesów. Process mining

Struktury Danych i Złożoność Obliczeniowa

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

10. Redukcja wymiaru - metoda PCA

MECHANIZM PERSPEKTYW MATERIALIZOWANYCH W EKSPLORACJI DANYCH

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

WSTĘP DO INFORMATYKI. Drzewa i struktury drzewiaste

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

BAZY DANYCH. Microsoft Access. Adrian Horzyk OPTYMALIZACJA BAZY DANYCH I TWORZENIE INDEKSÓW. Akademia Górniczo-Hutnicza

Odkrywanie wzorców sekwencyjnych z zachowaniem prywatności

NEGATYWNE REGUŁY ASOCJACYJNE WYZNACZANIE, MIARY I OBSZARY ZASTOSOWANIA

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

CLUSTERING. Metody grupowania danych

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

Wprowadzenie do klasyfikacji

Agnieszka Nowak Brzezińska Wykład III

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja danych. Wielkie bazy danych. Zależności w bazach danych Przykład 1. Zależności w bazach danych Przykład 2

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Wprowadzenie do technologii informacyjnej.

Wielopoziomowe i wielowymiarowe reguły asocjacyjne

Asocjacyjna reprezentacja danych i wnioskowanie

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Wielkie wolumeny danych są trudne w analizowaniu. system satelitarnej obserwacji EOS zbudowany przez NASA generuje

Wykład 8. Drzewo rozpinające (minimum spanning tree)

Data Mining z wykorzystaniem programu Rapid Miner

Algorytmy i struktury danych

Kolejka priorytetowa. Często rozważa się kolejki priorytetowe, w których poszukuje się elementu minimalnego zamiast maksymalnego.

Transkrypt:

Inżynieria biomedyczna Projekt Przygotowanie i realizacja kierunku inżynieria biomedyczna studia międzywydziałowe współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego.

- MSU Hurtownie i eksploracja danych Wykład 2,3 Jacek Rumiński 2

Hurtownie i eksploracja danych Plan wykładu 1. Reguły asocjacyjne wprowadzenie, stosowane miary 2. Algorytm Apriori 3. Algorytm FP Jacek Rumiński 3

Asocjacja (powiązanie) to forma wiedzy ujęta w ramach implikacji zapisywanej jako JEŻELI X TO Y; [X] -> [Y], lub ogólnie [BODY] -> [HEAD]. [X] i [Y] stanowią parametry mierzonego procesu lub obiektu, np. stanowią zapis atrybutów dla danej transakcji. Klasycznym zastosowaniem reguł asocjacyjnych jest - badanie powiązań pomiędzy wybieranymi przez klienta produktami, - badanie powiązań pomiędzy opisem klienta a jego potencjalnymi potrzebami lub możliwościami, - badanie powiązań pomiędzy procesami, - itp. Jacek Rumiński 4

Miarami asocjacji są wsparcie wzorca (support s) oraz ufność wzorca (confidence c). Każda reguła asocjacyjna powinna być opisana wartościami tych miar, np. [towar(x, chleb )] -> [towar(x, masło )] [20%, 45%] {dla analizowanych danych występuje reguła, według której 20% klientów kupuje chleb i masło; a 45% klientów kupujących chleb kupuje również i masło} Dla dużych zestawów danych wsparcie jest z reguły dużo mniejsze niż ufność s<<c, np., s=0.5%, c=50%. Reguły asocjacji mogą być złożone, np. [towar(x, chleb )] AND [towar(x, masło )] -> [towar(x, szynka )] [2%, 15%] Jacek Rumiński 5

Proces eksploracji danych miary i ocena Złożoność np. rozmiar reguły asocjacyjnej, wielkość drzewa decyzyjnego, itp., Pewność np. ufność reguły (confidence) P(A B) = n(a AND B)/ n (B), dokładność i błędy klasyfikacji, Użyteczność np. wsparcie reguły/wzorca (support), przekroczenie progu akceptowalności, itp., Nowość wiedza nowa, nieznana, zaskakująca, itp.. Jacek Rumiński 6

Klienci kupują i chleb i masło Klienci kupują masło Wsparcie wzorca (support), s, prawdopodobieństwo, że transakcja zawiera {X, Y, Z} Klienci kupują chleb Ufność wzorca (confidence), c, prawdopodobieństwo warunkowe, że transakcja zawierająca {X,Y} zawiera również Z Dla jakich powiązań s i c >=50%? ID transakcji Produkt kupowany 2000 A,B,C 1000 A,C 4000 A,D 5000 B,E,F A C (50%, 66.6%) C A (50%, 100%) Par {A,C} jest 2/4 czyli s=0.5. {A} występuje 3 razy, ale tylko w 2 przypadkach jest i {C} czyli c1=2/3. {C} występuje 2 razy i wówczas występuje również {A}, czyli c2=2/2=1. Jacek Rumiński 7

lub Lift = correlation, interest Jacek Rumiński 8

Korelacja (interest, correlation, lift) Support{ X Y} Support{ X} Support{ Y} Pozycje X i Y nie są skorelowane jeśli wartość miary jest mniejsza niż 1, są skorelowane w przeciwnym przypadku X 1 1 1 1 0 0 0 0 Y 1 1 0 0 0 0 0 0 Z 0 1 1 1 1 1 1 1 Zbiór Wsparcie Korelacja X,Y 25% 2 X,Z 37,50% 0,9 Y,Z 12,50% 0,57 Jacek Rumiński 9

Hurtownie i eksploracja danych Plan wykładu 1. Reguły asocjacyjne wprowadzenie, stosowane miary 2. Algorytm Apriori 3. Algorytm FP Jacek Rumiński 10

Wartości miar asocjacji są wykorzystywane dla eliminacji reguł nie istotnych; lub inaczej poszukiwane są te reguły których wsparcie i ufność są większe niż podane przez użytkownika parametry. Zbiór pozycji (wartości atrybutów) jest częsty, jeśli liczba jego wystąpień (wsparcie) jest większa niż zadana wartość progowa. Każdy podzbiór zbioru częstego jest częsty. Jeżeli {XY} to zbiór częsty, to również {X} i {Y} są zbiorami częstymi. Algorytm wyznaczania reguł (zbiorów częstych) - ALG. APRIORI Jacek Rumiński 11

C k k-elementowy zbiór (itemset) kandydat zbioru częstego, L k k-elementowy zbiór (itemset) częsty, i liczba istniejących pozycji (items), Ts wartość progowa powtórzeń, { C 1 = zbiór wszystkich jednoelementowych pozycji; for each transaction t in database do zwiększ liczbę powtórzeń kandydatów z C 1 występujących w t; L 1 = kandydaci z C 1 o s i >Ts; for (k = 1; L k!= ; k++) do { C k+1 =generuj kandydatów z L k ; for each transaction t in database do zwiększ liczbę powtórzeń kandydatów z C k+1 występujących w t; L k+1 = kandydaci z C k+1 o s i >Ts; }return k L k ; } <-wszystkie L Jacek Rumiński 12

Baza danych BD itemset s L C 1 {1} 2 1 TID Items 100 1 3 4 200 2 3 5 300 1 2 3 5 400 2 5 Skanuj BD {2} 3 {3} 3 {4} 1 {5} 3 itemset s {1 2} 1 {1 3} 2 {1 5} 1 {2 3} 2 {2 5} 3 {3 5} 2 C 2 C 2 L itemset s Skanuj {1 3} 2 BD {2 3} 2 {2 5} 3 {3 5} 2 C 3 itemset Skanuj L 3 {2 3 5} BD itemset s {2 3 5} 2 Ts = 1 itemset s {1} 2 {2} 3 {3} 3 {5} 3 itemset {1 2} {1 3} {1 5} {2 3} {2 5} {3 5} wszystkie L (Na podstawie J. Han, M. Kamber, Data Mining Concepts and Techniques, The Morgan Kaufmann Publishers, 2011) Jacek Rumiński 13

Hurtownie i eksploracja danych DEMONSTRACJA Weka Jacek Rumiński 14

L 3 ={abc, abd, acd, ace, bcd} Łączenie L 3 *L 3 {abcd} z {abc} i {abd} {acde} z {acd} i {ace} Usuwanie {acde} jest usuwany ponieważ {ade} L 3 C 4 ={abcd} PROBLEM C k+1 =generuj kandydatów z L k ; ROZWIĄZANIE łącz (L k *L k ) i usuwaj te, których podzbiory nie są w L k (zgodnie z zasadą podzbiory zbiorów częstych są zbiorami częstymi) Przykładowo K=3 Jacek Rumiński 15

Podsumowanie algorytmu apriori Zastosowanie (k 1) elementowych zbiorów częstych do utworzenia k-elementowych zbiorów kandydujących na zbiory częste Skanowanie bazy danych wraz z dopasowaniem wzorca zbioru elementów w celu wyznaczenia liczby powtórzeń Ograniczenia algorytmu Apriori generacja kandydatów Duże zbiory kandydujące na zbiory częste - 10 4 częstych zbiorów 1-elementowych generuje 10 7 zbiorów kandydujących, 2-elementowych, - Odkrycie 100-elementowego zbioru częstego, np., {a 1, a 2,, a 100 }, wymaga generacji 2 100 10 30 kandydatów. Liczne operacje odczytu (skanowania) bazy danych - Jeżeli n oznacza wymiar największego zbioru (wzorca) wówczas wymagane jest w ogólności (n +1 ) operacji skanowania bazy danych. Jacek Rumiński 16

Hurtownie i eksploracja danych Plan wykładu 1. Reguły asocjacyjne wprowadzenie, stosowane miary 2. Algorytm Apriori 3. Algorytm FP Jacek Rumiński 17

Kompresja dużych baz danych do postaci kompaktowej poprzez zastosowanie drzew częstych wzorców, Frequent-Pattern tree (FP-tree) Wysoce upakowana struktura, Eliminacja dużej liczby skanów bazy danych. Znaczenie drzewa FP w eksploracji danych Wykorzystanie zasady rozdziału zadań złożonych na zadania proste, Eliminacja procedury generacji kandydatów testy na podzbiorach. Procedura 1. Budujemy drzewo FP 2. Generujemy zbiory częste na podstawi analiz drzewa FP Na podstawie Jiawei Han, Jian Pei, Yiwen Yin Mining Frequent Patterns without Candidate Generation In Proceedings of the 2000 ACM SIGMOD international Conference on Management of Data (Dallas, Texas, United States, May 15-18, 2000). SIGMOD '00. ACM Press, New York, NY, 1-12. Jacek Rumiński 18

TID pozycje kupowane pozycje posortowane według częstości 100 {f, a, c, d, g, i, m, p} {f, c, a, m, p} 200 {a, b, c, f, l, m, o} {f, c, a, b, m} 300 {b, f, h, j, o} {f, b} 400 {b, c, k, s, p} {c, b, p} 500 {a, f, c, e, l, p, m, n} {f, c, a, m, p} Kroki 1. Budujemy drzewo FP 1. Skanowanie bazy celem wygenerowania 1- elementowych zbiorów częstych 2. Sortowanie malejące zbiorów według częstości ich występowania 3. Skanowanie bazy budowanie drzewa FP Tabela nagłówkowa Pozycja częstość link f 4 c 4 a 3 b 3 m 3 p 3 min_support = 0,5 (co najmniej 3 razy) m2 c3 a3 {} f4 c1 b1 p2 m1 (Na podstawie J. Han, M. Kamber, Data Mining Concepts and Techniques, The Morgan Kaufmann Publishers, 2011) Jacek Rumiński 19 b1 b1 p1

Kompletność Zachowuje kompletną informację o zbiorach częstych Kompaktowość Redukcja informacji nieistotnych zbiorów rzadkich, Reprezentacja według częstości wzorców współdzielenie częstych podzbiorów, Rozmiar mniejszy niż oryginalna baza danych (nie licząc danych tymczasowych, np. zliczeń). Metoda Dla każdej pozycji (węzła drzewa) zbuduj bazę wzorców zależnych (conditional pattern-base), z odpowiednimi drzewami FP (conditional FP-tree), Czynność powyższą powtarzaj dla kolejnych poddrzew, Jeśli dane drzewo jest puste lub zawiera tylko jedną ścieżkę zakończ. Jacek Rumiński 20

2. Generujemy zbiory częste FP krok 1 Stwórz bazę wzorców zależnych Od najczęstszych wzorców skanuj drzewo FP analizując kolejne ścieżki, Zapisz kolejne wzorce wraz z ich częstościami występować w bazie wzorców zależnych Tablica nagłówkowa Pozycja częstość link f 4 c 4 a 3 b 3 m 3 p 3 m2 c3 a3 {} f4 c1 b1 p2 m1 b1 b1 p1 Baza wzorców zależnych pozycja wzorzec c f3 a fc3 b fca1, f1, c1 m fca2, fcab1 p fcam2, cb1 Jacek Rumiński 21

FP krok 2 Dla bazy wzorców zależnych zbuduj drzewa FP Dla każdej bazy Policz częstość każdej pozycji w bazie Stwórz drzewo FP dla pozycji częstych w bazy wzorców Tablica nagłówkowa Pozycja częstość link f 4 c 4 a 3 b 3 m 3 p 3 m2 c3 a3 {} f4 c1 b1 p2 m1 b1 b1 p1 Baza wzorców m-zależnych fca2, fcab1 {} f3 c3 a3 m-zależne drzewo FP (co najmniej 3 razy) Wszystkie częste wzorce z m m, fm, cm, am, fcm, fam, cam, Jacek Rumiński 22 fcam

Eksploracja wzorców częstych poprzez stworzenie baz wzorców zależnych (co najmniej 3 razy) Pozycja p m b a c f Baza wzorców zależnych {(fcam2), (cb1)} {(fca2), (fcab1)} {(fca1), (f1), (c1)} {(fc3)} {(f3)} Puste Zależne drzewa FP {(c3)} p {(f3, c3, a3)} m Puste {(f3, c3)} a {(f3)} c Puste Jacek Rumiński 23

FP krok 3 Rekursywna eksploracja zależnych drzew FP {} {} f3 c3 a3 m-zależne drzewo FP Baza wzorców zależnych od am (fc3) f3 c3 am- zależne drzewo FP {} Baza wzorców zależnych od cm (f3) f3 cm- zależne drzewo FP {} Baza wzorców zależnych od cam (f3) f3 cam- zależne drzewo FP ANALOGICZNIE DLA INNYCH ŚCIEŻEK!!! Jacek Rumiński 24

FP krok 3 Rekursywna eksploracja zależnych drzew FP Załóżmy, że drzewo FP T ma pojedynczą ścieżkę P, Pełny zbiór wzorców częstych T może być wygenerowany poprzez wyliczenie wszystkich kombinacji krawędzi ścieżki P {} f3 c3 a3 Wszystkie częste wzorce z m m, fm, cm, am, fcm, fam, cam, fcam m-zależne drzewo FP Jacek Rumiński 25

Hurtownie i eksploracja danych Porównanie metod Apriori i drzew FP Jacek Rumiński

Wizualizacja reguł Jacek Rumiński 27

Wizualizacja reguł XELOPE Jacek Rumiński 28

Wizualizacja reguł Jacek Rumiński 29

Wizualizacja reguł Jacek Rumiński 30

Hurtownie i eksploracja danych DEMONSTRACJA Artools Jacek Rumiński 31

Hurtownie i eksploracja danych Zapraszam na kolejny wykład, który będzie poświęcony metodom klasyfikacji danych w eksploracji danych. Jacek Rumiński 32

Podsumowanie Projekt Przygotowanie i realizacja kierunku inżynieria biomedyczna studia międzywydziałowe współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego.