Analiza i eksploracja danych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Analiza i eksploracja danych"

Transkrypt

1 Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Inteligentne Systemy Wspomagania Decyzji Studia magisterskie, semestr I Semestr letni 2007/08

2 Plan wykładu Systemy baz i hurtowni danych wprowadzenie do wykładu Modele danych i ewolucja systemów baz danych Projektowanie hurtowni danych i modelowanie wielowymiarowe Systemy OLAP Język MDX Proces ekstrakcji, transformacji i ładowania danych (Proces ETL)

3 Plan wykładu 1 Od hurtowni danych do eksploracji danych 2 Analityczne rozszerzenia systemów OLAP 3 Reguły Asocjacyjne 4 Algorytm Apriori 5 Odkrywanie sekwencji 6 Wybór interesujacych reguł asocjacyjnych 7 Podsumowanie

4 Plan wykładu 1 Od hurtowni danych do eksploracji danych 2 Analityczne rozszerzenia systemów OLAP 3 Reguły Asocjacyjne 4 Algorytm Apriori 5 Odkrywanie sekwencji 6 Wybór interesujacych reguł asocjacyjnych 7 Podsumowanie

5 Zastosowanie hurtowni danych: Przetwarzanie informacji: wydawanie zapytań, podstawowa analiza statystyczna, tworzenie raportów, wykresów itp., Przetwarzanie analityczne: podstawowe operacje OLAP, Zaawansowane przetwarzanie analityczne: rozszerzone operacje OLAP, Eksploracja danych: odkrywanie ukrytych i nietrywialnych wzorców, zwiazków w danych poprzez tworzenie modeli analitycznych; wizualizacja.

6 Przetwarzanie eksploracyjne na bieżaco (On-line Analytical Mining)

7 Plan wykładu 1 Od hurtowni danych do eksploracji danych 2 Analityczne rozszerzenia systemów OLAP 3 Reguły Asocjacyjne 4 Algorytm Apriori 5 Odkrywanie sekwencji 6 Wybór interesujacych reguł asocjacyjnych 7 Podsumowanie

8 Eksploracja hipotez Eksploracja hipotez w systemach OLAP polega na przegladaniu kostki danych i wyszukiwaniu w niej interesujacych informacji. Proces ten nie jest w żaden sposób wspierany, użytkownik formułuje hipotezy i sprawdza je w danych. Eksploracja odkrywcza Eksploracja odkrywcza w systemach OLAP polega na wspomaganiu przegladania kostki danych w celu wyszukiwania w niej interesujacych informacji. System wspomaga wybór najciekawszych wymiarów i podświetla interesujace wartości.

9 Eksploracja odkrywcza Sarawagi, S., Agrawal, R., Megiddo N.: Discovery-driven exploration of OLAP data cubes. Proc. of the Sixth Int. Conference on Extending Database Technology (EDBT), Valencia, Spain, March 1998 Sarawagi, S., Agrawal, R., Megiddo N.: IBM Research Report RJ (91918), January 1998 ( Publications/papers/edbt98_ex_rj.pdf)

10 Poszukiwanie nieoczekiwanych wartości miar: SelfExp: reprezentuje nieoczekiwana wartość komórki ze względu na wartości innych komórek na tym samym poziomie agregacji, InExp: reprezentuje stopień zaskoczenia gdzieś poniżej danej komórki (w hierarchii wymiarów operacja drill down), PathExp: reprezentuje stopień zaskoczenia dla każdej możliwej ścieżki w dół dla danej komórki.

11 Eksploracja odkrywcza

12 Eksploracja odkrywcza

13 Eksploracja odkrywcza

14 Eksploracja odkrywcza

15 Eksploracja odkrywcza

16 Eksploracja odkrywcza

17 Eksploracja odkrywcza: y Wartość komórki, E(y) Wartość oczekiwana, R = y E(y) σ standaryzowane residuum (σ oznacza odchylenie standardowe), R τ wartość nieoczekiwana, E(y ijk ) = f (g(), g A (i), g B (j), g C (k), g AB (i, j), g BC (j, k), g AC (i, k)), SelfExp: wartość bezwzględna residuum z uwzględnieniem progu odcięcia, InExp: maksymalna wartość SelfExp w komórkach poniżej danej komórki, PathExp: maksymalna wartość SelfExp po wszystkich komórkach osiagalnych poprzez rozwijanie (drill down) danej ścieżki.

18 Plan wykładu 1 Od hurtowni danych do eksploracji danych 2 Analityczne rozszerzenia systemów OLAP 3 Reguły Asocjacyjne 4 Algorytm Apriori 5 Odkrywanie sekwencji 6 Wybór interesujacych reguł asocjacyjnych 7 Podsumowanie

19 Generowanie reguł asocjacyjnych jest jedna z głównych i najbardziej popularnych operacji w eksploracji danych, która pozwala na analizę ogromnych wolumenów danych.

20 Analiza koszyka zakupów Dla danej bazy danych transakcji konsumenckich, gdzie każda transakcja jest zbiorem produktów, znajdź grupę produktów, które sa często kupowane razem. Analiza koszyka zakupów: Wyciagana jest informacje o zachowaniach klientów, Odkryta informacja może posłużyć do odpowiedniego ustawienia produktów w sklepie, dodania nowych produktów do asortymentu, oraz do ustalenia, które produkty i w jaki sposób promować.

21 Zastosowanie analizy koszyka zakupów: Telekomunikacja (klient jest traktowany jako transakcja składajaca się z rozmów z innymi abonentami), Prognoza pogody (przedział czasowy jest transakcja składajac a się z zbiory zaobserwowanych zdarzeń pogodowych), Karty kredytowe, Usługi bankowe, Diagnostyka medyczna.

22 Reguły asocjacyjne wyrażaja, jak produkty/usługi powiazane sa ze soba i czy maja tendencje do wspólnego występowania: Jeżeli klient kupił chipsy, to jest prawdopodobne, ze również kupi piwo Reguły asocjacyjne sa proste w interpretacji!!!

23 Sformułowanie problemu: I = {i 1, i 2,..., i n } jest zbiorem produktów, Transakcja T jest zbiorem produktów takim, że T I, Baza danych D jest zbiorem transakcji, Transakcja T zawiera X I, jeżeli X T, Reguła asocjacyjna jest implikacja w postaci X Y, gdzie X, Y I.

24 Miary reguł asocjacyjnych: Wsparcie (ang. support) Zbiór produktów X ma wsparcie sup(x) = s w bazie danych D, jeżeli s% transakcji w D zawiera X, czyli: sup(x) = Card({T D : X T }). Card(D) Reguła asocjacyjna X Y ma wsparcie sup(x Y ) = s w bazie danych D, jeżeli s% transakcji w D zawiera X Y, czyli: sup(x Y ) = sup(x Y ) = Card({T D : X Y T }). Card(D)

25 Miary reguł asocjacyjnych: Zaufanie (ang. confidence) Reguła asocjacyjna X Y zachodzi w bazie danych D z zaufaniem conf (X Y ) = c, jeżeli c% transakcji w D, które zawieraja X, zawieraja również Y. conf (X Y ) = Card({T D : X Y T }) Card({T D : X T }) = sup(x Y ) sup(x)

26 Miary reguł asocjacyjnych: Wsparcie sup(x Y ) oznacza częstość występowania reguły w transakcjach w bazie danych. Duża wartość oznacza, że reguła dotyczy dużej części transakcji bazy danych: sup(x Y ) = P(X Y ) gdzie P oznacza prawdopodobieństwo. Zaufanie conf (X Y ) oznacza procent transakcji zawierajacych X, które również zawieraja Y. Jest to estymator prawdopodobieństwa warunkowego: conf (X Y ) = P(Y X) = P(X Y ) P(X) gdzie P oznacza prawdopodobieństwo.

27 Miary reguł asocjacyjnych: Użytkownik ustawia parametry reguł, którymi jest zainteresowany: minimalne wsparcie minsup minimalne zaufanie minconf Reguła pojawia się w wyniku końcowym, jeżeli zachodzi s minsup i c minconf.

28 Minimalne wsparcie: Miary reguł asocjacyjnych: duże niewiele reguł, które występuja bardzo często (reguły oczywiste, trywialne), małe dużo reguł, które występuja rzadko. Minimalne zaufanie: duże mało reguł, ale wszystkie prawie logicznie prawdziwe, małe dużo reguł, ale wiele z nich bardzo niepewnych. Typowe wartości: minsup 2%, 10%, minconf 70%, 90%.

29 Sformułowanie problemu: Znajdź wszystkie reguły, które maja wsparcie i zaufanie większe, od zadanych przez użytkownika, minimalnego wsparcia (minsup) i minimalnego zaufania (minconf). Example Transakcje Produkty 100 A, B, C 200 A, C 300 A, D 400 B, E, F Zadane parametry: minsup = 50%, minconf = 50%

30 Sformułowanie problemu: Znajdź wszystkie reguły, które maja wsparcie i zaufanie większe, od zadanych przez użytkownika, minimalnego wsparcia (minsup) i minimalnego zaufania (minconf). Example Transakcje Produkty 100 A, B, C 200 A, C 300 A, D 400 B, E, F Zadane parametry: minsup = 50%, minconf = 50% Reguły asocjacyjne: A C (sup = 50%, conf = 66%), C A (sup = 50%, conf = 100%).

31 Ogólny algorytm odkrywania reguł asocjacyjnych Znajdź wszystkie zbiory produktów L i = {I i1, I i2,..., I im }, L i I, dla których sup(l i ) minsup. Zbiór L i jest nazywany zbiorem częstym produktów. Wykorzystaj zbiory częste produktów to wygenerowania reguł asocjacyjnych Algorytmem Generowania Reguł.

32 Algorytm Generowania Reguł for each L i (zbiór częsty produktów) do for each SL i L i do if sup(l i ) sup(sl i ) minconf then stwórz regułę: SL i L i SL i o parametrach conf = sup(l i ) sup(sl i ) i sup = sup(l i )

33 Plan wykładu 1 Od hurtowni danych do eksploracji danych 2 Analityczne rozszerzenia systemów OLAP 3 Reguły Asocjacyjne 4 Algorytm Apriori 5 Odkrywanie sekwencji 6 Wybór interesujacych reguł asocjacyjnych 7 Podsumowanie

34 Algorytm Apriori Załóżmy, że wszystkie transakcje sa wewnętrznie posortowane zgodnie z porzadkiem leksykograficznym (pozwala to na zwiększenie efektywności algorytmu), L k oznacza zbiór częstych produktów o rozmiarze k (zbiór k-elementowy) zbiór częsty k-produktów, C k oznacza zbiór kandydatów, potencjalnych zbiorów częstych produktów, o rozmiarze k kandydat k-produktowy. Zauważmy, że jeżeli rozmiar zbioru zwiększa się, to wsparcie nie może rosnać.

35 Algorytm Apriori L 1 = {zbiór częsty 1-produktu}; for (k = 2;L k 1 ;k + +) do C k = apriori_gen(l k 1 ); for each transakcji t T do C t = {c C k : c t}; forall c C t do c.count + +; L k = {c C k : c.count minsup}; Odpowiedź = k L k;

36 Generacja Kandydatów Apriori (apriori_gen) INSERT INTO C k SELECT p.item 1, p.item 2,..., p.item k 1, q.item k 1 FROM L k 1 p, L k 1 q WHERE p.item 1 = q.item 1,... and p.item k 2 = q.item k 2 and p.item k 1 < q.item k 1 ; for all c C k do forall (k 1)-podzbiorów s c do if (s L k 1 ) then usuń c z C k ;

37 Apriori Candidate Generation dla danego L k, generuje C k+1 w dwóch krokach: Krok połaczenia: połacz L k1 z L k2, z warunkiem połaczenia takim, że pierwsze k 1 produktów jest takich samych i L k1 [k] < L k2 [k], Krok czyszczenia: usuń wszystkich kandydatów, których podzbiory nie sa zbiorami częstymi produktów.

38 Generowanie zbiorów częstych produktów Transakcje Produkty 100 1, 3, , 3, , 2, 3, , 5 Wygeneruj zbiory częste produktów z minsup = 50% = 2 transakcji. C 1 p 1 sup L 1 p 1 sup

39 Generowanie zbiorów częstych produktów C 2 p 1 p 2 sup C 3 p 1 p 2 p 3 sup L 3 p 1 p 2 p 3 sup C 4 = i L 4 = L 2 p 1 p 2 sup

40 Algorytm Apriori wykorzystuje własność monotoniczności. Własność monotoniczności Każdy podzbiór zbioru częstego produktów jest również zbiorem częstym, innymi słowami, jeżeli B jest zbiorem częstym oraz A B, to A jest również zbiorem częstym. Wniosek Jeżeli A nie jest zbiorem częstym, wtedy nie należy generować zbiorów produktów, które zawieraja A. Krok połaczenia i czyszczenie sa równoważne rozszerzaniu każdego zbioru produktów L k z każdym produktem w bazie danych i usuwaniu tych kandydatów z C k+1, których podzbiory (C k+1 C[k]) nie sa częste.

41 Jeżeli AD nie jest częsty, to nie należy generować zbiorów produktów, które zawieraja AD, tzn. ABD, ACD i ABCD nie sa także zbiorami częstymi produktów.

42 Odkrywanie reguł Dla zbioru częstego produktów {2, 3, 5}: 23 5 support = 2 confidence = 100% 25 3 support = 2 confidence = 66% 35 2 support = 2 confidence = 100% 2 35 support = 2 confidence = 66% 3 25 support = 2 confidence = 66% 5 23 support = 2 confidence = 66%

43 Zadanie Dla następujacej bazy danych: Transakcje Produkty 1 bread, milk 2 beer, milk, sugar 3 bread 4 bread, beer, milk 5 beer, milk, sugar przyjmij następujace wartości dla minsup i minconf: i wygeneruj reguły asocjacyjne. minsup = 30% minconf = 70%

44 Plan wykładu 1 Od hurtowni danych do eksploracji danych 2 Analityczne rozszerzenia systemów OLAP 3 Reguły Asocjacyjne 4 Algorytm Apriori 5 Odkrywanie sekwencji 6 Wybór interesujacych reguł asocjacyjnych 7 Podsumowanie

45 Odkrywanie sekwencji Odkrywanie sekwencji jest to odkrywanie często występujacych wzorców odnoszacych się do czasu lub innego rodzaju porzadku. Przykład Klient, który kupił telewizor, po pewnym czasie kupi magnetowid, itp. Zastosowania: Odkrywanie porzadku odwiedzania stron, Kolejności dokonywania zakupów, Cykl życia klienta sieci telekomunikacyjnej.

46 Sformułowanie problemu: I = {i 1, i 2,..., i n } jest zbiorem produktów, Transakcja T jest podzbiorem produktów T I, Sekwencja S jest lista podzbiorów produktów (S 1, S 2,..., S n ), gdzie S i I, Baza danych D jest zbiorem sekwencji, Sekwencja (A 1, A 2,..., A n ) zawiera się w sekwencji (B 1, B 2,..., B m ), jeżeli istnieja liczby naturalne i 1 < i 2 <... < i n, takie że: A 1 B i1, A 2 B i2,..., A n B in, Przykład: ({B}, {DE}) zawiera się w ({A}, {B}, {C}, {DAE}, {C}), ({A}, {B}) nie zawiera się w ({AB}) i na odwrót.

47 Sformułowanie problemu: Sekwencja dla klienta: transakcja zbiór produktów, lista transakcji dla konkretnego klienta uporzadkowana zgodnie z czasem sekwencja, Klient wspiera sekwencje S i, jeżeli S i zawiera się w sekwencji dla danego klienta, Wsparcie sekwencji S i to liczba klientów, którzy wspieraja S i, Długość sekwencji to liczba kolejnych podzbiorów produktów w niej zawartych (np. length(({b}, {DE})) = 2).

48 Sekwencje z minimalnym wsparciem nazywane sa częstymi sekwencjami, Wsparcie dla podzbioru produktów X: liczba klientów, którzy kupuja wszystkie produkty z X w jednej transakcji.

49 Sformułowanie problemu: Dla danej bazy danych D transakcji, znajdź najdłuższe sekwencje spośród wszystkich o minimalnym wsparciu podanym przez użytkownika.

50 Przykładowa bazy danych: Klient Data Produkty 1 1 A 1 2 A 2 1 A 2 2 B 2 3 C,E 3 1 A,E 4 1 A 4 2 C,D,E 4 3 A 5 1 A Przykładowe sekwencje: ({A},{A}): wsparcie dwóch klientów ({A},{C,E}): wsparcie dwóch klientów

51 Przykładowa bazy danych: Klient Data Produkty 1 1 A 1 2 A 2 1 A 2 2 B 2 3 C,E 3 1 A,E 4 1 A 4 2 C,D,E 4 3 A 5 1 A Przykładowe sekwencje: ({A},{A}): wsparcie dwóch klientów ({A},{C,E}): wsparcie dwóch klientów

52 Algorytm: Faza sortowania (według klientów i daty) Identyfikacja zbiorów częstych produktów (dla klientów) - sekwencji o długości 1, Faza transformacji - mapowanie każdej transakcji do zbioru wszystkich zbiorów częstych produktów zawartych w transakcji, Szukanie sekwencji - szukanie sekwencji algorytmem apriori, Faza najdłuższych sekwencji - usunięcie sekwencji będacymi podsekwencjami innych sekwencji.

53 Faza sortowania: uporzadkuj bazę danych D według klientów i daty transakcji. Celem tej fazy jest transformacja oryginalnej bazy danych do bazy danych sekwencji klientów. Klient Data Produkty 1 1 A 1 2 A 2 1 A 2 2 B 2 3 C,E 3 1 A,E 4 1 A 4 2 C,D,E 4 3 A 5 1 A Klient Produkty 1 ({A},{A}) 2 ({A},{B},{CE}) 3 ({AE}) 4 ({A},{CDE},{A}) 5 ({A})

54 Identyfikacja zbiorów częstych produktów: znajdź wszystkie częste sekwencje o długości 1 algorytmem Apriori. Uwaga: wsparciem jest liczba klientów, a nie transakcji. Klient Produkty 1 ({A},{A}) 2 ({A},{B},{CE}) 3 ({AE}) 4 ({A},{CDE},{A}) 5 ({A}) Wsparcie dla {A} jest 100%

55 Faza transformacji: mapuj każda transakcję do zbiorów częstych produktów zawartych w transakcji. Można wykorzystać kodowanie liczbami naturalnymi. Zbiory częste Kodowanie {A} 1 {B} 2 {C} 3 {BC} 4 Przykładowa transformacja: Transakcja: ({D}, {A}, {BEC}, {C}), Transformacja: ({A}, {{B}, {C}, {BC}}, {C}) Po mapowaniu: ({1}, {2, 3, 4}, {3}).

56 Szukanie sekwencji algorytmem Apriori L 1 = {częste sekwencje o długości 1}; //rezultat 2 fazy for (k = 2;L k 1 ;k + +) do C k = apriori_gen_seq(l k 1 ); for each klient-sekwencji k D do C t = {c C k : c k}; forall c C t do c.count + +; L k = {c C k : c.count minsup}; Odpowiedź = k L k;

57 Generowanie kandydatów dla sekwencji (apriori_gen_seq) INSERT INTO C k SELECT p.item 1, p.item 2,..., p.item k 1, q.item k 1 FROM L k 1 p, L k 1 q WHERE p.item 1 = q.item 1,... AND p.item k 2 = q.item k 2 ; for all c C k do forall (k 1)-podzbioru s c do if (s L k 1 ) then usuń c z C k ;

58 Wykorzystanie algorytmu Apriori w szukaniu sekwencji: Nie szukamy reguł, a jedynie zbiorów częstych, k 2 elementy zbioru częstego produktu należacego do L k 1 powinny być takie same w kroku łaczenia Uporzadkowanie leksykograficzne nie jest zachowane - można łaczyć sekwencje ze sama soba, Usuwanie kandydatów, których podkandydaci nie sa sekwencjami częstymi L 3 C 4 : łaczenie C 4 : usuwanie

59 Faza najdłuższych sekwencji: usuń sekwencje będace podsekwencjami innych częstych sekwencji. for (k = n;k > 1;k ) do for each k-sekwencji s k S do for each k-sekwencji s i S, gdzie s < k do if s i zawiera się w s k then S = S - s i Answer = S;

60 Zadanie Dla poniższej bazy danych po fazie transformacji znajdź sekwencje o minimalnym wsparciu 40% Klient Produkty 1 ({1,5},{2},{3},{4}) 2 ({1},{2},{4},{3,5}) 3 ({1},{2},{3},{5}) 4 ({1},{3},{5}) 5 ({4},{5})

61 Plan wykładu 1 Od hurtowni danych do eksploracji danych 2 Analityczne rozszerzenia systemów OLAP 3 Reguły Asocjacyjne 4 Algorytm Apriori 5 Odkrywanie sekwencji 6 Wybór interesujacych reguł asocjacyjnych 7 Podsumowanie

62 Problem: Podczas generowania reguł asocjacyjnych, w jaki sposób system eksploracji danych jest w stanie zaprezentować reguły, które będa najbardziej interesujace dla użytkownika (Han). Duży zbiór danych może prowadzić do bardzo dużej liczby reguł asocjacyjnych, nawet przy odpowiednim doborze minimalnego zaufania i wsparcia, Silne reguły nie musza być koniecznie najbardziej interesujace, Tak naprawdę, tylko użytkownik może stwierdzić, czy dana reguła jest interesujaca, czy nie!

63 Przykład kawa nie kawa suma herbata nie herbata suma Następujaca reguła asocjacyjna zostanie odkryta: herbata kawa (s = 20/100 = 20%, c = 20/25 = 80%) Reguła o dużym wsparciu i zaufaniu!

64 Przykład Prawdopodobieństwo, że klient kupi kawę jest 90%!!! klient, o którym wiadomo, że kupuje herbatę, z dużo mniejszym prawdopodobieństwem kupuje kawę, występuje negatywna korelacja pomiędzy kupowaniem herbaty i kawy, nie herbata kawa (s = 70%, c = 70/75 = 93%).

65 Miara dźwigni (lift) Dźwignia reguły asocjacyjnej X Y jest zdefiniowana następujaco: lift(x Y ) = P(Y X) P(Y ) = conf (X Y ) sup(y ) Jest to stosunek zaufania do tzw. zaufania oczekiwanego. Interpretacja: Jeżeli lift(x Y ) > 1, to X i Y sa pozytywnie skorelowane, lift(x Y ) < 1, to X i Y sa negatywnie skorelowane, lift(x Y ) = 1, to X i Y sa niezależne. W przykładzie: lift(herbata kawa) = 0.89, tzn. herbata i kawa sa negatywnie skorelowane.

66 Interpretacja matematyczna: Dwa zdarzenia A i B sa niezależne jeżeli P(A B) = P(A) P(B), w przeciwnym przypadku sa one skorelowane. Dźwignia może zostać przypisana do postaci: lift(a B) = conf (A B) sup(b) = P(A B) P(A) P(B).

67 Plan wykładu 1 Od hurtowni danych do eksploracji danych 2 Analityczne rozszerzenia systemów OLAP 3 Reguły Asocjacyjne 4 Algorytm Apriori 5 Odkrywanie sekwencji 6 Wybór interesujacych reguł asocjacyjnych 7 Podsumowanie

68 Podsumowanie Generowanie reguł asocjacyjnych jest jedna z głównych i najbardziej popularnych operacji w eksploracji danych, która pozwala na analizę ogromnych wolumenów danych. Algorytm Apriori, Uogólnienie algorytmu Apriori do odkrywania częstych sekwencji.

69 Plan wykładu Systemy baz i hurtowni danych wprowadzenie do wykładu Modele danych i ewolucja systemów baz danych Projektowanie hurtowni danych i modelowanie wielowymiarowe Systemy OLAP Język MDX Proces ekstrakcji, transformacji i ładowania danych (Proces ETL)

Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu

Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu Data Mining Wykład 3 Algorytmy odkrywania binarnych reguł asocjacyjnych Plan wykładu Algorytm Apriori Funkcja apriori_gen(ck) Generacja zbiorów kandydujących Generacja reguł Efektywności działania Własności

Bardziej szczegółowo

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2 Data Mining Wykład 2 Odkrywanie asocjacji Plan wykładu Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych Geneza problemu Geneza problemu odkrywania reguł

Bardziej szczegółowo

Odkrywanie asocjacji

Odkrywanie asocjacji Odkrywanie asocjacji Cel odkrywania asocjacji Znalezienie interesujących zależności lub korelacji, tzw. asocjacji Analiza dużych zbiorów danych Wynik procesu: zbiór reguł asocjacyjnych Witold Andrzejewski,

Bardziej szczegółowo

Metody eksploracji danych. Reguły asocjacyjne

Metody eksploracji danych. Reguły asocjacyjne Metody eksploracji danych Reguły asocjacyjne Analiza podobieństw i koszyka sklepowego Analiza podobieństw jest badaniem atrybutów lub cech, które są powiązane ze sobą. Metody analizy podobieństw, znane

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Systemy OLAP I Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr zimowy 2008/09 Studia

Bardziej szczegółowo

Ewelina Dziura Krzysztof Maryański

Ewelina Dziura Krzysztof Maryański Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład

Bardziej szczegółowo

Inżynieria biomedyczna

Inżynieria biomedyczna Inżynieria biomedyczna Projekt Przygotowanie i realizacja kierunku inżynieria biomedyczna studia międzywydziałowe współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego.

Bardziej szczegółowo

Algorytmy odkrywania binarnych reguł asocjacyjnych

Algorytmy odkrywania binarnych reguł asocjacyjnych Algorytmy odkrywania binarnych reguł asocjacyjnych A-priori FP-Growth Odkrywanie asocjacji wykład 2 Celem naszego wykładu jest zapoznanie się z dwoma podstawowymi algorytmami odkrywania binarnych reguł

Bardziej szczegółowo

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Systemy OLAP I. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr zimowy 2007/08 Studia uzupełniajace magisterskie

Bardziej szczegółowo

Odkrywanie asocjacji

Odkrywanie asocjacji Odkrywanie asocjacji Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Odkrywanie asocjacji wykład 1 Wykład jest poświęcony wprowadzeniu i zaznajomieniu się z problemem odkrywania reguł asocjacyjnych.

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING EKSPLORACJA DANYCH Ćwiczenia Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Systemy Wspomagania Decyzji

Systemy Wspomagania Decyzji Reguły Asocjacyjne Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności March 18, 2014 1 Wprowadzenie 2 Definicja 3 Szukanie reguł asocjacyjnych 4 Przykłady użycia 5 Podsumowanie Problem Lista

Bardziej szczegółowo

Odkrywanie wzorców sekwencji

Odkrywanie wzorców sekwencji Odkrywanie wzorców sekwencji Sformułowanie problemu Algorytm GSP Eksploracja wzorców sekwencji wykład 1 Na wykładzie zapoznamy się z problemem odkrywania wzorców sekwencji. Rozpoczniemy od wprowadzenia

Bardziej szczegółowo

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska

Systemy OLAP II. Krzysztof Dembczyński. Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr letni 2006/07 Plan wykładu Systemy baz

Bardziej szczegółowo

Systemy baz danych i hurtowni danych

Systemy baz danych i hurtowni danych Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr zimowy 2005/06 Celem wykładu jest przypomnienie

Bardziej szczegółowo

1. Odkrywanie asocjacji

1. Odkrywanie asocjacji 1. 2. Odkrywanie asocjacji...1 Algorytmy...1 1. A priori...1 2. Algorytm FP-Growth...2 3. Wykorzystanie narzędzi Oracle Data Miner i Rapid Miner do odkrywania reguł asocjacyjnych...2 3.1. Odkrywanie reguł

Bardziej szczegółowo

Odkrywanie asocjacji. Cel. Geneza problemu analiza koszyka zakupów

Odkrywanie asocjacji. Cel. Geneza problemu analiza koszyka zakupów Odkrywanie asocjacji Cel Celem procesu odkrywania asocjacji jest znalezienie interesujących zależności lub korelacji (nazywanych ogólnie asocjacjami) pomiędzy danymi w dużych zbiorach danych. Wynikiem

Bardziej szczegółowo

Hurtownie danych. Wstęp. Architektura hurtowni danych. http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH

Hurtownie danych. Wstęp. Architektura hurtowni danych. http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH Wstęp. Architektura hurtowni. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur CO TO JEST HURTOWNIA DANYCH B. Inmon, 1996: Hurtownia to zbiór zintegrowanych, nieulotnych, ukierunkowanych

Bardziej szczegółowo

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji

Bardziej szczegółowo

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining 0LNRáDM0RU]\ Marek Wojciechowski Instytut Informatyki PP Eksploracja danych 2GNU\ZDQLHZ]RUFyZZGX*\FK

Bardziej szczegółowo

Wielopoziomowe i wielowymiarowe reguły asocjacyjne

Wielopoziomowe i wielowymiarowe reguły asocjacyjne Wielopoziomowe i wielowymiarowe reguły asocjacyjne Wielopoziomowe reguły asocjacyjne Wielowymiarowe reguły asocjacyjne Asocjacje vs korelacja Odkrywanie asocjacji wykład 3 Kontynuując zagadnienia związane

Bardziej szczegółowo

OLAP i hurtownie danych c.d.

OLAP i hurtownie danych c.d. OLAP i hurtownie danych c.d. Przypomnienie OLAP -narzędzia analizy danych Hurtownie danych -duże bazy danych zorientowane tematycznie, nieulotne, zmienne w czasie, wspierjące procesy podejmowania decyzji

Bardziej szczegółowo

Reguły asocjacyjne. Żródło: LaroseD.T., Discovering Knowledge in Data. An Introduction to Data Minig, John Wiley& Sons, Hoboken, New Jersey, 2005.

Reguły asocjacyjne. Żródło: LaroseD.T., Discovering Knowledge in Data. An Introduction to Data Minig, John Wiley& Sons, Hoboken, New Jersey, 2005. Reguły asocjacyjne Żródło: LaroseD.T., Discovering Knowledge in Data. An Introduction to Data Minig, John Wiley& Sons, Hoboken, New Jersey, 2005. Stragan warzywny -transakcje zakupów Transakcja Produkty

Bardziej szczegółowo

Plan prezentacji 0 Wprowadzenie 0 Zastosowania 0 Przykładowe metody 0 Zagadnienia poboczne 0 Przyszłość 0 Podsumowanie 7 Jak powstaje wiedza? Dane Informacje Wiedza Zrozumienie 8 Przykład Teleskop Hubble

Bardziej szczegółowo

SAS OLAP Cube Studio Wprowadzenie

SAS OLAP Cube Studio Wprowadzenie SAS OLAP Cube Studio Wprowadzenie Izabela Szczęch i Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania

Bardziej szczegółowo

Algorytmy optymalizacji zapytań eksploracyjnych z wykorzystaniem materializowanej perspektywy eksploracyjnej

Algorytmy optymalizacji zapytań eksploracyjnych z wykorzystaniem materializowanej perspektywy eksploracyjnej Algorytmy optymalizacji zapytań eksploracyjnych z wykorzystaniem materializowanej perspektywy eksploracyjnej Jerzy Brzeziński, Mikołaj Morzy, Tadeusz Morzy, Łukasz Rutkowski RB-006/02 1. Wstęp 1.1. Rozwój

Bardziej szczegółowo

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com XI Konferencja PLOUG Kościelisko Październik 2005 Zastosowanie reguł asocjacyjnych, pakietu Oracle Data Mining for Java do analizy koszyka zakupów w aplikacjach e-commerce. Integracja ze środowiskiem Oracle

Bardziej szczegółowo

Odkrywanie reguł asocjacyjnych. Rapid Miner

Odkrywanie reguł asocjacyjnych. Rapid Miner Odkrywanie reguł asocjacyjnych Rapid Miner Zbiory częste TS ID_KLIENTA Koszyk 12:57 1123 {mleko, pieluszki, piwo} 13:12 1412 {mleko, piwo, bułki, masło, pieluszki} 13:55 1425 {piwo, wódka, wino, paracetamol}

Bardziej szczegółowo

Projektowanie baz danych

Projektowanie baz danych Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr zimowy 2005/06 Plan wykładu Ewolucja

Bardziej szczegółowo

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE

HURTOWNIE DANYCH I BUSINESS INTELLIGENCE BAZY DANYCH HURTOWNIE DANYCH I BUSINESS INTELLIGENCE Akademia Górniczo-Hutnicza w Krakowie Adrian Horzyk horzyk@agh.edu.pl Google: Horzyk HURTOWNIE DANYCH Hurtownia danych (Data Warehouse) to najczęściej

Bardziej szczegółowo

Metody Inżynierii Wiedzy

Metody Inżynierii Wiedzy Metody Inżynierii Wiedzy Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie AGH University of Science and Technology Mateusz Burcon Kraków, czerwiec 2017 Wykorzystane technologie Python 3.4

Bardziej szczegółowo

Reguły asocjacyjne, wykł. 11

Reguły asocjacyjne, wykł. 11 Reguły asocjacyjne, wykł. 11 Joanna Jędrzejowicz Instytut Informatyki Przykłady reguł Analiza koszyka sklepowego (ang. market basket analysis) - jakie towary kupowane są razem, Jakie towary sprzedają się

Bardziej szczegółowo

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski Data Mining Wykład 1 Wprowadzenie do Eksploracji Danych Prowadzący Dr inż. Jacek Lewandowski Katedra Genetyki Wydział Biologii i Hodowli Zwierząt Uniwersytet Przyrodniczy we Wrocławiu ul. Kożuchowska 7,

Bardziej szczegółowo

Krzysztof Dembczyński. Inteligentne Systemy Wspomagania Decyzji Studia magisterskie, semestr I Semestr letni 2007/08

Krzysztof Dembczyński. Inteligentne Systemy Wspomagania Decyzji Studia magisterskie, semestr I Semestr letni 2007/08 Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Inteligentne Systemy Wspomagania Decyzji Studia magisterskie, semestr I Semestr letni

Bardziej szczegółowo

Reguły asocjacyjne. 1. Uruchom system weka i wybierz aplikację Knowledge Flow.

Reguły asocjacyjne. 1. Uruchom system weka i wybierz aplikację Knowledge Flow. Reguły asocjacyjne Niniejsze ćwiczenie demonstruje działanie implementacji algorytmu apriori w systemie WEKA. Ćwiczenie ma na celu zaznajomienie studenta z działaniem systemu WEKA oraz znaczeniem podstawowych

Bardziej szczegółowo

Algorytm DIC. Dynamic Itemset Counting. Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek

Algorytm DIC. Dynamic Itemset Counting. Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek Algorytm DIC Dynamic Itemset Counting Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek Spis treści 1 2 3 4 Algorytm DIC jako rozszerzenie apriori DIC Algorytm znajdowania reguł asocjacyjnych

Bardziej szczegółowo

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2007 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę

Bardziej szczegółowo

Hurtownie danych. Analiza zachowań użytkownika w Internecie. Ewa Kowalczuk, Piotr Śniegowski. Informatyka Wydział Informatyki Politechnika Poznańska

Hurtownie danych. Analiza zachowań użytkownika w Internecie. Ewa Kowalczuk, Piotr Śniegowski. Informatyka Wydział Informatyki Politechnika Poznańska Hurtownie danych Analiza zachowań użytkownika w Internecie Ewa Kowalczuk, Piotr Śniegowski Informatyka Wydział Informatyki Politechnika Poznańska 2 czerwca 2011 Wprowadzenie Jak zwiększyć zysk sklepu internetowego?

Bardziej szczegółowo

Odkrywanie reguł asocjacyjnych

Odkrywanie reguł asocjacyjnych Odkrywanie reguł asocjacyjnych Tomasz Kubik Na podstawie dokumentu: CS583-association-rules.ppt 1 Odkrywanie reguł asocjacyjnych n Autor metody Agrawal et al in 1993. n Analiza asocjacji danych w bazach

Bardziej szczegółowo

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu

Hurtownie danych i business intelligence. Plan na dziś : Wprowadzenie do przedmiotu i business intelligence Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl Wrocław 2005-2012 Plan na dziś : 1. Wprowadzenie do przedmiotu (co będzie omawiane oraz jak będę weryfikował zdobytą wiedzę

Bardziej szczegółowo

Odkrywanie wzorców sekwencji

Odkrywanie wzorców sekwencji Odkrywanie wzorców sekwencji Prefix Span Odkrywanie wzorców sekwencji z ograniczeniami Uogólnione wzorce sekwencji Eksploracja wzorców sekwencji wykład 2 Kontynuujemy nasze rozważania dotyczące odkrywania

Bardziej szczegółowo

data mining machine learning data science

data mining machine learning data science data mining machine learning data science deep learning, AI, statistics, IoT, operations research, applied mathematics KISIM, WIMiIP, AGH 1 Machine Learning / Data mining / Data science Uczenie maszynowe

Bardziej szczegółowo

Projektowanie hurtowni danych

Projektowanie hurtowni danych Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr zimowy 2004/05 Plan wykładu Ewolucja

Bardziej szczegółowo

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE

Modele danych - wykład V. Zagadnienia. 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie fajne WPROWADZENIE Modele danych - wykład V Paweł Skrobanek, C-3 pok. 321 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Zagadnienia 1. Wprowadzenie 2. MOLAP modele danych 3. modele danych 4. Podsumowanie 5. Zadanie fajne

Bardziej szczegółowo

Wyszukiwanie reguł asocjacji i ich zastosowanie w internecie

Wyszukiwanie reguł asocjacji i ich zastosowanie w internecie Bartosz BACHMAN 1, Paweł Karol FRANKOWSKI 1,2 1 Wydział Elektryczny, 2 Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie E mail: bartosz.bachman@sk.sep.szczecin.pl 1. Wprowadzenie

Bardziej szczegółowo

Modele danych - wykład V

Modele danych - wykład V Modele danych - wykład V Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Zagadnienia 1. Wprowadzenie 2. MOLAP modele danych 3. ROLAP modele danych 4. Podsumowanie 5. Zadanie

Bardziej szczegółowo

Eksploracja danych - wykład VIII

Eksploracja danych - wykład VIII I Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 2 grudnia 2016 1/31 1 2 2/31 (ang. affinity analysis) polega na badaniu atrybutów lub cech, które są ze sobą powiązane. Metody

Bardziej szczegółowo

Hurtownie danych. 31 stycznia 2017

Hurtownie danych. 31 stycznia 2017 31 stycznia 2017 Definicja hurtowni danych Hurtownia danych wg Williama Inmona zbiór danych wyróżniający się następującymi cechami uporządkowany tematycznie zintegrowany zawierający wymiar czasowy nieulotny

Bardziej szczegółowo

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego

HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego HURTOWNIE DANYCH Dzięki uprzejmości Dr. Jakuba Wróblewskiego http://www.jakubw.pl/zajecia/hur/bi.pdf http://www.jakubw.pl/zajecia/hur/dw.pdf http://www.jakubw.pl/zajecia/hur/dm.pdf http://www.jakubw.pl/zajecia/hur/

Bardziej szczegółowo

Eksploracja Danych. podstawy

Eksploracja Danych. podstawy Eksploracja Danych podstawy Bazy danych (1) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 2/633 Bazy danych (2) Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 3/633

Bardziej szczegółowo

Ćwiczenie 5. Metody eksploracji danych

Ćwiczenie 5. Metody eksploracji danych Ćwiczenie 5. Metody eksploracji danych Reguły asocjacyjne (association rules) Badaniem atrybutów lub cech, które są powiązane ze sobą, zajmuje się analiza podobieństw (ang. affinity analysis). Metody analizy

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Reguły asocjacyjne w programie RapidMiner Michał Bereta

Reguły asocjacyjne w programie RapidMiner Michał Bereta Reguły asocjacyjne w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Reguły asocjacyjne mają na celu odkrycie związków współwystępowania pomiędzy atrybutami. Stosuje się je często do danych

Bardziej szczegółowo

Specjalizacja magisterska Bazy danych

Specjalizacja magisterska Bazy danych Specjalizacja magisterska Bazy danych Strona Katedry http://bd.pjwstk.edu.pl/katedra/ Prezentacja dostępna pod adresem: http://www.bd.pjwstk.edu.pl/bazydanych.pdf Wymagania wstępne Znajomość podstaw języka

Bardziej szczegółowo

Proces odkrywania wiedzy z baz danych

Proces odkrywania wiedzy z baz danych Proces odkrywania wiedzy z baz danych Wydział Informatyki Politechnika Białostocka Marcin Czajkowski email: m.czajkowski@pb.edu.pl Świat pełen danych Świat pełen danych Możliwości analizowania i zrozumienia

Bardziej szczegółowo

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU

Hurtownie danych. Przetwarzanie zapytań. http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Hurtownie danych Przetwarzanie zapytań. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/hur ZAPYTANIA NA ZAPLECZU Magazyny danych operacyjnych, źródła Centralna hurtownia danych Hurtownie

Bardziej szczegółowo

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel według przewidywań internetowego magazynu ZDNET News z 8 lutego 2001 roku eksploracja danych (ang. data mining ) będzie jednym z najbardziej rewolucyjnych osiągnięć następnej dekady. Rzeczywiście MIT Technology

Bardziej szczegółowo

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania

Cel przedmiotu. Wymagania wstępne w zakresie wiedzy, umiejętności i innych kompetencji 1 Język angielski 2 Inżynieria oprogramowania Przedmiot: Bazy danych Rok: III Semestr: V Rodzaj zajęć i liczba godzin: Studia stacjonarne Studia niestacjonarne Wykład 30 21 Ćwiczenia Laboratorium 30 21 Projekt Liczba punktów ECTS: 4 C1 C2 C3 Cel przedmiotu

Bardziej szczegółowo

Spis tre±ci. Przedmowa... Cz ± I

Spis tre±ci. Przedmowa... Cz ± I Przedmowa.................................................... i Cz ± I 1 Czym s hurtownie danych?............................... 3 1.1 Wst p.................................................. 3 1.2 Denicja

Bardziej szczegółowo

Inżynieria Wiedzy i Systemy Ekspertowe. Reguły asocjacyjne

Inżynieria Wiedzy i Systemy Ekspertowe. Reguły asocjacyjne Inżynieria Wiedzy i Systemy Ekspertowe Reguły asocjacyjne Dr inż. Michał Bereta p. 144 / 10, Instytut Modelowania Komputerowego mbereta@pk.edu.pl beretam@torus.uck.pk.edu.pl www.michalbereta.pl Reguły

Bardziej szczegółowo

Analiza danych i data mining.

Analiza danych i data mining. Analiza danych i data mining. mgr Katarzyna Racka Wykładowca WNEI PWSZ w Płocku Przedsiębiorczy student 2016 15 XI 2016 r. Cel warsztatu Przekazanie wiedzy na temat: analizy i zarządzania danymi (data

Bardziej szczegółowo

Wprowadzenie do technologii Business Intelligence i hurtowni danych

Wprowadzenie do technologii Business Intelligence i hurtowni danych Wprowadzenie do technologii Business Intelligence i hurtowni danych 1 Plan rozdziału 2 Wprowadzenie do Business Intelligence Hurtownie danych Produkty Oracle dla Business Intelligence Business Intelligence

Bardziej szczegółowo

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015 Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Analiza asocjacji i sekwencji Analiza asocjacji Analiza asocjacji polega na identyfikacji

Bardziej szczegółowo

Ewolucja systemów baz danych

Ewolucja systemów baz danych Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania Semestr letni 2004/05 Plan wykładu Relacyjne

Bardziej szczegółowo

Bazy danych. Plan wykładu. Zależności funkcyjne. Wykład 2: Relacyjny model danych - zależności funkcyjne. Podstawy SQL.

Bazy danych. Plan wykładu. Zależności funkcyjne. Wykład 2: Relacyjny model danych - zależności funkcyjne. Podstawy SQL. Plan wykładu Bazy danych Wykład 2: Relacyjny model danych - zależności funkcyjne. Podstawy SQL. Deficja zależności funkcyjnych Klucze relacji Reguły dotyczące zależności funkcyjnych Domknięcie zbioru atrybutów

Bardziej szczegółowo

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw.

Hurtownie danych. Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw. Hurtownie danych Projektowanie hurtowni: modele wielowymiarowe. Modelowanie punktowe. Operacje OLAP na kostkach. http://zajecia.jakubw.pl/hur UZASADNIENIE BIZNESOWE Po co nam hurtownia danych? Jakie mogą

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Technologie baz danych

Technologie baz danych Plan wykładu Technologie baz danych Wykład 2: Relacyjny model danych - zależności funkcyjne. SQL - podstawy Definicja zależności funkcyjnych Reguły dotyczące zależności funkcyjnych Domknięcie zbioru atrybutów

Bardziej szczegółowo

Co to jest Business Intelligence?

Co to jest Business Intelligence? Cykl: Cykl: Czwartki z Business Intelligence Sesja: Co Co to jest Business Intelligence? Bartłomiej Graczyk 2010-05-06 1 Prelegenci cyklu... mariusz@ssas.pl lukasz@ssas.pl grzegorz@ssas.pl bartek@ssas.pl

Bardziej szczegółowo

Hurtownie danych wykład 3

Hurtownie danych wykład 3 Hurtownie danych wykład 3 dr Sebastian Zając SGH Warszawa 7 lutego 2017 Architektura relacyjna i wielowymiarowa Ze względu na przechowywanie danych na serwerze możemy zdecydować się na relacyjną bazę danych

Bardziej szczegółowo

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence

Hurtownie danych. Wprowadzenie do systemów typu Business Intelligence Hurtownie danych Wprowadzenie do systemów typu Business Intelligence Krzysztof Goczyła Teresa Zawadzka Katedra Inżynierii Oprogramowania Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika

Bardziej szczegółowo

Statystyka i eksploracja danych

Statystyka i eksploracja danych Wykład I: Formalizm statystyki matematycznej 17 lutego 2014 Forma zaliczenia przedmiotu Forma zaliczenia Literatura Zagadnienia omawiane na wykładach Forma zaliczenia przedmiotu Forma zaliczenia Literatura

Bardziej szczegółowo

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu Podstawy baz danych PODSTAWY BAZ DANYCH 19. Perspektywy baz danych 1 Perspektywy baz danych Temporalna baza danych Temporalna baza danych - baza danych posiadająca informację o czasie wprowadzenia lub czasie ważności zawartych

Bardziej szczegółowo

EKSPLORACJA DANYCH METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

EKSPLORACJA DANYCH METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING EKSPLORACJA DANYCH Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej Katedra

Bardziej szczegółowo

KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5

KARTA PRZEDMIOTU. Hurtownie i eksploracja danych D1_5 KARTA PRZEDMIOTU 1. Informacje ogólne Nazwa przedmiotu i kod (wg planu studiów): Nazwa przedmiotu (j. ang.): Kierunek studiów: Specjalność/specjalizacja: Poziom kształcenia: Profil kształcenia: Forma studiów:

Bardziej szczegółowo

Kostki OLAP i język MDX

Kostki OLAP i język MDX Kostki OLAP i język MDX 24 kwietnia 2015 r. Opis pliku z zadaniami Wszystkie zadania na zajęciach będą przekazywane w postaci plików PDF sformatowanych jak ten. Będą się na nie składały różne rodzaje zadań,

Bardziej szczegółowo

Ćwiczenia z Zaawansowanych Systemów Baz Danych

Ćwiczenia z Zaawansowanych Systemów Baz Danych Ćwiczenia z Zaawansowanych Systemów Baz Danych Hurtownie danych Zad 1. Projekt schematu hurtowni danych W źródłach danych dostępne są następujące informacje dotyczące operacji bankowych: Klienci banku

Bardziej szczegółowo

Faza Określania Wymagań

Faza Określania Wymagań Faza Określania Wymagań Celem tej fazy jest dokładne określenie wymagań klienta wobec tworzonego systemu. W tej fazie dokonywana jest zamiana celów klienta na konkretne wymagania zapewniające osiągnięcie

Bardziej szczegółowo

Szybkość instynktu i rozsądek rozumu$

Szybkość instynktu i rozsądek rozumu$ Szybkość instynktu i rozsądek rozumu$ zastosowania rozwiązań BigData$ Bartosz Dudziński" Architekt IT! Już nie tylko dokumenty Ilość Szybkość Różnorodność 12 terabajtów milionów Tweet-ów tworzonych codziennie

Bardziej szczegółowo

A C T A UNIVERSITATIS LODZIENSIS FOLIA OECONOMICA 183,2004. Sebastian Szamański, Ryszard Budziński

A C T A UNIVERSITATIS LODZIENSIS FOLIA OECONOMICA 183,2004. Sebastian Szamański, Ryszard Budziński A C T A UNIVERSITATIS LODZIENSIS FOLIA OECONOMICA 183,2004 Sebastian Szamański, Ryszard Budziński METODY EKSPLORACJI REGUŁ ASOCJACYJNYCH I ICH ZASTOSOWANIE Wprowadzenie Ogromny postęp technologiczny ostatnich

Bardziej szczegółowo

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Metadane. Data Maining. - wykład VII Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006 Plan 1. Metadane 2. Jakość danych 3. Eksploracja danych (Data mining) 4. Sprawy róŝne

Bardziej szczegółowo

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia

ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia ZP/ITS/11/2012 Załącznik nr 1a do SIWZ ZMODYFIKOWANY Szczegółowy opis przedmiotu zamówienia Przedmiotem zamówienia jest: Przygotowanie zajęć dydaktycznych w postaci kursów e-learningowych przeznaczonych

Bardziej szczegółowo

REGU LY ASOCJACYJNE. Nguyen Hung Son. Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski. 28.II i 6.III, 2008

REGU LY ASOCJACYJNE. Nguyen Hung Son. Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski. 28.II i 6.III, 2008 REGU LY ASOCJACYJNE Nguyen Hung Son Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski 28.II i 6.III, 2008 Nguyen Hung Son (MIMUW) W2 28.II i 6.III, 2008 1 / 38 Outline 1 Dane transakcyjne

Bardziej szczegółowo

Wprowadzenie do Hurtowni Danych. Mariusz Rafało

Wprowadzenie do Hurtowni Danych. Mariusz Rafało Wprowadzenie do Hurtowni Danych Mariusz Rafało mrafalo@sgh.waw.pl WARSTWA PREZENTACJI HURTOWNI DANYCH Wykorzystanie hurtowni danych - aspekty Analityczne zbiory danych (ADS) Zbiór danych tematycznych (Data

Bardziej szczegółowo

Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych

Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2014/15 Znajdowanie maksimum w zbiorze

Bardziej szczegółowo

6. Zagadnienie parkowania ciężarówki.

6. Zagadnienie parkowania ciężarówki. 6. Zagadnienie parkowania ciężarówki. Sterowniki rozmyte Aby móc sterować przebiegiem pewnych procesów lub też pracą urządzeń niezbędne jest stworzenie odpowiedniego modelu, na podstawie którego można

Bardziej szczegółowo

Hurtownie danych - przegląd technologii

Hurtownie danych - przegląd technologii Hurtownie danych - przegląd technologii Politechnika Poznańska Instytut Informatyki Robert.Wrembel@cs.put.poznan.pl www.cs.put.poznan.pl/rwrembel Biznesowe słowniki pojęć biznesowych odwzorowania pojęć

Bardziej szczegółowo

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych

Bazy danych. Plan wykładu. Rodzaje baz. Rodzaje baz. Hurtownie danych. Cechy hurtowni danych. Wykład 14: Hurtownie danych Plan wykładu Bazy Wykład 14: Hurtownie Bazy operacyjne i analityczne Architektura hurtowni Projektowanie hurtowni Małgorzata Krętowska, Agnieszka Oniśko Wydział Informatyki PB Bazy (studia dzienne) 2 Rodzaje

Bardziej szczegółowo

Eksploracja logów procesów. Process mining

Eksploracja logów procesów. Process mining Eksploracja logów procesów Process mining Eksploracja logów procesów Celem eksploracji logów procesów biznesowych jest: Odkrywanie modelu procesów biznesowych Analiza procesów biznesowych Ulepszanie procesów

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Metody Rozmyte i Algorytmy Ewolucyjne

Metody Rozmyte i Algorytmy Ewolucyjne mgr inż. Wydział Matematyczno-Przyrodniczy Szkoła Nauk Ścisłych Uniwersytet Kardynała Stefana Wyszyńskiego Podstawowe operatory genetyczne Plan wykładu Przypomnienie 1 Przypomnienie Metody generacji liczb

Bardziej szczegółowo

Projektowanie hurtowni danych i modelowanie wielowymiarowe

Projektowanie hurtowni danych i modelowanie wielowymiarowe Projektowanie hurtowni danych i modelowanie wielowymiarowe Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Technologie Wytwarzania Oprogramowania

Bardziej szczegółowo

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013 Krakowska Akademia im. Andrzeja Frycza Modrzewskiego Karta przedmiotu obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2012/2013 WydziałZarządzania i Komunikacji Społecznej Kierunek studiów:

Bardziej szczegółowo

REGU LY ASOCJACYJNE. Nguyen Hung Son. 25 lutego i 04 marca Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski.

REGU LY ASOCJACYJNE. Nguyen Hung Son. 25 lutego i 04 marca Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski. REGU LY ASOCJACYJNE Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski 25 lutego i 04 marca 2005 Outline 1 2 3 regu l asocjacyjnych 4 5 Motywacje Lista autorów (items) A Jane Austen C

Bardziej szczegółowo

Proces i narzędzia analizy potencjału wybranych obszarów rynku farmaceutycznego

Proces i narzędzia analizy potencjału wybranych obszarów rynku farmaceutycznego Proces i narzędzia analizy potencjału wybranych obszarów rynku farmaceutycznego Przyglądając się rynkowi farmaceutycznemu w Polsce możemy zauważyć, że jest to jedna z lepiej zwymiarowanych i opisanych

Bardziej szczegółowo

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Spis treści Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa Romuald Kotowski Katedra Informatyki Stosowanej PJWSTK 2009 Spis treści Spis treści 1 Wstęp Bardzo często interesujący

Bardziej szczegółowo

Rola analityki danych w transformacji cyfrowej firmy

Rola analityki danych w transformacji cyfrowej firmy Rola analityki danych w transformacji cyfrowej firmy Piotr Czarnas Querona CEO Analityka biznesowa (ang. Business Intelligence) Proces przekształcania danych w informacje, a informacji w wiedzę, która

Bardziej szczegółowo