Wyszukiwanie reguł asocjacji i ich zastosowanie w internecie

Wielkość: px
Rozpocząć pokaz od strony:

Download "Wyszukiwanie reguł asocjacji i ich zastosowanie w internecie"

Transkrypt

1 Bartosz BACHMAN 1, Paweł Karol FRANKOWSKI 1,2 1 Wydział Elektryczny, 2 Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie E mail: bartosz.bachman@sk.sep.szczecin.pl 1. Wprowadzenie Wyszukiwanie reguł asocjacji i ich zastosowanie w internecie Asocjacja inaczej skojarzenie polega na kojarzeniu elementów, łączeniu ich ze sobą i wyszukiwaniu zależności pomiędzy nimi. Pierwotnie badania nad regułami asocjacji motywowane były zagadnieniami tak zwanej analizy koszykowej. Odkrywając wzorce zachowań klientów można określić grupy produktów kupowanych jednocześnie. Wiedza ta pozwala lepiej dobierać miejsce położenia produktów na półkach, tworzyć skuteczniejsze promocje, opracowywać wydajniejsze kampanie marketingowe, optymalizować strategię cenową, czyli jednym słowem zwiększać zyski i poprawiać konkurencyjność firmy. Wiedząc na przykład, że większość klientów kupujących węgiel drzewny do grilla kupuje również podpałkę, można zadbać by produkty te znalazły się np. odpowiednio blisko siebie. Chcąc podnieść dzienną liczbę klientów, a jednocześnie nie obniżać średniej marży można wykorzystać tą zależność reklamując nową, promocyjną cenę węgla, co z pewnością w okresie wiosennym przyczyni się do zwiększenia liczbę klientów, jednocześnie podnosząc cenę innych produktów, które są zwykle kupowane wraz z węglem. Podniesiona cena m.in. podpałki zrekompensuje spadek marży z węgla, zaś większe obroty przełożą się na zysk. Termin Analiza Koszykowa funkcjonuje do dzisiaj, jednak jej zakres wychodzi obecnie daleko poza półki sklepów obejmując np.: badania naukowe, transakcje biznesowe, analizy tekstu typu text mining i wiele innych. Algorytmy wyszukujące reguły asocjacji są stosowane wszędzie tam gdzie analizowane są obszerne bazy danych, a powiązania pomiędzy poszczególnymi zmiennymi nie są znane. Nazwy Analiza Koszykowa i Wyszukiwanie Reguł Asocjacji stosowane są coraz częściej w sposób zamienny. Jednoznaczność tych terminów pozostaje dyskusyjna jednakże użyteczność tego jednego z najpowszechniej stosowanych narzędzi Data Mining jest bezsporna. 2. Wyszukiwanie reguł asocjacji Jak już wspomniano, analiza koszykowa służy do znajdywania w dużym zestawie danych ukrytych zależności w postaci prostych reguł. Analizować można dowolne cechy danej populacji, choć w zależności od ich rodzaju oraz formy przedstawiania należy dostosować sposób analizy.

2 10 Bartosz Bachman, Paweł Karol Frankowski Standardowo cechy mogą być podzielone na: cechy jakościowe niebędące liczbami, np.: kolor, płeć, grupa krwi, cechy ilościowe cechy przyjmujące pewne wartości liczbowe: - skokowe cecha przyjmuje tylko pewne wartości liczbowe np. liczba dzieci, - ciągłe cecha może przymować dowolne wartości z danego przedziału, - porządkowe przyporządkowuje dane liczbowe do konkretnych przedziałów np. wzrost: niski, średni i wysoki. Analiza koszykowa była tworzona z myślą o danych jakościowych. Chcąc wykorzystać ją do danych liczbowych ilościowych ciągłych, a często również skokowych należy najpierw je dyskretyzować. Poprzez ten proces dąży się do otrzymania możliwie małej ilości przedziałów, przy jednoczesnym jak najlepszym oddaniu natury danej zmiennej. W efekcie cechy ciągłe zamieniane są w skokowe, porządkowe lub (o ile to tylko możliwe) dychtonomiczne. Podczas przygotowywania danych do analizy bardzo pomocne okazują się być współczesne modele wykorzystujące w dyskretyzacji miarę entropii i regułę MDL, jednak w większości przypadków nie mogą one całkowicie zastępować człowieka, kluczem do odpowiedniego przygotowania danych nadal pozostaje ich zrozumienie.wynikiem analizy koszykowej są reguły asocjacji w postaci: JEŻELI [poprzednik (z ang. body)] TO [następnik (z ang. head)] Przykładem takiej reguły może być: [węgiel, kiełbaski] [podpałka], należy to odczytać jako: jeżeli klient kupił węgiel i kiełbaski to istnieje istotne prawdopodobieństwo, że kupi również podpałkę. Oczywiście reguła ta nie musi się być prawdziwa w stu procentach, przypadków. Jakość reguły zwykle opisywana jest przez dwa, lub czasami trzy wskaźniki. Zanim jednak zostaną one omówione należy wprowadzić szereg pojęć. Zakładając, że dysponujemy zbiorem danych, w którym: I : zbiór iterałów (atrybutów); w naszym przypadku wszystkich dostępnych w sklepie towarów; I={i 1, i 2,, i m }, X : dowolny zbiór iterałów zawierający się w zbiorze I, czyli X I, D : zbiór transakcji, każda transakcja jest reprezentowana przez parę T={id, X}, gdzie id to numer identyfikacyjny transakcji; D={T 1, T 2,, T m }, T id : zakładamy, że każdy identyfikator transakcji należy do skończonego zbioru identyfikatorów T id ; Mówimy, że dana transakcja T pokrywa zbiór A gdy A X, Pokrycie zbioru towarów A w bazie D to zbiór cover(a, D) = {T D : T pokrywa A}. Chcąc określić częstość występowania zbioru produktów A w transakcjach bazy D, czyli c(a, D) należy obliczyć w ilu przypadkach transakcje T pokrywały badany zbiór A oznaczmy to przez s(a, D), a następnie podzielić to przez liczbę transakcji znajdujących się w bazie, czyli s(d). Reguły asocjacji można, zatem definiować jako implikacje A B, gdzie A I i B I oraz A B =. Podstawowymi wskaźnikami jakości reguły są: Wsparcie (support) może zostać zapisana, jako prawdopodobieństwo P(A B) czyli odsetek transakcji w zbiorze danych zawierających daną regułę. W omawianym

3 Wyszukiwanie reguł asocjacji i ch zastosowanie w Internecie 11 przypadku okresla prawdopodobieństwo kupienia węgla, kiełbasek i podpałki przez losowo wybranego klienta. sup(a B, D) = s(a B) s(d) (1) Pewność (confidence) może zostać zapisana, jako prawdopodobieństwo warunkowe P(B A) czyli prawdopodobieństwo wystopięnia następnika, pod warunkiem wystąpienia poprzednika. W opisywanym przypadku jest to prawdopodobieństwo tego, że klient kupi podpałkę, gdy już kupił węgiel i kiełbaski. conf(a B,D) = sup(a B,D) sup(a,d) (2) Korelacja (correlation) Wskażnik ten można traktować jako informację o tym, jaka część dostępnych zdarzeń została wykorzystana w danej asocjacji. Gdy korelacja reguły jest równa 100% oznacza to że wszystkie zbiory częte tworzące tą regułe występują tylko w niej. correl(a B,D) = sup (A B,D) sup (A,D) sup (B,D) (3) Przyrost (lift) jest rozwinięciem wskaźnika korelacji. Informuje, jaki jest wpływ sprzedaży produktu A na sprzedaż produktu B. Należy zauważyć, że potencjalnych reguł może być bardzo wiele, np. jeżeli klient nie kupił produktu A to nie kupi również produktu B. Taka reguła jest zupełnie bezużyteczna gdyż w sklepie mogą być tysiące produktów. Należy, zatem wydzielić jedynie te reguły, które spełniają nasze wymagania. W tym celu określa się minimalne wartości wsparcia i czasem pewności, lub korelacji. Zbiory o wsparciu większym niż minimalne nazywane są częstymi. Przyjmuje się, że zbiór towarów A jest częsty, jeśli występuje on w co najmniej minsupp procentach transakcji w bazie c(a, D) >support min D. Tab. 1. Przykładowa baza transakcji D Tab. 1. Example of database D Tid węgiel podpałka kiełbasa keczup piwo W tabeli 1 przedstawiono przykład bazy transakcji D. W sklepie znajduje się jedynie pięć produktów, a reguł asocjacji są wyszukiwane tylko w trzech transakcjach. Dane można przedstawić w formie tabeli wielodzielczej, zawierającej dane dychtonomiczne. By uprościć analizę pola produktów, w których nie zakupiono w danej transakcji pozostawiono puste. Taka forma zapisu nadaje się do prezentowanego przykładu, jednak

4 12 Bartosz Bachman, Paweł Karol Frankowski w praktyce liczba transakcji i produktów w sklepie może być o wiele większa i sięgać np. dziesiątek tysięcy. Wówczas otrzymana tabela byłaby olbrzymia i w większości pusta. Z tego powodu zwykle lepiej sprawdzają się dane w formie tabeli wielokrotnych odpowiedzi, lub o ile to możliwe w formie tabeli liczności. Błędne przygotowanie danych może sprawić, że nie otrzymamy reguł asocjacji, otrzymane reguły będą nieużyteczne, lub po prostu nieprawdziwe. W ogólnym przypadku liczbę potencjalnych reguł można wyliczyć korzystając ze wzoru na kombinację bez powtórzeń. Jeżeli L to maksymalna rozpatrywana liczba poprzedników, zaś K następników, a n to liczba produktów w sklepie, wtedy liczba potencjalnych reguł wynosi: L n K n S = l = l k = k, 1 1 K + L n W omawianym przypadku chcemy wykryć wszystkie możliwe reguły. Ponieważ w takiej sytuacji liczba poprzedników ogranicza liczbę następników wzór musi być zmodyfikowany do postaci: S L = n n l n l = 1 l k = 1 k Po podstawienie danych do wzoru (5) obserwuje się, że stosując tabelę z danymi dychtonomicznymi (produkt kupiony lub niekupiony) liczba potencjalnych reguł wynosi Gdy przedstawimy te same dane tak jak w tabeli 1, gdzie zmienne mogą przejmować tylko jedną wartość liczba ta maleje do 180. Można zauważyć, że jeżeli reguła A B spełnia nasze wymogi, to reguła B A będzie spełniała je w tym samym stopniu. Uwzględnienie tego faktu umożliwia dodatkowe ograniczenie ilości reguł. Równie istotne jest dobranie odpowiednich warunków. W omawianym przypadku po ustawieniu minimalnej korelacji, wsparcie i pewność na 33% otrzymano 88 reguł, przy 50% liczba reguł zmalała już do 22, zaś przy 70% do 2. (4) (5) Rys. 1a. Przykładowe reguły asocjacji Fig. 1a. Example of association rules

5 Wyszukiwanie reguł asocjacji i ch zastosowanie w Internecie 13 Rys. 1b. Przykładowe reguły asocjacji Fig. 1b. Example of association rules Na rysunkach 1a i 1b przedstawiono przykładowe reguły asocjacji. Wielkość węzłów na wykresie jest proporcjonalna do względnej wartości wsparcie, grubość linii do względnego zaufania kolor zaś świadczy o względnej korelacji. 3. Wyszukiwania reguł asocjacji w ujęciu algorytmicznym Podstawowym i najbardziej rozpowszechnionych algorytmem służącym do realizacji analizy koszykowej jest model Apriori. Main L1 = {zbiory częste 1-elementowe}; for (k=2;lk-1 ;k++) do begin Ck = apriori_gen(lk-1); For each transakcji t T do begin Ct = subset(ck,t); For each zbioru kandydującego c Ct do c.count++; end; Lk = {c Ck c.count minsup} end; Wynik = klk; Rys. 2 Pseudokod algorytmu Apriori Fig. 2 Pseudocode of Apriori algorithm apriori_gen function apriori_gen(ck) insert into Ck select p.item1, p.item2,..., p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p.item1 = q.item1,..., p.itemk-2 = q.itemk-2, p.itemk-1 < q.itemk-1; for all itemsets c Ck do for all (k-1)-subsets s of c do if ( s Lk-1 ) then delete c from Ck; endfunction; Idea algorytmu bazuje na spostrzeżeniu, że jeżeli zbiór nie jest częsty to nie może tworzyć reguł spełniających warunki minimalne. Model ten wymaga uporządkowania wszystkich znajdujących się w bazie transakcji (np. w sposób leksykograficzny). W pierwszej kolejności wyodrębnione zostają wszystkie wyrazy częste. Z nich generowane są zbiory kandydujące dwuelementowe. Proces szukania kandydatów, zwany AprioriGen, zawiera

6 14 Bartosz Bachman, Paweł Karol Frankowski dwie główne operacje: łączenie i przycinanie. Zbiór kandydatów k-elementowych jest generowany przez łączenie zbioru Lk-1 z nim samym a następnie przycinany poprzez usuwanie zbędnych zbiorów. Dla każdego z zbiorów obliczane jest wsparcie, jeżeli jest ono większe od zadanego wsparcia minimalnego minsup to tworzy on regułę. Ponadto każdy z spełniających warunek zbiorów zostaje ponownie wykorzystany, jako zbiór częsty i współtworzy zbiór kandydujący trzyelementowy. W każdej kolejnej iteracji, w oparciu o zbiory częste (Lk) znalezione w poprzednim kroku, algorytm generuje zbiory kandydujące (Ck) o rozmiarze większym o 1. Wynikiem działania jest suma k-elementowych zbiorów częstych (k=1, 2,...). By zapewnić odpowiednią efektywności obliczania wsparcia zbiorów kandydujących, wykorzystuje się strukturę danych w postaci drzewa haszowego. Służy ona do przechowywania zbiorów kandydujących. Procedura subset() zwraca te zbiory kandydujące należące do Ck, które są wspierane przez transakcję t. Można zauważyć, że jeżli AB CD jest wiarygodną regułą, to reguły ABC D i ABD C też są wiarygodne. Największą niedogodność w algorytmie Apriori stanowi wielokrotne przeglądanie całej bazy danych (D) w celu wyznaczania wsparcia dla kandydatów. Algorytm przestaje być efektywny, przy bardzo dużych rozmiarach D. W literaturze zaproponowano już wiele sposobów rozwiązania tego problemu. W większości przypadków opierają się one na zawężaniu obszaru poszukiwań w każdej kolejnej iteracji, lub na zmniejszaniu liczby przeszukań bazy danych. Naturalnym rozwinięciem algorytmu Apriori jest AprioriTid, jego główną ideą jest wprowadzenie dodatkowej struktury danych, zwanej CountingBase. Ponieważ transakcje nie zawierające żadnego k-zbioru częstego, nie mogą zawierać żadnego (k+1) zbioru częstego nie są one przepisywane do struktury. Wykreślenie ich umożliwia zmniejszenie liczby obliczeń w następnej iteracji. Tab. 2. Przykladowa baza danych D 2 Tab. 2. Example of Database D 2 Tid węgiel podpałka kiełabasa keczup piwo wino Zupełnie inne podejście zaproponowano w algorytmie FP-Growth. Składa się on z dwóch zasadniczych etapów: utworzenia drzewa FP i jego eksploracji. Idea algorytmu została przedstawiona na podstawie przykładowej bazy danych (Tab.2). Założono minimalne wsparcie na poziomie 30% i minimalną pewność na poziomie 70%. W pierwszym kroku, (zwanym krokiem kompresji bazy danych) podobnie jak w przypadku Apriori baza D 2 jest przeszukiwana w celu znalezienia zbiorów częstych. W kroku drugim z każdej transakcji usuwane są te elementy, które nie są zbiorami czę-

7 Wyszukiwanie reguł asocjacji i ch zastosowanie w Internecie 15 stymi (zwykle znacząco ogranicza to liczbę analizowanych danych, stąd nazwa etapu). W trzecim kroku, w każdej transakcji Ti (gdzie i = 1, 2,..., n), elementy są sortowane według malejących wartości ich wsparcia. Posortowane transakcje T1, T2,...,Tn, w ostatnim kroku, są transformowane do postaci FP-Tree. Cały proces symbolicznie przedstawiono na rysunku 3. Rys. 3. Algorytm tworzenia Drzewa FP Fig. 3. Algorithm of creation FP-Tree Każda pojedyncza gałąź w drzewie FP, rozpoczyna się w korzeniu drzewa (oznaczonym etykietą null). Reprezentuje ona zbiór transakcji zawierających identyczne elementy. Licznik ostatniego wierzchołka α danej ścieżki prefiksowej (dowolnego odcinka gałęzi) informuje o liczbie transakcji wspierających zbiór elementów reprezentowanych przez wierzchołki grafu należące do tej ścieżki. Algorytm FP-Growth tworzy również dodatkową strukturę. Nazywa się ją Tablicą Nagłówkową. Wskazuje ona lokalizację każdego elementu w drzewie FP. Wszystkie ścieżki prefiksowe wzorca tworzą warunkową bazę wzorca, która służy do konstrukcji tak zwanego Warunkowego drzewa FP wzorca alpha, oznaczanego Tree_alpha. Warunkowe drzewo FP jest w dalszej części algorytmu rekursywnie eksplorowane w celu znalezienia wszystkich zbiorów częstych zawierających zbiór alpha. W przedstawionym przykładzie pierwsza transakcja tworzy ścieżkę prefiksową podpałka:1 węgiel:1. Transakcja druga ma wspólny prefiks podpałka z transakcją pierwszą, posiada również zbiory częste piwo kiełbasa, które tworzą nową ścieżkę prefiksową. W kroku drugim otrzymano gałąź: podpałka:2 piwo:1 Kielbasa:1. Transakcja o id.3 nie pokrywa się z dwiema pierwszymi w najczęstszym z zbiorów (podpałka), tworzy tym samym nie zupełnie nową gałąź. W analogiczny sposób można rozpisano transakcje o id. 4 i 5, w wyniku czego otrzymano drzewo FP o kształcie przedstawionym na rysunku 3. Następnym etapem jest eksploracja Drzewa FP, jej procedurę przedstawiono w postaci pseudokodu na rysunku.4.

8 16 Bartosz Bachman, Paweł Karol Frankowski procedure FP-Growth (Tree, α) if Tree zawiera pojedynczą ścieżkę P then for each kombinacji β wierzchołków ścieżki P do generuj zbiór β α o wsparciu równym minimalnemu wsparciu elementów należących do β end do else for each α-i należącego do tablicy nagłówków elementów Tree do generuj zbiór β = α-i α o wsparciu = wsparcie(α-i ); utwórz warunkową bazę wzorca β; utwórz warunkowe FP-drzewo wzorca β - Tree- β; if Tree- β then FP-Growth (Tree- β, β); end procedure; Rys. 4. Pseudokod procedury eksploracji DrzewaFP Fig. 4. Pseudocode of FP-Tree exploration algorithm Ekspolorację drzewa rozpoczyna się od ostatniego znalezionego zbioru częstego, od najmniejszego wsparcia. Ostatnim znalezionym zbiorem częstym była kiełbasa. Prowadzi do niej tylko jedna ścieżka prefiksowa podpałka:2 piwo:2 kielbasa:2. Licznik ścieżki przyjmuje wartość licznika transakcji wierzchołka kiełbasa i jest równy 2. Warunkowe drzewo FP kiełbasy zawiera, zatem tylko jedną ścieżkę, która tworzy wzorce: (podpałka piwo kielbasa):2, (podpałka piwo):2 i (podpałka):2. Wsparcie tych wzorców wynosi 2/5=40%. W analogiczny sposób rozpisać można pozostałe gałęzie drzewa. W rozpatrywanym przypadku drzewo warunkowe węgla posiada aż trzy ścieżki prefiksowe, zaś piwo tylko jedną. 4. Web mining Internet stanowi doskonałe miejsce do poznawania zwyczajów użytkowników i wyznaczania najróżniejszych reguł asocjacji. Wykorzystywania narzędzi Data Mining w sieci jest w znacznym stopniu uproszczone, ponieważ: gromadzone dane zawierają sporo informacji o internaucie, ilość zgromadzonych danych jest na tyle duża, że z łatwością można wylosować wiarygodną próbę testową, co może być bardzo pomocne przy testowaniu modeli, dzięki zautomatyzowanemu sposobowi gromadzenia danych otrzymuje się względnie rzetelne zbiory obserwacji, bardzo łatwo można zaobserwować i wykazać użyteczność modeli data mining oraz oszacować efektywność działań (np. obliczając wskaźnik ROI), otrzymywane dane są zestandaryzowane, więc łatwo je porównać z danymi analizowanymi jakiś czas temu, pozwala to na skuteczną analizę sekwencji.

9 Wyszukiwanie reguł asocjacji i ch zastosowanie w Internecie 17 web mining analiza zawartości sieci analiza wzorców zachowań użytkowników podejście oparte na agentach podejście oparte na bazach danych Rys. 5. Web mining [2] Fig. 5. Web mining [2] Najbardziej oczywistym zastosowań wyszukiwania reguł asocjacji w Web mining jest użycie ich w sklepach internetowych. Wiedząc, że klient kupuje produkt A można mu pokazać produkty B, C i D, które są zwykle kupowane wraz z A. Są to tak zwane reguły substytucji. Reguły dysocjacji, (jeżeli A i [nie B] to C) pozwalają dostosować wygląd strony do użytkownika by nie widział tego, czego nie chce oglądać. Reguły cykliczne pozwalają przypomnieć mu o tym, że zbliża się czas, w którym zwykle kupuje jakiś produkt. Lub wyświetlić reklamy, gdy zwykle jego aktywność w Internecie jest największa. Reguły sekwencji dostarczają informacji, co, kiedy i za ile internauta kupuje. Robiąc zakupy w Internecie dostarczamy administratorom sklepu wielu cennych informacji takich jak: kiedy mamy czas wolny, jakimi środkami finansowymi dysponujemy, w jaki sposób dokonujemy płatności, jak podatni na reklamę jesteśmy i wiele innych [1]. Analiza zachowań internautów pozwala przedsiębiorstwom oszacować wartość życiową klienta, maksymalizować przychody ze sprzedaży, oceniać skuteczność kampanii promocyjnych, optymalizować wygląd i funkcjonalność witryn, dostarczać internautom spersonalizowany przekaz, czy znaleźć najbardziej skuteczną logiczną strukturę witryny. Każdy nasz krok pomiędzy stronami, czas, który na stronie przebywamy, co, gdzie i kiedy piszemy pozostawia w Internecie ślady. Warto, zatem wiedzieć, że kiedy my się uczymy Internetu, Internet uczy może uczyć się nas. Podsumowując Web mining występuje w pięciu obszarach: personalizacja mająca zastosowanie głównie w handlu elektronicznym, usprawnienia systemu poprzez wykrywanie przeciążeń, intruzów, oszustów i sposobów włamań, modyfikacja witryny ma na celu wzrost jej atrakcyjności dla użytkowników, często wiąże się z handlem elektronicznym, analityka biznesowa dostarcza informacji w jakis sposób internaucie poruszają się po Siecie, dane te są następnie wykorzystywane marketingowo w trzech obszarach: pozyskiwania klientów, sprzedaży krzyżowej i analizie migracji klientów, charakterystyka użytkowników sposób w jaki użytkują Internet dostarcza wielu, użytecznych danych.

10 18 Bartosz Bachman, Paweł Karol Frankowski 5. Wnioski Algorytmy badające reguły asocjacji są bardzo użytecznym i uniwersalnym narzędziem pozwalającym odkryć wiele zaskakujących i niespodziewanych powiązań. Kluczem do wykrycia właściwych reguł jest odpowiednie przygotowanie danych. Literatura 1. Łapczyński M., Analiza koszykowa i analiza sekwencji wielki brat czuwa, Cooley R., Mobasher B., Srivastava J., WebMining: Information and Pattern Discovery on the World Wide Web, Proceedings of the 9th International Conference on Tools with Artificial Intelligence, IEEE Computer Society, 1997, s. 558 Streszczenie Celem artykułu jest przedstawienie metod wyszukiwania reguł asocjacji i opisywania, jakości otrzymanych powiązań. W opracowaniu przedstawiono na przykładach algorytmy najbardziej popularnych metod anlizy koszykowej: Apriori i FP-Growth. Zwrócono również uwagę na proces przygotowania danych do dalszej analizy. Ostatni rozdział został poświęcony zastosowaniu wyszukiwania reguł asocjacji w Internecie tzw. Web mining. Process of search for association rules and their uses in internet Summary The purpose of this paper is to present the process of search association rules and presentation main parameters of obtained links. Pseudocode of Apriori and FP-Growth algorithms are presented and analyzed for the example database. Processes of preparing data for search association rulaes are presented. Last chapter of this paper is dedicated for the topic of Web mining.

Algorytmy odkrywania binarnych reguł asocjacyjnych

Algorytmy odkrywania binarnych reguł asocjacyjnych Algorytmy odkrywania binarnych reguł asocjacyjnych A-priori FP-Growth Odkrywanie asocjacji wykład 2 Celem naszego wykładu jest zapoznanie się z dwoma podstawowymi algorytmami odkrywania binarnych reguł

Bardziej szczegółowo

Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu

Data Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu Data Mining Wykład 3 Algorytmy odkrywania binarnych reguł asocjacyjnych Plan wykładu Algorytm Apriori Funkcja apriori_gen(ck) Generacja zbiorów kandydujących Generacja reguł Efektywności działania Własności

Bardziej szczegółowo

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych

Bardziej szczegółowo

Inżynieria biomedyczna

Inżynieria biomedyczna Inżynieria biomedyczna Projekt Przygotowanie i realizacja kierunku inżynieria biomedyczna studia międzywydziałowe współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego.

Bardziej szczegółowo

1. Odkrywanie asocjacji

1. Odkrywanie asocjacji 1. 2. Odkrywanie asocjacji...1 Algorytmy...1 1. A priori...1 2. Algorytm FP-Growth...2 3. Wykorzystanie narzędzi Oracle Data Miner i Rapid Miner do odkrywania reguł asocjacyjnych...2 3.1. Odkrywanie reguł

Bardziej szczegółowo

Metody eksploracji danych. Reguły asocjacyjne

Metody eksploracji danych. Reguły asocjacyjne Metody eksploracji danych Reguły asocjacyjne Analiza podobieństw i koszyka sklepowego Analiza podobieństw jest badaniem atrybutów lub cech, które są powiązane ze sobą. Metody analizy podobieństw, znane

Bardziej szczegółowo

Ewelina Dziura Krzysztof Maryański

Ewelina Dziura Krzysztof Maryański Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład

Bardziej szczegółowo

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2 Data Mining Wykład 2 Odkrywanie asocjacji Plan wykładu Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych Geneza problemu Geneza problemu odkrywania reguł

Bardziej szczegółowo

Odkrywanie asocjacji

Odkrywanie asocjacji Odkrywanie asocjacji Cel odkrywania asocjacji Znalezienie interesujących zależności lub korelacji, tzw. asocjacji Analiza dużych zbiorów danych Wynik procesu: zbiór reguł asocjacyjnych Witold Andrzejewski,

Bardziej szczegółowo

Reguły asocjacyjne, wykł. 11

Reguły asocjacyjne, wykł. 11 Reguły asocjacyjne, wykł. 11 Joanna Jędrzejowicz Instytut Informatyki Przykłady reguł Analiza koszyka sklepowego (ang. market basket analysis) - jakie towary kupowane są razem, Jakie towary sprzedają się

Bardziej szczegółowo

Odkrywanie wzorców sekwencji

Odkrywanie wzorców sekwencji Odkrywanie wzorców sekwencji Sformułowanie problemu Algorytm GSP Eksploracja wzorców sekwencji wykład 1 Na wykładzie zapoznamy się z problemem odkrywania wzorców sekwencji. Rozpoczniemy od wprowadzenia

Bardziej szczegółowo

Systemy Wspomagania Decyzji

Systemy Wspomagania Decyzji Reguły Asocjacyjne Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności March 18, 2014 1 Wprowadzenie 2 Definicja 3 Szukanie reguł asocjacyjnych 4 Przykłady użycia 5 Podsumowanie Problem Lista

Bardziej szczegółowo

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006 SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu

Bardziej szczegółowo

Analiza i eksploracja danych

Analiza i eksploracja danych Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Inteligentne Systemy Wspomagania Decyzji Studia magisterskie, semestr I Semestr letni

Bardziej szczegółowo

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING EKSPLORACJA DANYCH Ćwiczenia Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Bardziej szczegółowo

Algorytm DIC. Dynamic Itemset Counting. Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek

Algorytm DIC. Dynamic Itemset Counting. Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek Algorytm DIC Dynamic Itemset Counting Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek Spis treści 1 2 3 4 Algorytm DIC jako rozszerzenie apriori DIC Algorytm znajdowania reguł asocjacyjnych

Bardziej szczegółowo

Odkrywanie asocjacji

Odkrywanie asocjacji Odkrywanie asocjacji Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Odkrywanie asocjacji wykład 1 Wykład jest poświęcony wprowadzeniu i zaznajomieniu się z problemem odkrywania reguł asocjacyjnych.

Bardziej szczegółowo

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com

Krzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com XI Konferencja PLOUG Kościelisko Październik 2005 Zastosowanie reguł asocjacyjnych, pakietu Oracle Data Mining for Java do analizy koszyka zakupów w aplikacjach e-commerce. Integracja ze środowiskiem Oracle

Bardziej szczegółowo

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT

Bardziej szczegółowo

data mining machine learning data science

data mining machine learning data science data mining machine learning data science deep learning, AI, statistics, IoT, operations research, applied mathematics KISIM, WIMiIP, AGH 1 Machine Learning / Data mining / Data science Uczenie maszynowe

Bardziej szczegółowo

Wysokość drzewa Głębokość węzła

Wysokość drzewa Głębokość węzła Drzewa Drzewa Drzewo (ang. tree) zbiór węzłów powiązanych wskaźnikami, spójny i bez cykli. Drzewo posiada wyróżniony węzeł początkowy nazywany korzeniem (ang. root). Drzewo ukorzenione jest strukturą hierarchiczną.

Bardziej szczegółowo

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;

B jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ; Algorytm LEM1 Oznaczenia i definicje: U - uniwersum, tj. zbiór obiektów; A - zbiór atrybutów warunkowych; d - atrybut decyzyjny; IND(B) = {(x, y) U U : a B a(x) = a(y)} - relacja nierozróżnialności, tj.

Bardziej szczegółowo

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość

Przykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego

Bardziej szczegółowo

Sztuczna Inteligencja Projekt

Sztuczna Inteligencja Projekt Sztuczna Inteligencja Projekt Temat: Algorytm LEM2 Liczba osób realizujących projekt: 2 1. Zaimplementować algorytm LEM 2. 2. Zaimplementować klasyfikator Classif ier. 3. Za pomocą algorytmu LEM 2 wygenerować

Bardziej szczegółowo

Sortowanie topologiczne skierowanych grafów acyklicznych

Sortowanie topologiczne skierowanych grafów acyklicznych Sortowanie topologiczne skierowanych grafów acyklicznych Metody boolowskie w informatyce Robert Sulkowski http://robert.brainusers.net 23 stycznia 2010 1 Definicja 1 (Cykl skierowany). Niech C = (V, A)

Bardziej szczegółowo

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład

Bardziej szczegółowo

2017/2018 WGGiOS AGH. LibreOffice Base

2017/2018 WGGiOS AGH. LibreOffice Base 1. Baza danych LibreOffice Base Jest to zbiór danych zapisanych zgodnie z określonymi regułami. W węższym znaczeniu obejmuje dane cyfrowe gromadzone zgodnie z zasadami przyjętymi dla danego programu komputerowego,

Bardziej szczegółowo

Algorytmy i struktury danych. Co dziś? Tytułem przypomnienia metoda dziel i zwyciężaj. Wykład VIII Elementarne techniki algorytmiczne

Algorytmy i struktury danych. Co dziś? Tytułem przypomnienia metoda dziel i zwyciężaj. Wykład VIII Elementarne techniki algorytmiczne Algorytmy i struktury danych Wykład VIII Elementarne techniki algorytmiczne Co dziś? Algorytmy zachłanne (greedyalgorithms) 2 Tytułem przypomnienia metoda dziel i zwyciężaj. Problem można podzielić na

Bardziej szczegółowo

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je. Problem porządkowania zwanego również sortowaniem jest jednym z najważniejszych i najpopularniejszych zagadnień informatycznych. Dane: Liczba naturalna n i ciąg n liczb x 1, x 2,, x n. Wynik: Uporządkowanie

Bardziej szczegółowo

Wielopoziomowe i wielowymiarowe reguły asocjacyjne

Wielopoziomowe i wielowymiarowe reguły asocjacyjne Wielopoziomowe i wielowymiarowe reguły asocjacyjne Wielopoziomowe reguły asocjacyjne Wielowymiarowe reguły asocjacyjne Asocjacje vs korelacja Odkrywanie asocjacji wykład 3 Kontynuując zagadnienia związane

Bardziej szczegółowo

5. OKREŚLANIE WARTOŚCI LOGICZNEJ ZDAŃ ZŁOŻONYCH

5. OKREŚLANIE WARTOŚCI LOGICZNEJ ZDAŃ ZŁOŻONYCH 5. OKREŚLANIE WARTOŚCI LOGICZNEJ ZDAŃ ZŁOŻONYCH Temat, którym mamy się tu zająć, jest nudny i żmudny będziemy się uczyć techniki obliczania wartości logicznej zdań dowolnie złożonych. Po co? możecie zapytać.

Bardziej szczegółowo

Reguły asocjacyjne w programie RapidMiner Michał Bereta

Reguły asocjacyjne w programie RapidMiner Michał Bereta Reguły asocjacyjne w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Reguły asocjacyjne mają na celu odkrycie związków współwystępowania pomiędzy atrybutami. Stosuje się je często do danych

Bardziej szczegółowo

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne

Algorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne Algorytmy i struktury danych Drzewa: BST, kopce Letnie Warsztaty Matematyczno-Informatyczne Drzewa: BST, kopce Definicja drzewa Drzewo (ang. tree) to nieskierowany, acykliczny, spójny graf. Drzewo może

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Ćwiczenie 5. Metody eksploracji danych

Ćwiczenie 5. Metody eksploracji danych Ćwiczenie 5. Metody eksploracji danych Reguły asocjacyjne (association rules) Badaniem atrybutów lub cech, które są powiązane ze sobą, zajmuje się analiza podobieństw (ang. affinity analysis). Metody analizy

Bardziej szczegółowo

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji

Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące

Bardziej szczegółowo

Algorytmy Równoległe i Rozproszone Część V - Model PRAM II

Algorytmy Równoległe i Rozproszone Część V - Model PRAM II Algorytmy Równoległe i Rozproszone Część V - Model PRAM II Łukasz Kuszner pokój 209, WETI http://www.sphere.pl/ kuszner/ kuszner@sphere.pl Oficjalna strona wykładu http://www.sphere.pl/ kuszner/arir/ 2005/06

Bardziej szczegółowo

Grzegorz Harańczyk, StatSoft Polska Sp. z o.o.

Grzegorz Harańczyk, StatSoft Polska Sp. z o.o. CO Z CZYM I PO CZYM, CZYLI ANALIZA ASOCJACJI I SEKWENCJI W PROGRAMIE STATISTICA Grzegorz Harańczyk, StatSoft Polska Sp. z o.o. Jednym z zagadnień analizy danych jest wyszukiwanie w zbiorach danych wzorców,

Bardziej szczegółowo

Odkrywanie asocjacji. Cel. Geneza problemu analiza koszyka zakupów

Odkrywanie asocjacji. Cel. Geneza problemu analiza koszyka zakupów Odkrywanie asocjacji Cel Celem procesu odkrywania asocjacji jest znalezienie interesujących zależności lub korelacji (nazywanych ogólnie asocjacjami) pomiędzy danymi w dużych zbiorach danych. Wynikiem

Bardziej szczegółowo

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji

Bardziej szczegółowo

5.5. Wybieranie informacji z bazy

5.5. Wybieranie informacji z bazy 5.5. Wybieranie informacji z bazy Baza danych to ogromny zbiór informacji, szczególnie jeśli jest odpowiedzialna za przechowywanie danych ogromnych firm lub korporacji. Posiadając tysiące rekordów trudno

Bardziej szczegółowo

Podstawy programowania 2. Temat: Drzewa binarne. Przygotował: mgr inż. Tomasz Michno

Podstawy programowania 2. Temat: Drzewa binarne. Przygotował: mgr inż. Tomasz Michno Instrukcja laboratoryjna 5 Podstawy programowania 2 Temat: Drzewa binarne Przygotował: mgr inż. Tomasz Michno 1 Wstęp teoretyczny Drzewa są jedną z częściej wykorzystywanych struktur danych. Reprezentują

Bardziej szczegółowo

Podstawy Informatyki. Metody dostępu do danych

Podstawy Informatyki. Metody dostępu do danych Podstawy Informatyki c.d. alina.momot@polsl.pl http://zti.polsl.pl/amomot/pi Plan wykładu 1 Bazy danych Struktury danych Średni czas odszukania rekordu Drzewa binarne w pamięci dyskowej 2 Sformułowanie

Bardziej szczegółowo

Modelowanie hierarchicznych struktur w relacyjnych bazach danych

Modelowanie hierarchicznych struktur w relacyjnych bazach danych Modelowanie hierarchicznych struktur w relacyjnych bazach danych Wiktor Warmus (wiktorwarmus@gmail.com) Kamil Witecki (kamil@witecki.net.pl) 5 maja 2010 Motywacje Teoria relacyjnych baz danych Do czego

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Spacery losowe generowanie realizacji procesu losowego

Spacery losowe generowanie realizacji procesu losowego Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z

Bardziej szczegółowo

Metody Programowania

Metody Programowania POLITECHNIKA KRAKOWSKA - WIEiK KATEDRA AUTOMATYKI i TECHNIK INFORMACYJNYCH Metody Programowania www.pk.edu.pl/~zk/mp_hp.html Wykładowca: dr inż. Zbigniew Kokosiński zk@pk.edu.pl Wykład 8: Wyszukiwanie

Bardziej szczegółowo

Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik

Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik Technologia Przykłady praktycznych zastosowań wyzwalaczy będą omawiane na bazie systemu MS SQL Server 2005 Wprowadzenie

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

Technologie Internetowe Raport z wykonanego projektu Temat: Internetowy sklep elektroniczny

Technologie Internetowe Raport z wykonanego projektu Temat: Internetowy sklep elektroniczny Technologie Internetowe Raport z wykonanego projektu Temat: Internetowy sklep elektroniczny AiRIII gr. 2TI sekcja 1 Autorzy: Tomasz Bizon Józef Wawrzyczek 2 1. Wstęp Celem projektu było stworzenie sklepu

Bardziej szczegółowo

Temat: Algorytm kompresji plików metodą Huffmana

Temat: Algorytm kompresji plików metodą Huffmana Temat: Algorytm kompresji plików metodą Huffmana. Wymagania dotyczące kompresji danych Przez M oznaczmy zbiór wszystkich możliwych symboli występujących w pliku (alfabet pliku). Przykład M = 2, gdy plik

Bardziej szczegółowo

Zapytania do bazy danych

Zapytania do bazy danych Zapytania do bazy danych Tworzenie zapytań do bazy danych MS Access może być realizowane na dwa sposoby. Standard SQL (Stucture Query Language) lub QBE (Query by Example). Warto wiedzieć, że drugi ze sposobów

Bardziej szczegółowo

15. Funkcje i procedury składowane PL/SQL

15. Funkcje i procedury składowane PL/SQL 15. Funkcje i procedury składowane PLSQL 15.1. SQL i PLSQL (Structured Query Language - SQL) Język zapytań strukturalnych SQL jest zbiorem poleceń, za pomocą których programy i uŝytkownicy uzyskują dostęp

Bardziej szczegółowo

Porządek symetryczny: right(x)

Porządek symetryczny: right(x) Porządek symetryczny: x lef t(x) right(x) Własność drzewa BST: W drzewach BST mamy porządek symetryczny. Dla każdego węzła x spełniony jest warunek: jeżeli węzeł y leży w lewym poddrzewie x, to key(y)

Bardziej szczegółowo

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015 Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Analiza asocjacji i sekwencji Analiza asocjacji Analiza asocjacji polega na identyfikacji

Bardziej szczegółowo

Indukowane Reguły Decyzyjne I. Wykład 3

Indukowane Reguły Decyzyjne I. Wykład 3 Indukowane Reguły Decyzyjne I Wykład 3 IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 2 Powtórzenie

Bardziej szczegółowo

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0

Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0 Słowem wstępu Część rodziny języków XSL Standard: W3C XSLT 1.0-1999 razem XPath 1.0 XSLT 2.0-2007 Trwają prace nad XSLT 3.0 Problem Zakładane przez XML usunięcie danych dotyczących prezentacji pociąga

Bardziej szczegółowo

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle

Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,

Bardziej szczegółowo

EGZAMIN MATURALNY OD ROKU SZKOLNEGO

EGZAMIN MATURALNY OD ROKU SZKOLNEGO EGZAMIN MATURALNY OD ROKU SZKOLNEGO 2014/2015 INFORMATYKA POZIOM ROZSZERZONY ROZWIĄZANIA ZADAŃŃ I SCHEMATY PUNKTOWANIA (A1, A2, A3, A4, A6, A7) GRUDZIEŃ 2013 Zadanie 1. Test (0 5) Wymagania ogólne I. [

Bardziej szczegółowo

Wybrane wymagania dla informatyki w gimnazjum i liceum z podstawy programowej

Wybrane wymagania dla informatyki w gimnazjum i liceum z podstawy programowej Wybrane wymagania dla informatyki w gimnazjum i liceum z podstawy programowej Spis treści Autor: Marcin Orchel Algorytmika...2 Algorytmika w gimnazjum...2 Algorytmika w liceum...2 Język programowania w

Bardziej szczegółowo

Struktura drzewa w MySQL. Michał Tyszczenko

Struktura drzewa w MySQL. Michał Tyszczenko Struktura drzewa w MySQL Michał Tyszczenko W informatyce drzewa są strukturami danych reprezentującymi drzewa matematyczne. W naturalny sposób reprezentują hierarchię danych toteż głównie do tego celu

Bardziej szczegółowo

Matematyka dyskretna. Andrzej Łachwa, UJ, /10

Matematyka dyskretna. Andrzej Łachwa, UJ, /10 Matematyka dyskretna Andrzej Łachwa, UJ, 2018 andrzej.lachwa@uj.edu.pl 10/10 Podziały i liczby Stirlinga Liczba Stirlinga dla cykli (często nazywana liczbą Stirlinga pierwszego rodzaju) to liczba permutacji

Bardziej szczegółowo

Strategie ewolucyjne (ang. evolu4on strategies)

Strategie ewolucyjne (ang. evolu4on strategies) Strategie ewolucyjne (ang. evolu4on strategies) Strategia ewolucyjna (1+1) W Strategii Ewolucyjnej(1 + 1), populacja złożona z jednego osobnika generuje jednego potomka. Kolejne (jednoelementowe) populacje

Bardziej szczegółowo

prowadzący dr ADRIAN HORZYK /~horzyk e-mail: horzyk@agh tel.: 012-617 Konsultacje paw. D-13/325

prowadzący dr ADRIAN HORZYK /~horzyk e-mail: horzyk@agh tel.: 012-617 Konsultacje paw. D-13/325 PODSTAWY INFORMATYKI WYKŁAD 8. prowadzący dr ADRIAN HORZYK http://home home.agh.edu.pl/~ /~horzyk e-mail: horzyk@agh agh.edu.pl tel.: 012-617 617-4319 Konsultacje paw. D-13/325 DRZEWA Drzewa to rodzaj

Bardziej szczegółowo

Algorytmy i struktury danych. Wykład 6 Tablice rozproszone cz. 2

Algorytmy i struktury danych. Wykład 6 Tablice rozproszone cz. 2 Algorytmy i struktury danych Wykład 6 Tablice rozproszone cz. 2 Na poprzednim wykładzie Wiele problemów wymaga dynamicznych zbiorów danych, na których można wykonywać operacje: wstawiania (Insert) szukania

Bardziej szczegółowo

Systemy uczące się Lab 4

Systemy uczące się Lab 4 Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego

Bardziej szczegółowo

Eksploracja danych - wykład VIII

Eksploracja danych - wykład VIII I Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 2 grudnia 2016 1/31 1 2 2/31 (ang. affinity analysis) polega na badaniu atrybutów lub cech, które są ze sobą powiązane. Metody

Bardziej szczegółowo

Algorytmy i Struktury Danych, 9. ćwiczenia

Algorytmy i Struktury Danych, 9. ćwiczenia Algorytmy i Struktury Danych, 9. ćwiczenia 206-2-09 Plan zajęć usuwanie z B-drzew join i split na 2-3-4 drzewach drzepce adresowanie otwarte w haszowaniu z analizą 2 B-drzewa definicja każdy węzeł ma następujące

Bardziej szczegółowo

web mining bazach danych

web mining bazach danych WEB USAGE MINING, CZYLI JAK SPRZEDAĆ SUKIENKĘ CIĄŻOWĄ W INTERNECIE Mariusz Łapczyński, Uniwersytet Ekonomiczny w Krakowie, Katedra Analizy Rynku i Badań Marketingowych Wprowadzenie do web mining Duża popularność

Bardziej szczegółowo

6. Zagadnienie parkowania ciężarówki.

6. Zagadnienie parkowania ciężarówki. 6. Zagadnienie parkowania ciężarówki. Sterowniki rozmyte Aby móc sterować przebiegiem pewnych procesów lub też pracą urządzeń niezbędne jest stworzenie odpowiedniego modelu, na podstawie którego można

Bardziej szczegółowo

QUERY język zapytań do tworzenia raportów w AS/400

QUERY język zapytań do tworzenia raportów w AS/400 QUERY język zapytań do tworzenia raportów w AS/400 Dariusz Bober Katedra Informatyki Politechniki Lubelskiej Streszczenie: W artykule przedstawiony został język QUERY, standardowe narzędzie pracy administratora

Bardziej szczegółowo

Scenariusz lekcji opartej na programie Program nauczania informatyki w gimnazjum DKW-4014-87/99

Scenariusz lekcji opartej na programie Program nauczania informatyki w gimnazjum DKW-4014-87/99 Scenariusz lekcji opartej na programie Program nauczania informatyki w gimnazjum DKW-4014-87/99 Techniki algorytmiczne realizowane przy pomocy grafiki żółwia w programie ELI 2,0. Przedmiot: Informatyka

Bardziej szczegółowo

Algorytmy optymalizacji zapytań eksploracyjnych z wykorzystaniem materializowanej perspektywy eksploracyjnej

Algorytmy optymalizacji zapytań eksploracyjnych z wykorzystaniem materializowanej perspektywy eksploracyjnej Algorytmy optymalizacji zapytań eksploracyjnych z wykorzystaniem materializowanej perspektywy eksploracyjnej Jerzy Brzeziński, Mikołaj Morzy, Tadeusz Morzy, Łukasz Rutkowski RB-006/02 1. Wstęp 1.1. Rozwój

Bardziej szczegółowo

Algorytmy mrówkowe. P. Oleksyk. Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Inteligentne systemy informatyczne

Algorytmy mrówkowe. P. Oleksyk. Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Inteligentne systemy informatyczne y mrówkowe P. Oleksyk Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Inteligentne systemy informatyczne 14 kwietnia 2015 1 Geneza algorytmu - biologia 2 3 4 5 6 7 8 Geneza

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego

Bardziej szczegółowo

INFORMATYKA POZIOM ROZSZERZONY

INFORMATYKA POZIOM ROZSZERZONY EGZAMIN MATURALNY W ROKU SZKOLNYM 2016/2017 FORMUŁA OD 2015 ( NOWA MATURA ) INFORMATYKA POZIOM ROZSZERZONY ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ MIN-R1, R2 MAJ 2017 Uwaga: Akceptowane są wszystkie odpowiedzi

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

Data Mining podstawy analizy danych Część druga

Data Mining podstawy analizy danych Część druga Data Mining podstawy analizy danych Część druga W części pierwszej dokonaliśmy procesu analizy danych treningowych w oparciu o algorytm drzewa decyzyjnego. Proces analizy danych treningowych może być realizowany

Bardziej szczegółowo

Programowanie i struktury danych

Programowanie i struktury danych Programowanie i struktury danych 1 / 30 STL Standard Template Library, STL (ang. = Standardowa Biblioteka Wzorców) biblioteka C++ zawierająca szablony (wzorce), które umożliwiają wielokrotne użycie. Główne

Bardziej szczegółowo

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie

Bardziej szczegółowo

Przestrzenne bazy danych Podstawy języka SQL

Przestrzenne bazy danych Podstawy języka SQL Przestrzenne bazy danych Podstawy języka SQL Stanisława Porzycka-Strzelczyk porzycka@agh.edu.pl home.agh.edu.pl/~porzycka Konsultacje: wtorek godzina 16-17, p. 350 A (budynek A0) 1 SQL Język SQL (ang.structured

Bardziej szczegółowo

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych

Pochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych Pochodna i różniczka unkcji oraz jej zastosowanie do obliczania niepewności pomiarowych Krzyszto Rębilas DEFINICJA POCHODNEJ Pochodna unkcji () w punkcie określona jest jako granica: lim 0 Oznaczamy ją

Bardziej szczegółowo

Jak przekształcać zmienne jakościowe?

Jak przekształcać zmienne jakościowe? Data Preparation Jak przekształcać zmienne jakościowe? Marta Płonka Predictive Solutions W ostatnim artykule zobaczyliśmy, jak sprawdzić, czy między wybranymi przez nas predyktorami a zmienną przewidywaną

Bardziej szczegółowo

Listy, kolejki, stosy

Listy, kolejki, stosy Listy, kolejki, stosy abc Lista O Struktura danych składa się z węzłów, gdzie mamy informacje (dane) i wskaźniki do następnych węzłów. Zajmuje tyle miejsca w pamięci ile mamy węzłów O Gdzie można wykorzystać:

Bardziej szczegółowo

Przeszukiwanie z nawrotami. Wykład 8. Przeszukiwanie z nawrotami. J. Cichoń, P. Kobylański Wstęp do Informatyki i Programowania 238 / 279

Przeszukiwanie z nawrotami. Wykład 8. Przeszukiwanie z nawrotami. J. Cichoń, P. Kobylański Wstęp do Informatyki i Programowania 238 / 279 Wykład 8 J. Cichoń, P. Kobylański Wstęp do Informatyki i Programowania 238 / 279 sformułowanie problemu przegląd drzewa poszukiwań przykłady problemów wybrane narzędzia programistyczne J. Cichoń, P. Kobylański

Bardziej szczegółowo

Data Mining Kopalnie Wiedzy

Data Mining Kopalnie Wiedzy Data Mining Kopalnie Wiedzy Janusz z Będzina Instytut Informatyki i Nauki o Materiałach Sosnowiec, 30 listopada 2006 Kopalnie złota XIX Wiek. Odkrycie pokładów złota spowodowało napływ poszukiwaczy. Przeczesywali

Bardziej szczegółowo

znalezienia elementu w zbiorze, gdy w nim jest; dołączenia nowego elementu w odpowiednie miejsce, aby zbiór pozostał nadal uporządkowany.

znalezienia elementu w zbiorze, gdy w nim jest; dołączenia nowego elementu w odpowiednie miejsce, aby zbiór pozostał nadal uporządkowany. Przedstawiamy algorytmy porządkowania dowolnej liczby elementów, którymi mogą być liczby, jak również elementy o bardziej złożonej postaci (takie jak słowa i daty). Porządkowanie, nazywane również często

Bardziej szczegółowo

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO. Rzeczywistość (istniejąca lub projektowana).. Model fizyczny. 3. Model matematyczny (optymalizacyjny): a. Zmienne projektowania

Bardziej szczegółowo

Sprawozdanie z laboratorium: Hurtownie Danych. Algorytm generowania reguł asocjacyjnych. FP-Growth. 9 czerwca 2011

Sprawozdanie z laboratorium: Hurtownie Danych. Algorytm generowania reguł asocjacyjnych. FP-Growth. 9 czerwca 2011 Sprawozdanie z laboratorium: Hurtownie Danych Algorytm generowania reguł asocjacyjnych 9 czerwca 2011 Prowadzący: dr inż. Izabela Szczęch dr inż. Szymon Wilk Autorzy: Łukasz Idkowiak Tomasz Kamiński Jacek

Bardziej szczegółowo

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Przetwarzanie Sygnałów Studia Podyplomowe, Automatyka i Robotyka. Wstęp teoretyczny Zmienne losowe Zmienne losowe

Bardziej szczegółowo

Zadania do wykonania. Rozwiązując poniższe zadania użyj pętlę for.

Zadania do wykonania. Rozwiązując poniższe zadania użyj pętlę for. Zadania do wykonania Rozwiązując poniższe zadania użyj pętlę for. 1. apisz program, który przesuwa w prawo o dwie pozycje zawartość tablicy 10-cio elementowej liczb całkowitych tzn. element t[i] dla i=2,..,9

Bardziej szczegółowo

1: 2: 3: 4: 5: 6: 7: 8: 9: 10:

1: 2: 3: 4: 5: 6: 7: 8: 9: 10: Grupa A (LATARNIE) Imię i nazwisko: Numer albumu: 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: Nazwisko prowadzącego: 11: 12: Suma: Ocena: Zad. 1 (10 pkt) Dana jest relacja T. Podaj wynik poniższego zapytania (podaj

Bardziej szczegółowo

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Wykład 4: Wnioskowanie statystyczne Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Idea wnioskowania statystycznego Celem analizy statystycznej nie jest zwykle tylko

Bardziej szczegółowo

REGU LY ASOCJACYJNE. Nguyen Hung Son. Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski. 28.II i 6.III, 2008

REGU LY ASOCJACYJNE. Nguyen Hung Son. Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski. 28.II i 6.III, 2008 REGU LY ASOCJACYJNE Nguyen Hung Son Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski 28.II i 6.III, 2008 Nguyen Hung Son (MIMUW) W2 28.II i 6.III, 2008 1 / 38 Outline 1 Dane transakcyjne

Bardziej szczegółowo

REGU LY ASOCJACYJNE. Nguyen Hung Son. 25 lutego i 04 marca Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski.

REGU LY ASOCJACYJNE. Nguyen Hung Son. 25 lutego i 04 marca Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski. REGU LY ASOCJACYJNE Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski 25 lutego i 04 marca 2005 Outline 1 2 3 regu l asocjacyjnych 4 5 Motywacje Lista autorów (items) A Jane Austen C

Bardziej szczegółowo

9.9 Algorytmy przeglądu

9.9 Algorytmy przeglądu 14 9. PODSTAWOWE PROBLEMY JEDNOMASZYNOWE 9.9 Algorytmy przeglądu Metody przeglądu dla problemu 1 r j,q j C max były analizowane między innymi w pracach 25, 51, 129, 238. Jak dotychczas najbardziej elegancka

Bardziej szczegółowo

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych

Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych Temat: Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych Autorzy: Tomasz Małyszko, Edyta Łukasik 1. Definicja eksploracji danych Eksploracja

Bardziej szczegółowo

AiSD zadanie trzecie

AiSD zadanie trzecie AiSD zadanie trzecie Gliwiński Jarosław Marek Kruczyński Konrad Marek Grupa dziekańska I5 5 czerwca 2008 1 Wstęp Celem postawionym przez zadanie trzecie było tzw. sortowanie topologiczne. Jest to typ sortowania

Bardziej szczegółowo

Wyszukiwanie binarne

Wyszukiwanie binarne Wyszukiwanie binarne Wyszukiwanie binarne to technika pozwalająca na przeszukanie jakiegoś posortowanego zbioru danych w czasie logarytmicznie zależnym od jego wielkości (co to dokładnie znaczy dowiecie

Bardziej szczegółowo

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej

7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej 7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach

Bardziej szczegółowo