Wyszukiwanie reguł asocjacji i ich zastosowanie w internecie
|
|
- Antonina Wiśniewska
- 8 lat temu
- Przeglądów:
Transkrypt
1 Bartosz BACHMAN 1, Paweł Karol FRANKOWSKI 1,2 1 Wydział Elektryczny, 2 Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie E mail: bartosz.bachman@sk.sep.szczecin.pl 1. Wprowadzenie Wyszukiwanie reguł asocjacji i ich zastosowanie w internecie Asocjacja inaczej skojarzenie polega na kojarzeniu elementów, łączeniu ich ze sobą i wyszukiwaniu zależności pomiędzy nimi. Pierwotnie badania nad regułami asocjacji motywowane były zagadnieniami tak zwanej analizy koszykowej. Odkrywając wzorce zachowań klientów można określić grupy produktów kupowanych jednocześnie. Wiedza ta pozwala lepiej dobierać miejsce położenia produktów na półkach, tworzyć skuteczniejsze promocje, opracowywać wydajniejsze kampanie marketingowe, optymalizować strategię cenową, czyli jednym słowem zwiększać zyski i poprawiać konkurencyjność firmy. Wiedząc na przykład, że większość klientów kupujących węgiel drzewny do grilla kupuje również podpałkę, można zadbać by produkty te znalazły się np. odpowiednio blisko siebie. Chcąc podnieść dzienną liczbę klientów, a jednocześnie nie obniżać średniej marży można wykorzystać tą zależność reklamując nową, promocyjną cenę węgla, co z pewnością w okresie wiosennym przyczyni się do zwiększenia liczbę klientów, jednocześnie podnosząc cenę innych produktów, które są zwykle kupowane wraz z węglem. Podniesiona cena m.in. podpałki zrekompensuje spadek marży z węgla, zaś większe obroty przełożą się na zysk. Termin Analiza Koszykowa funkcjonuje do dzisiaj, jednak jej zakres wychodzi obecnie daleko poza półki sklepów obejmując np.: badania naukowe, transakcje biznesowe, analizy tekstu typu text mining i wiele innych. Algorytmy wyszukujące reguły asocjacji są stosowane wszędzie tam gdzie analizowane są obszerne bazy danych, a powiązania pomiędzy poszczególnymi zmiennymi nie są znane. Nazwy Analiza Koszykowa i Wyszukiwanie Reguł Asocjacji stosowane są coraz częściej w sposób zamienny. Jednoznaczność tych terminów pozostaje dyskusyjna jednakże użyteczność tego jednego z najpowszechniej stosowanych narzędzi Data Mining jest bezsporna. 2. Wyszukiwanie reguł asocjacji Jak już wspomniano, analiza koszykowa służy do znajdywania w dużym zestawie danych ukrytych zależności w postaci prostych reguł. Analizować można dowolne cechy danej populacji, choć w zależności od ich rodzaju oraz formy przedstawiania należy dostosować sposób analizy.
2 10 Bartosz Bachman, Paweł Karol Frankowski Standardowo cechy mogą być podzielone na: cechy jakościowe niebędące liczbami, np.: kolor, płeć, grupa krwi, cechy ilościowe cechy przyjmujące pewne wartości liczbowe: - skokowe cecha przyjmuje tylko pewne wartości liczbowe np. liczba dzieci, - ciągłe cecha może przymować dowolne wartości z danego przedziału, - porządkowe przyporządkowuje dane liczbowe do konkretnych przedziałów np. wzrost: niski, średni i wysoki. Analiza koszykowa była tworzona z myślą o danych jakościowych. Chcąc wykorzystać ją do danych liczbowych ilościowych ciągłych, a często również skokowych należy najpierw je dyskretyzować. Poprzez ten proces dąży się do otrzymania możliwie małej ilości przedziałów, przy jednoczesnym jak najlepszym oddaniu natury danej zmiennej. W efekcie cechy ciągłe zamieniane są w skokowe, porządkowe lub (o ile to tylko możliwe) dychtonomiczne. Podczas przygotowywania danych do analizy bardzo pomocne okazują się być współczesne modele wykorzystujące w dyskretyzacji miarę entropii i regułę MDL, jednak w większości przypadków nie mogą one całkowicie zastępować człowieka, kluczem do odpowiedniego przygotowania danych nadal pozostaje ich zrozumienie.wynikiem analizy koszykowej są reguły asocjacji w postaci: JEŻELI [poprzednik (z ang. body)] TO [następnik (z ang. head)] Przykładem takiej reguły może być: [węgiel, kiełbaski] [podpałka], należy to odczytać jako: jeżeli klient kupił węgiel i kiełbaski to istnieje istotne prawdopodobieństwo, że kupi również podpałkę. Oczywiście reguła ta nie musi się być prawdziwa w stu procentach, przypadków. Jakość reguły zwykle opisywana jest przez dwa, lub czasami trzy wskaźniki. Zanim jednak zostaną one omówione należy wprowadzić szereg pojęć. Zakładając, że dysponujemy zbiorem danych, w którym: I : zbiór iterałów (atrybutów); w naszym przypadku wszystkich dostępnych w sklepie towarów; I={i 1, i 2,, i m }, X : dowolny zbiór iterałów zawierający się w zbiorze I, czyli X I, D : zbiór transakcji, każda transakcja jest reprezentowana przez parę T={id, X}, gdzie id to numer identyfikacyjny transakcji; D={T 1, T 2,, T m }, T id : zakładamy, że każdy identyfikator transakcji należy do skończonego zbioru identyfikatorów T id ; Mówimy, że dana transakcja T pokrywa zbiór A gdy A X, Pokrycie zbioru towarów A w bazie D to zbiór cover(a, D) = {T D : T pokrywa A}. Chcąc określić częstość występowania zbioru produktów A w transakcjach bazy D, czyli c(a, D) należy obliczyć w ilu przypadkach transakcje T pokrywały badany zbiór A oznaczmy to przez s(a, D), a następnie podzielić to przez liczbę transakcji znajdujących się w bazie, czyli s(d). Reguły asocjacji można, zatem definiować jako implikacje A B, gdzie A I i B I oraz A B =. Podstawowymi wskaźnikami jakości reguły są: Wsparcie (support) może zostać zapisana, jako prawdopodobieństwo P(A B) czyli odsetek transakcji w zbiorze danych zawierających daną regułę. W omawianym
3 Wyszukiwanie reguł asocjacji i ch zastosowanie w Internecie 11 przypadku okresla prawdopodobieństwo kupienia węgla, kiełbasek i podpałki przez losowo wybranego klienta. sup(a B, D) = s(a B) s(d) (1) Pewność (confidence) może zostać zapisana, jako prawdopodobieństwo warunkowe P(B A) czyli prawdopodobieństwo wystopięnia następnika, pod warunkiem wystąpienia poprzednika. W opisywanym przypadku jest to prawdopodobieństwo tego, że klient kupi podpałkę, gdy już kupił węgiel i kiełbaski. conf(a B,D) = sup(a B,D) sup(a,d) (2) Korelacja (correlation) Wskażnik ten można traktować jako informację o tym, jaka część dostępnych zdarzeń została wykorzystana w danej asocjacji. Gdy korelacja reguły jest równa 100% oznacza to że wszystkie zbiory częte tworzące tą regułe występują tylko w niej. correl(a B,D) = sup (A B,D) sup (A,D) sup (B,D) (3) Przyrost (lift) jest rozwinięciem wskaźnika korelacji. Informuje, jaki jest wpływ sprzedaży produktu A na sprzedaż produktu B. Należy zauważyć, że potencjalnych reguł może być bardzo wiele, np. jeżeli klient nie kupił produktu A to nie kupi również produktu B. Taka reguła jest zupełnie bezużyteczna gdyż w sklepie mogą być tysiące produktów. Należy, zatem wydzielić jedynie te reguły, które spełniają nasze wymagania. W tym celu określa się minimalne wartości wsparcia i czasem pewności, lub korelacji. Zbiory o wsparciu większym niż minimalne nazywane są częstymi. Przyjmuje się, że zbiór towarów A jest częsty, jeśli występuje on w co najmniej minsupp procentach transakcji w bazie c(a, D) >support min D. Tab. 1. Przykładowa baza transakcji D Tab. 1. Example of database D Tid węgiel podpałka kiełbasa keczup piwo W tabeli 1 przedstawiono przykład bazy transakcji D. W sklepie znajduje się jedynie pięć produktów, a reguł asocjacji są wyszukiwane tylko w trzech transakcjach. Dane można przedstawić w formie tabeli wielodzielczej, zawierającej dane dychtonomiczne. By uprościć analizę pola produktów, w których nie zakupiono w danej transakcji pozostawiono puste. Taka forma zapisu nadaje się do prezentowanego przykładu, jednak
4 12 Bartosz Bachman, Paweł Karol Frankowski w praktyce liczba transakcji i produktów w sklepie może być o wiele większa i sięgać np. dziesiątek tysięcy. Wówczas otrzymana tabela byłaby olbrzymia i w większości pusta. Z tego powodu zwykle lepiej sprawdzają się dane w formie tabeli wielokrotnych odpowiedzi, lub o ile to możliwe w formie tabeli liczności. Błędne przygotowanie danych może sprawić, że nie otrzymamy reguł asocjacji, otrzymane reguły będą nieużyteczne, lub po prostu nieprawdziwe. W ogólnym przypadku liczbę potencjalnych reguł można wyliczyć korzystając ze wzoru na kombinację bez powtórzeń. Jeżeli L to maksymalna rozpatrywana liczba poprzedników, zaś K następników, a n to liczba produktów w sklepie, wtedy liczba potencjalnych reguł wynosi: L n K n S = l = l k = k, 1 1 K + L n W omawianym przypadku chcemy wykryć wszystkie możliwe reguły. Ponieważ w takiej sytuacji liczba poprzedników ogranicza liczbę następników wzór musi być zmodyfikowany do postaci: S L = n n l n l = 1 l k = 1 k Po podstawienie danych do wzoru (5) obserwuje się, że stosując tabelę z danymi dychtonomicznymi (produkt kupiony lub niekupiony) liczba potencjalnych reguł wynosi Gdy przedstawimy te same dane tak jak w tabeli 1, gdzie zmienne mogą przejmować tylko jedną wartość liczba ta maleje do 180. Można zauważyć, że jeżeli reguła A B spełnia nasze wymogi, to reguła B A będzie spełniała je w tym samym stopniu. Uwzględnienie tego faktu umożliwia dodatkowe ograniczenie ilości reguł. Równie istotne jest dobranie odpowiednich warunków. W omawianym przypadku po ustawieniu minimalnej korelacji, wsparcie i pewność na 33% otrzymano 88 reguł, przy 50% liczba reguł zmalała już do 22, zaś przy 70% do 2. (4) (5) Rys. 1a. Przykładowe reguły asocjacji Fig. 1a. Example of association rules
5 Wyszukiwanie reguł asocjacji i ch zastosowanie w Internecie 13 Rys. 1b. Przykładowe reguły asocjacji Fig. 1b. Example of association rules Na rysunkach 1a i 1b przedstawiono przykładowe reguły asocjacji. Wielkość węzłów na wykresie jest proporcjonalna do względnej wartości wsparcie, grubość linii do względnego zaufania kolor zaś świadczy o względnej korelacji. 3. Wyszukiwania reguł asocjacji w ujęciu algorytmicznym Podstawowym i najbardziej rozpowszechnionych algorytmem służącym do realizacji analizy koszykowej jest model Apriori. Main L1 = {zbiory częste 1-elementowe}; for (k=2;lk-1 ;k++) do begin Ck = apriori_gen(lk-1); For each transakcji t T do begin Ct = subset(ck,t); For each zbioru kandydującego c Ct do c.count++; end; Lk = {c Ck c.count minsup} end; Wynik = klk; Rys. 2 Pseudokod algorytmu Apriori Fig. 2 Pseudocode of Apriori algorithm apriori_gen function apriori_gen(ck) insert into Ck select p.item1, p.item2,..., p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p.item1 = q.item1,..., p.itemk-2 = q.itemk-2, p.itemk-1 < q.itemk-1; for all itemsets c Ck do for all (k-1)-subsets s of c do if ( s Lk-1 ) then delete c from Ck; endfunction; Idea algorytmu bazuje na spostrzeżeniu, że jeżeli zbiór nie jest częsty to nie może tworzyć reguł spełniających warunki minimalne. Model ten wymaga uporządkowania wszystkich znajdujących się w bazie transakcji (np. w sposób leksykograficzny). W pierwszej kolejności wyodrębnione zostają wszystkie wyrazy częste. Z nich generowane są zbiory kandydujące dwuelementowe. Proces szukania kandydatów, zwany AprioriGen, zawiera
6 14 Bartosz Bachman, Paweł Karol Frankowski dwie główne operacje: łączenie i przycinanie. Zbiór kandydatów k-elementowych jest generowany przez łączenie zbioru Lk-1 z nim samym a następnie przycinany poprzez usuwanie zbędnych zbiorów. Dla każdego z zbiorów obliczane jest wsparcie, jeżeli jest ono większe od zadanego wsparcia minimalnego minsup to tworzy on regułę. Ponadto każdy z spełniających warunek zbiorów zostaje ponownie wykorzystany, jako zbiór częsty i współtworzy zbiór kandydujący trzyelementowy. W każdej kolejnej iteracji, w oparciu o zbiory częste (Lk) znalezione w poprzednim kroku, algorytm generuje zbiory kandydujące (Ck) o rozmiarze większym o 1. Wynikiem działania jest suma k-elementowych zbiorów częstych (k=1, 2,...). By zapewnić odpowiednią efektywności obliczania wsparcia zbiorów kandydujących, wykorzystuje się strukturę danych w postaci drzewa haszowego. Służy ona do przechowywania zbiorów kandydujących. Procedura subset() zwraca te zbiory kandydujące należące do Ck, które są wspierane przez transakcję t. Można zauważyć, że jeżli AB CD jest wiarygodną regułą, to reguły ABC D i ABD C też są wiarygodne. Największą niedogodność w algorytmie Apriori stanowi wielokrotne przeglądanie całej bazy danych (D) w celu wyznaczania wsparcia dla kandydatów. Algorytm przestaje być efektywny, przy bardzo dużych rozmiarach D. W literaturze zaproponowano już wiele sposobów rozwiązania tego problemu. W większości przypadków opierają się one na zawężaniu obszaru poszukiwań w każdej kolejnej iteracji, lub na zmniejszaniu liczby przeszukań bazy danych. Naturalnym rozwinięciem algorytmu Apriori jest AprioriTid, jego główną ideą jest wprowadzenie dodatkowej struktury danych, zwanej CountingBase. Ponieważ transakcje nie zawierające żadnego k-zbioru częstego, nie mogą zawierać żadnego (k+1) zbioru częstego nie są one przepisywane do struktury. Wykreślenie ich umożliwia zmniejszenie liczby obliczeń w następnej iteracji. Tab. 2. Przykladowa baza danych D 2 Tab. 2. Example of Database D 2 Tid węgiel podpałka kiełabasa keczup piwo wino Zupełnie inne podejście zaproponowano w algorytmie FP-Growth. Składa się on z dwóch zasadniczych etapów: utworzenia drzewa FP i jego eksploracji. Idea algorytmu została przedstawiona na podstawie przykładowej bazy danych (Tab.2). Założono minimalne wsparcie na poziomie 30% i minimalną pewność na poziomie 70%. W pierwszym kroku, (zwanym krokiem kompresji bazy danych) podobnie jak w przypadku Apriori baza D 2 jest przeszukiwana w celu znalezienia zbiorów częstych. W kroku drugim z każdej transakcji usuwane są te elementy, które nie są zbiorami czę-
7 Wyszukiwanie reguł asocjacji i ch zastosowanie w Internecie 15 stymi (zwykle znacząco ogranicza to liczbę analizowanych danych, stąd nazwa etapu). W trzecim kroku, w każdej transakcji Ti (gdzie i = 1, 2,..., n), elementy są sortowane według malejących wartości ich wsparcia. Posortowane transakcje T1, T2,...,Tn, w ostatnim kroku, są transformowane do postaci FP-Tree. Cały proces symbolicznie przedstawiono na rysunku 3. Rys. 3. Algorytm tworzenia Drzewa FP Fig. 3. Algorithm of creation FP-Tree Każda pojedyncza gałąź w drzewie FP, rozpoczyna się w korzeniu drzewa (oznaczonym etykietą null). Reprezentuje ona zbiór transakcji zawierających identyczne elementy. Licznik ostatniego wierzchołka α danej ścieżki prefiksowej (dowolnego odcinka gałęzi) informuje o liczbie transakcji wspierających zbiór elementów reprezentowanych przez wierzchołki grafu należące do tej ścieżki. Algorytm FP-Growth tworzy również dodatkową strukturę. Nazywa się ją Tablicą Nagłówkową. Wskazuje ona lokalizację każdego elementu w drzewie FP. Wszystkie ścieżki prefiksowe wzorca tworzą warunkową bazę wzorca, która służy do konstrukcji tak zwanego Warunkowego drzewa FP wzorca alpha, oznaczanego Tree_alpha. Warunkowe drzewo FP jest w dalszej części algorytmu rekursywnie eksplorowane w celu znalezienia wszystkich zbiorów częstych zawierających zbiór alpha. W przedstawionym przykładzie pierwsza transakcja tworzy ścieżkę prefiksową podpałka:1 węgiel:1. Transakcja druga ma wspólny prefiks podpałka z transakcją pierwszą, posiada również zbiory częste piwo kiełbasa, które tworzą nową ścieżkę prefiksową. W kroku drugim otrzymano gałąź: podpałka:2 piwo:1 Kielbasa:1. Transakcja o id.3 nie pokrywa się z dwiema pierwszymi w najczęstszym z zbiorów (podpałka), tworzy tym samym nie zupełnie nową gałąź. W analogiczny sposób można rozpisano transakcje o id. 4 i 5, w wyniku czego otrzymano drzewo FP o kształcie przedstawionym na rysunku 3. Następnym etapem jest eksploracja Drzewa FP, jej procedurę przedstawiono w postaci pseudokodu na rysunku.4.
8 16 Bartosz Bachman, Paweł Karol Frankowski procedure FP-Growth (Tree, α) if Tree zawiera pojedynczą ścieżkę P then for each kombinacji β wierzchołków ścieżki P do generuj zbiór β α o wsparciu równym minimalnemu wsparciu elementów należących do β end do else for each α-i należącego do tablicy nagłówków elementów Tree do generuj zbiór β = α-i α o wsparciu = wsparcie(α-i ); utwórz warunkową bazę wzorca β; utwórz warunkowe FP-drzewo wzorca β - Tree- β; if Tree- β then FP-Growth (Tree- β, β); end procedure; Rys. 4. Pseudokod procedury eksploracji DrzewaFP Fig. 4. Pseudocode of FP-Tree exploration algorithm Ekspolorację drzewa rozpoczyna się od ostatniego znalezionego zbioru częstego, od najmniejszego wsparcia. Ostatnim znalezionym zbiorem częstym była kiełbasa. Prowadzi do niej tylko jedna ścieżka prefiksowa podpałka:2 piwo:2 kielbasa:2. Licznik ścieżki przyjmuje wartość licznika transakcji wierzchołka kiełbasa i jest równy 2. Warunkowe drzewo FP kiełbasy zawiera, zatem tylko jedną ścieżkę, która tworzy wzorce: (podpałka piwo kielbasa):2, (podpałka piwo):2 i (podpałka):2. Wsparcie tych wzorców wynosi 2/5=40%. W analogiczny sposób rozpisać można pozostałe gałęzie drzewa. W rozpatrywanym przypadku drzewo warunkowe węgla posiada aż trzy ścieżki prefiksowe, zaś piwo tylko jedną. 4. Web mining Internet stanowi doskonałe miejsce do poznawania zwyczajów użytkowników i wyznaczania najróżniejszych reguł asocjacji. Wykorzystywania narzędzi Data Mining w sieci jest w znacznym stopniu uproszczone, ponieważ: gromadzone dane zawierają sporo informacji o internaucie, ilość zgromadzonych danych jest na tyle duża, że z łatwością można wylosować wiarygodną próbę testową, co może być bardzo pomocne przy testowaniu modeli, dzięki zautomatyzowanemu sposobowi gromadzenia danych otrzymuje się względnie rzetelne zbiory obserwacji, bardzo łatwo można zaobserwować i wykazać użyteczność modeli data mining oraz oszacować efektywność działań (np. obliczając wskaźnik ROI), otrzymywane dane są zestandaryzowane, więc łatwo je porównać z danymi analizowanymi jakiś czas temu, pozwala to na skuteczną analizę sekwencji.
9 Wyszukiwanie reguł asocjacji i ch zastosowanie w Internecie 17 web mining analiza zawartości sieci analiza wzorców zachowań użytkowników podejście oparte na agentach podejście oparte na bazach danych Rys. 5. Web mining [2] Fig. 5. Web mining [2] Najbardziej oczywistym zastosowań wyszukiwania reguł asocjacji w Web mining jest użycie ich w sklepach internetowych. Wiedząc, że klient kupuje produkt A można mu pokazać produkty B, C i D, które są zwykle kupowane wraz z A. Są to tak zwane reguły substytucji. Reguły dysocjacji, (jeżeli A i [nie B] to C) pozwalają dostosować wygląd strony do użytkownika by nie widział tego, czego nie chce oglądać. Reguły cykliczne pozwalają przypomnieć mu o tym, że zbliża się czas, w którym zwykle kupuje jakiś produkt. Lub wyświetlić reklamy, gdy zwykle jego aktywność w Internecie jest największa. Reguły sekwencji dostarczają informacji, co, kiedy i za ile internauta kupuje. Robiąc zakupy w Internecie dostarczamy administratorom sklepu wielu cennych informacji takich jak: kiedy mamy czas wolny, jakimi środkami finansowymi dysponujemy, w jaki sposób dokonujemy płatności, jak podatni na reklamę jesteśmy i wiele innych [1]. Analiza zachowań internautów pozwala przedsiębiorstwom oszacować wartość życiową klienta, maksymalizować przychody ze sprzedaży, oceniać skuteczność kampanii promocyjnych, optymalizować wygląd i funkcjonalność witryn, dostarczać internautom spersonalizowany przekaz, czy znaleźć najbardziej skuteczną logiczną strukturę witryny. Każdy nasz krok pomiędzy stronami, czas, który na stronie przebywamy, co, gdzie i kiedy piszemy pozostawia w Internecie ślady. Warto, zatem wiedzieć, że kiedy my się uczymy Internetu, Internet uczy może uczyć się nas. Podsumowując Web mining występuje w pięciu obszarach: personalizacja mająca zastosowanie głównie w handlu elektronicznym, usprawnienia systemu poprzez wykrywanie przeciążeń, intruzów, oszustów i sposobów włamań, modyfikacja witryny ma na celu wzrost jej atrakcyjności dla użytkowników, często wiąże się z handlem elektronicznym, analityka biznesowa dostarcza informacji w jakis sposób internaucie poruszają się po Siecie, dane te są następnie wykorzystywane marketingowo w trzech obszarach: pozyskiwania klientów, sprzedaży krzyżowej i analizie migracji klientów, charakterystyka użytkowników sposób w jaki użytkują Internet dostarcza wielu, użytecznych danych.
10 18 Bartosz Bachman, Paweł Karol Frankowski 5. Wnioski Algorytmy badające reguły asocjacji są bardzo użytecznym i uniwersalnym narzędziem pozwalającym odkryć wiele zaskakujących i niespodziewanych powiązań. Kluczem do wykrycia właściwych reguł jest odpowiednie przygotowanie danych. Literatura 1. Łapczyński M., Analiza koszykowa i analiza sekwencji wielki brat czuwa, Cooley R., Mobasher B., Srivastava J., WebMining: Information and Pattern Discovery on the World Wide Web, Proceedings of the 9th International Conference on Tools with Artificial Intelligence, IEEE Computer Society, 1997, s. 558 Streszczenie Celem artykułu jest przedstawienie metod wyszukiwania reguł asocjacji i opisywania, jakości otrzymanych powiązań. W opracowaniu przedstawiono na przykładach algorytmy najbardziej popularnych metod anlizy koszykowej: Apriori i FP-Growth. Zwrócono również uwagę na proces przygotowania danych do dalszej analizy. Ostatni rozdział został poświęcony zastosowaniu wyszukiwania reguł asocjacji w Internecie tzw. Web mining. Process of search for association rules and their uses in internet Summary The purpose of this paper is to present the process of search association rules and presentation main parameters of obtained links. Pseudocode of Apriori and FP-Growth algorithms are presented and analyzed for the example database. Processes of preparing data for search association rulaes are presented. Last chapter of this paper is dedicated for the topic of Web mining.
Algorytmy odkrywania binarnych reguł asocjacyjnych
Algorytmy odkrywania binarnych reguł asocjacyjnych A-priori FP-Growth Odkrywanie asocjacji wykład 2 Celem naszego wykładu jest zapoznanie się z dwoma podstawowymi algorytmami odkrywania binarnych reguł
Bardziej szczegółowoData Mining Wykład 3. Algorytmy odkrywania binarnych reguł asocjacyjnych. Plan wykładu
Data Mining Wykład 3 Algorytmy odkrywania binarnych reguł asocjacyjnych Plan wykładu Algorytm Apriori Funkcja apriori_gen(ck) Generacja zbiorów kandydujących Generacja reguł Efektywności działania Własności
Bardziej szczegółowoINDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych
Bardziej szczegółowoInżynieria biomedyczna
Inżynieria biomedyczna Projekt Przygotowanie i realizacja kierunku inżynieria biomedyczna studia międzywydziałowe współfinansowany ze środków Unii Europejskiej w ramach Europejskiego Funduszu Społecznego.
Bardziej szczegółowo1. Odkrywanie asocjacji
1. 2. Odkrywanie asocjacji...1 Algorytmy...1 1. A priori...1 2. Algorytm FP-Growth...2 3. Wykorzystanie narzędzi Oracle Data Miner i Rapid Miner do odkrywania reguł asocjacyjnych...2 3.1. Odkrywanie reguł
Bardziej szczegółowoMetody eksploracji danych. Reguły asocjacyjne
Metody eksploracji danych Reguły asocjacyjne Analiza podobieństw i koszyka sklepowego Analiza podobieństw jest badaniem atrybutów lub cech, które są powiązane ze sobą. Metody analizy podobieństw, znane
Bardziej szczegółowoEwelina Dziura Krzysztof Maryański
Ewelina Dziura Krzysztof Maryański 1. Wstęp - eksploracja danych 2. Proces Eksploracji danych 3. Reguły asocjacyjne budowa, zastosowanie, pozyskiwanie 4. Algorytm Apriori i jego modyfikacje 5. Przykład
Bardziej szczegółowoWprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2
Data Mining Wykład 2 Odkrywanie asocjacji Plan wykładu Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych Geneza problemu Geneza problemu odkrywania reguł
Bardziej szczegółowoOdkrywanie asocjacji
Odkrywanie asocjacji Cel odkrywania asocjacji Znalezienie interesujących zależności lub korelacji, tzw. asocjacji Analiza dużych zbiorów danych Wynik procesu: zbiór reguł asocjacyjnych Witold Andrzejewski,
Bardziej szczegółowoReguły asocjacyjne, wykł. 11
Reguły asocjacyjne, wykł. 11 Joanna Jędrzejowicz Instytut Informatyki Przykłady reguł Analiza koszyka sklepowego (ang. market basket analysis) - jakie towary kupowane są razem, Jakie towary sprzedają się
Bardziej szczegółowoOdkrywanie wzorców sekwencji
Odkrywanie wzorców sekwencji Sformułowanie problemu Algorytm GSP Eksploracja wzorców sekwencji wykład 1 Na wykładzie zapoznamy się z problemem odkrywania wzorców sekwencji. Rozpoczniemy od wprowadzenia
Bardziej szczegółowoSystemy Wspomagania Decyzji
Reguły Asocjacyjne Szkoła Główna Służby Pożarniczej Zakład Informatyki i Łączności March 18, 2014 1 Wprowadzenie 2 Definicja 3 Szukanie reguł asocjacyjnych 4 Przykłady użycia 5 Podsumowanie Problem Lista
Bardziej szczegółowoSAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006
SAS wybrane elementy DATA MINING Część III Seweryn Kowalski 2006 Algorytmy eksploracji danych Algorytm eksploracji danych jest dobrze zdefiniowaną procedurą, która na wejściu otrzymuje dane, a na wyjściu
Bardziej szczegółowoAnaliza i eksploracja danych
Krzysztof Dembczyński Instytut Informatyki Zakład Inteligentnych Systemów Wspomagania Decyzji Politechnika Poznańska Inteligentne Systemy Wspomagania Decyzji Studia magisterskie, semestr I Semestr letni
Bardziej szczegółowoMETODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. EKSPLORACJA DANYCH Ćwiczenia. Adrian Horzyk. Akademia Górniczo-Hutnicza
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING EKSPLORACJA DANYCH Ćwiczenia Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoAlgorytm DIC. Dynamic Itemset Counting. Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek
Algorytm DIC Dynamic Itemset Counting Magdalena Przygórzewska Karolina Stanisławska Aleksander Wieczorek Spis treści 1 2 3 4 Algorytm DIC jako rozszerzenie apriori DIC Algorytm znajdowania reguł asocjacyjnych
Bardziej szczegółowoOdkrywanie asocjacji
Odkrywanie asocjacji Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Odkrywanie asocjacji wykład 1 Wykład jest poświęcony wprowadzeniu i zaznajomieniu się z problemem odkrywania reguł asocjacyjnych.
Bardziej szczegółowoKrzysztof Kawa. empolis arvato. e mail: krzysztof.kawa@empolis.com
XI Konferencja PLOUG Kościelisko Październik 2005 Zastosowanie reguł asocjacyjnych, pakietu Oracle Data Mining for Java do analizy koszyka zakupów w aplikacjach e-commerce. Integracja ze środowiskiem Oracle
Bardziej szczegółowoData Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład
Data Mining Wykład 5 Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny Indeks Gini Popularnym kryterium podziału, stosowanym w wielu produktach komercyjnych, jest indeks Gini Algorytm SPRINT
Bardziej szczegółowodata mining machine learning data science
data mining machine learning data science deep learning, AI, statistics, IoT, operations research, applied mathematics KISIM, WIMiIP, AGH 1 Machine Learning / Data mining / Data science Uczenie maszynowe
Bardziej szczegółowoWysokość drzewa Głębokość węzła
Drzewa Drzewa Drzewo (ang. tree) zbiór węzłów powiązanych wskaźnikami, spójny i bez cykli. Drzewo posiada wyróżniony węzeł początkowy nazywany korzeniem (ang. root). Drzewo ukorzenione jest strukturą hierarchiczną.
Bardziej szczegółowoB jest globalnym pokryciem zbioru {d} wtedy i tylko wtedy, gdy {d} zależy od B i nie istnieje B T takie, że {d} zależy od B ;
Algorytm LEM1 Oznaczenia i definicje: U - uniwersum, tj. zbiór obiektów; A - zbiór atrybutów warunkowych; d - atrybut decyzyjny; IND(B) = {(x, y) U U : a B a(x) = a(y)} - relacja nierozróżnialności, tj.
Bardziej szczegółowoPrzykład eksploracji danych o naturze statystycznej Próba 1 wartości zmiennej losowej odległość
Dwie metody Klasyczna metoda histogramu jako narzędzie do postawienia hipotezy, jaki rozkład prawdopodobieństwa pasuje do danych Indukcja drzewa decyzyjnego jako metoda wykrycia klasyfikatora ukrytego
Bardziej szczegółowoSztuczna Inteligencja Projekt
Sztuczna Inteligencja Projekt Temat: Algorytm LEM2 Liczba osób realizujących projekt: 2 1. Zaimplementować algorytm LEM 2. 2. Zaimplementować klasyfikator Classif ier. 3. Za pomocą algorytmu LEM 2 wygenerować
Bardziej szczegółowoSortowanie topologiczne skierowanych grafów acyklicznych
Sortowanie topologiczne skierowanych grafów acyklicznych Metody boolowskie w informatyce Robert Sulkowski http://robert.brainusers.net 23 stycznia 2010 1 Definicja 1 (Cykl skierowany). Niech C = (V, A)
Bardziej szczegółowoWykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne
Wykład 4 Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym 2. Rozkłady próbkowe 3. Centralne twierdzenie graniczne Przybliżenie rozkładu dwumianowego rozkładem normalnym Niech Y ma rozkład
Bardziej szczegółowo2017/2018 WGGiOS AGH. LibreOffice Base
1. Baza danych LibreOffice Base Jest to zbiór danych zapisanych zgodnie z określonymi regułami. W węższym znaczeniu obejmuje dane cyfrowe gromadzone zgodnie z zasadami przyjętymi dla danego programu komputerowego,
Bardziej szczegółowoAlgorytmy i struktury danych. Co dziś? Tytułem przypomnienia metoda dziel i zwyciężaj. Wykład VIII Elementarne techniki algorytmiczne
Algorytmy i struktury danych Wykład VIII Elementarne techniki algorytmiczne Co dziś? Algorytmy zachłanne (greedyalgorithms) 2 Tytułem przypomnienia metoda dziel i zwyciężaj. Problem można podzielić na
Bardziej szczegółowooperacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.
Problem porządkowania zwanego również sortowaniem jest jednym z najważniejszych i najpopularniejszych zagadnień informatycznych. Dane: Liczba naturalna n i ciąg n liczb x 1, x 2,, x n. Wynik: Uporządkowanie
Bardziej szczegółowoWielopoziomowe i wielowymiarowe reguły asocjacyjne
Wielopoziomowe i wielowymiarowe reguły asocjacyjne Wielopoziomowe reguły asocjacyjne Wielowymiarowe reguły asocjacyjne Asocjacje vs korelacja Odkrywanie asocjacji wykład 3 Kontynuując zagadnienia związane
Bardziej szczegółowo5. OKREŚLANIE WARTOŚCI LOGICZNEJ ZDAŃ ZŁOŻONYCH
5. OKREŚLANIE WARTOŚCI LOGICZNEJ ZDAŃ ZŁOŻONYCH Temat, którym mamy się tu zająć, jest nudny i żmudny będziemy się uczyć techniki obliczania wartości logicznej zdań dowolnie złożonych. Po co? możecie zapytać.
Bardziej szczegółowoReguły asocjacyjne w programie RapidMiner Michał Bereta
Reguły asocjacyjne w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Reguły asocjacyjne mają na celu odkrycie związków współwystępowania pomiędzy atrybutami. Stosuje się je często do danych
Bardziej szczegółowoAlgorytmy i struktury danych. Drzewa: BST, kopce. Letnie Warsztaty Matematyczno-Informatyczne
Algorytmy i struktury danych Drzewa: BST, kopce Letnie Warsztaty Matematyczno-Informatyczne Drzewa: BST, kopce Definicja drzewa Drzewo (ang. tree) to nieskierowany, acykliczny, spójny graf. Drzewo może
Bardziej szczegółowoWeryfikacja hipotez statystycznych
Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta
Bardziej szczegółowoĆwiczenie 5. Metody eksploracji danych
Ćwiczenie 5. Metody eksploracji danych Reguły asocjacyjne (association rules) Badaniem atrybutów lub cech, które są powiązane ze sobą, zajmuje się analiza podobieństw (ang. affinity analysis). Metody analizy
Bardziej szczegółowoKonkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące
Bardziej szczegółowoAlgorytmy Równoległe i Rozproszone Część V - Model PRAM II
Algorytmy Równoległe i Rozproszone Część V - Model PRAM II Łukasz Kuszner pokój 209, WETI http://www.sphere.pl/ kuszner/ kuszner@sphere.pl Oficjalna strona wykładu http://www.sphere.pl/ kuszner/arir/ 2005/06
Bardziej szczegółowoGrzegorz Harańczyk, StatSoft Polska Sp. z o.o.
CO Z CZYM I PO CZYM, CZYLI ANALIZA ASOCJACJI I SEKWENCJI W PROGRAMIE STATISTICA Grzegorz Harańczyk, StatSoft Polska Sp. z o.o. Jednym z zagadnień analizy danych jest wyszukiwanie w zbiorach danych wzorców,
Bardziej szczegółowoOdkrywanie asocjacji. Cel. Geneza problemu analiza koszyka zakupów
Odkrywanie asocjacji Cel Celem procesu odkrywania asocjacji jest znalezienie interesujących zależności lub korelacji (nazywanych ogólnie asocjacjami) pomiędzy danymi w dużych zbiorach danych. Wynikiem
Bardziej szczegółowoIndeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na
Techniki indeksowania w eksploracji danych Maciej Zakrzewicz Instytut Informatyki Politechnika Poznańska Plan prezentacji Zastosowania indeksów w systemach baz danych Wprowadzenie do metod eksploracji
Bardziej szczegółowo5.5. Wybieranie informacji z bazy
5.5. Wybieranie informacji z bazy Baza danych to ogromny zbiór informacji, szczególnie jeśli jest odpowiedzialna za przechowywanie danych ogromnych firm lub korporacji. Posiadając tysiące rekordów trudno
Bardziej szczegółowoPodstawy programowania 2. Temat: Drzewa binarne. Przygotował: mgr inż. Tomasz Michno
Instrukcja laboratoryjna 5 Podstawy programowania 2 Temat: Drzewa binarne Przygotował: mgr inż. Tomasz Michno 1 Wstęp teoretyczny Drzewa są jedną z częściej wykorzystywanych struktur danych. Reprezentują
Bardziej szczegółowoPodstawy Informatyki. Metody dostępu do danych
Podstawy Informatyki c.d. alina.momot@polsl.pl http://zti.polsl.pl/amomot/pi Plan wykładu 1 Bazy danych Struktury danych Średni czas odszukania rekordu Drzewa binarne w pamięci dyskowej 2 Sformułowanie
Bardziej szczegółowoModelowanie hierarchicznych struktur w relacyjnych bazach danych
Modelowanie hierarchicznych struktur w relacyjnych bazach danych Wiktor Warmus (wiktorwarmus@gmail.com) Kamil Witecki (kamil@witecki.net.pl) 5 maja 2010 Motywacje Teoria relacyjnych baz danych Do czego
Bardziej szczegółowoWeryfikacja hipotez statystycznych, parametryczne testy istotności w populacji
Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki
Bardziej szczegółowoSpacery losowe generowanie realizacji procesu losowego
Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z
Bardziej szczegółowoMetody Programowania
POLITECHNIKA KRAKOWSKA - WIEiK KATEDRA AUTOMATYKI i TECHNIK INFORMACYJNYCH Metody Programowania www.pk.edu.pl/~zk/mp_hp.html Wykładowca: dr inż. Zbigniew Kokosiński zk@pk.edu.pl Wykład 8: Wyszukiwanie
Bardziej szczegółowoBlaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik
Blaski i cienie wyzwalaczy w relacyjnych bazach danych. Mgr inż. Andrzej Ptasznik Technologia Przykłady praktycznych zastosowań wyzwalaczy będą omawiane na bazie systemu MS SQL Server 2005 Wprowadzenie
Bardziej szczegółowoWnioskowanie bayesowskie
Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,
Bardziej szczegółowoTechnologie Internetowe Raport z wykonanego projektu Temat: Internetowy sklep elektroniczny
Technologie Internetowe Raport z wykonanego projektu Temat: Internetowy sklep elektroniczny AiRIII gr. 2TI sekcja 1 Autorzy: Tomasz Bizon Józef Wawrzyczek 2 1. Wstęp Celem projektu było stworzenie sklepu
Bardziej szczegółowoTemat: Algorytm kompresji plików metodą Huffmana
Temat: Algorytm kompresji plików metodą Huffmana. Wymagania dotyczące kompresji danych Przez M oznaczmy zbiór wszystkich możliwych symboli występujących w pliku (alfabet pliku). Przykład M = 2, gdy plik
Bardziej szczegółowoZapytania do bazy danych
Zapytania do bazy danych Tworzenie zapytań do bazy danych MS Access może być realizowane na dwa sposoby. Standard SQL (Stucture Query Language) lub QBE (Query by Example). Warto wiedzieć, że drugi ze sposobów
Bardziej szczegółowo15. Funkcje i procedury składowane PL/SQL
15. Funkcje i procedury składowane PLSQL 15.1. SQL i PLSQL (Structured Query Language - SQL) Język zapytań strukturalnych SQL jest zbiorem poleceń, za pomocą których programy i uŝytkownicy uzyskują dostęp
Bardziej szczegółowoPorządek symetryczny: right(x)
Porządek symetryczny: x lef t(x) right(x) Własność drzewa BST: W drzewach BST mamy porządek symetryczny. Dla każdego węzła x spełniony jest warunek: jeżeli węzeł y leży w lewym poddrzewie x, to key(y)
Bardziej szczegółowoZastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Analiza asocjacji i sekwencji Analiza asocjacji Analiza asocjacji polega na identyfikacji
Bardziej szczegółowoIndukowane Reguły Decyzyjne I. Wykład 3
Indukowane Reguły Decyzyjne I Wykład 3 IRD Wykład 3 Plan Powtórka Grafy Drzewa klasyfikacyjne Testy wstęp Klasyfikacja obiektów z wykorzystaniem drzewa Reguły decyzyjne generowane przez drzewo 2 Powtórzenie
Bardziej szczegółowoSłowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0
Słowem wstępu Część rodziny języków XSL Standard: W3C XSLT 1.0-1999 razem XPath 1.0 XSLT 2.0-2007 Trwają prace nad XSLT 3.0 Problem Zakładane przez XML usunięcie danych dotyczących prezentacji pociąga
Bardziej szczegółowoBadania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle
Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,
Bardziej szczegółowoEGZAMIN MATURALNY OD ROKU SZKOLNEGO
EGZAMIN MATURALNY OD ROKU SZKOLNEGO 2014/2015 INFORMATYKA POZIOM ROZSZERZONY ROZWIĄZANIA ZADAŃŃ I SCHEMATY PUNKTOWANIA (A1, A2, A3, A4, A6, A7) GRUDZIEŃ 2013 Zadanie 1. Test (0 5) Wymagania ogólne I. [
Bardziej szczegółowoWybrane wymagania dla informatyki w gimnazjum i liceum z podstawy programowej
Wybrane wymagania dla informatyki w gimnazjum i liceum z podstawy programowej Spis treści Autor: Marcin Orchel Algorytmika...2 Algorytmika w gimnazjum...2 Algorytmika w liceum...2 Język programowania w
Bardziej szczegółowoStruktura drzewa w MySQL. Michał Tyszczenko
Struktura drzewa w MySQL Michał Tyszczenko W informatyce drzewa są strukturami danych reprezentującymi drzewa matematyczne. W naturalny sposób reprezentują hierarchię danych toteż głównie do tego celu
Bardziej szczegółowoMatematyka dyskretna. Andrzej Łachwa, UJ, /10
Matematyka dyskretna Andrzej Łachwa, UJ, 2018 andrzej.lachwa@uj.edu.pl 10/10 Podziały i liczby Stirlinga Liczba Stirlinga dla cykli (często nazywana liczbą Stirlinga pierwszego rodzaju) to liczba permutacji
Bardziej szczegółowoStrategie ewolucyjne (ang. evolu4on strategies)
Strategie ewolucyjne (ang. evolu4on strategies) Strategia ewolucyjna (1+1) W Strategii Ewolucyjnej(1 + 1), populacja złożona z jednego osobnika generuje jednego potomka. Kolejne (jednoelementowe) populacje
Bardziej szczegółowoprowadzący dr ADRIAN HORZYK /~horzyk e-mail: horzyk@agh tel.: 012-617 Konsultacje paw. D-13/325
PODSTAWY INFORMATYKI WYKŁAD 8. prowadzący dr ADRIAN HORZYK http://home home.agh.edu.pl/~ /~horzyk e-mail: horzyk@agh agh.edu.pl tel.: 012-617 617-4319 Konsultacje paw. D-13/325 DRZEWA Drzewa to rodzaj
Bardziej szczegółowoAlgorytmy i struktury danych. Wykład 6 Tablice rozproszone cz. 2
Algorytmy i struktury danych Wykład 6 Tablice rozproszone cz. 2 Na poprzednim wykładzie Wiele problemów wymaga dynamicznych zbiorów danych, na których można wykonywać operacje: wstawiania (Insert) szukania
Bardziej szczegółowoSystemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
Bardziej szczegółowoEksploracja danych - wykład VIII
I Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 2 grudnia 2016 1/31 1 2 2/31 (ang. affinity analysis) polega na badaniu atrybutów lub cech, które są ze sobą powiązane. Metody
Bardziej szczegółowoAlgorytmy i Struktury Danych, 9. ćwiczenia
Algorytmy i Struktury Danych, 9. ćwiczenia 206-2-09 Plan zajęć usuwanie z B-drzew join i split na 2-3-4 drzewach drzepce adresowanie otwarte w haszowaniu z analizą 2 B-drzewa definicja każdy węzeł ma następujące
Bardziej szczegółowoweb mining bazach danych
WEB USAGE MINING, CZYLI JAK SPRZEDAĆ SUKIENKĘ CIĄŻOWĄ W INTERNECIE Mariusz Łapczyński, Uniwersytet Ekonomiczny w Krakowie, Katedra Analizy Rynku i Badań Marketingowych Wprowadzenie do web mining Duża popularność
Bardziej szczegółowo6. Zagadnienie parkowania ciężarówki.
6. Zagadnienie parkowania ciężarówki. Sterowniki rozmyte Aby móc sterować przebiegiem pewnych procesów lub też pracą urządzeń niezbędne jest stworzenie odpowiedniego modelu, na podstawie którego można
Bardziej szczegółowoQUERY język zapytań do tworzenia raportów w AS/400
QUERY język zapytań do tworzenia raportów w AS/400 Dariusz Bober Katedra Informatyki Politechniki Lubelskiej Streszczenie: W artykule przedstawiony został język QUERY, standardowe narzędzie pracy administratora
Bardziej szczegółowoScenariusz lekcji opartej na programie Program nauczania informatyki w gimnazjum DKW-4014-87/99
Scenariusz lekcji opartej na programie Program nauczania informatyki w gimnazjum DKW-4014-87/99 Techniki algorytmiczne realizowane przy pomocy grafiki żółwia w programie ELI 2,0. Przedmiot: Informatyka
Bardziej szczegółowoAlgorytmy optymalizacji zapytań eksploracyjnych z wykorzystaniem materializowanej perspektywy eksploracyjnej
Algorytmy optymalizacji zapytań eksploracyjnych z wykorzystaniem materializowanej perspektywy eksploracyjnej Jerzy Brzeziński, Mikołaj Morzy, Tadeusz Morzy, Łukasz Rutkowski RB-006/02 1. Wstęp 1.1. Rozwój
Bardziej szczegółowoAlgorytmy mrówkowe. P. Oleksyk. Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Inteligentne systemy informatyczne
y mrówkowe P. Oleksyk Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Inteligentne systemy informatyczne 14 kwietnia 2015 1 Geneza algorytmu - biologia 2 3 4 5 6 7 8 Geneza
Bardziej szczegółowoSYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.
SYSTEMY UCZĄCE SIĘ WYKŁAD 3. DRZEWA DECYZYJNE Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska BUDOWA DRZEW DECYZYJNYCH Drzewa decyzyjne są metodą indukcyjnego
Bardziej szczegółowoINFORMATYKA POZIOM ROZSZERZONY
EGZAMIN MATURALNY W ROKU SZKOLNYM 2016/2017 FORMUŁA OD 2015 ( NOWA MATURA ) INFORMATYKA POZIOM ROZSZERZONY ZASADY OCENIANIA ROZWIĄZAŃ ZADAŃ ARKUSZ MIN-R1, R2 MAJ 2017 Uwaga: Akceptowane są wszystkie odpowiedzi
Bardziej szczegółowoKlasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)
Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania
Bardziej szczegółowoData Mining podstawy analizy danych Część druga
Data Mining podstawy analizy danych Część druga W części pierwszej dokonaliśmy procesu analizy danych treningowych w oparciu o algorytm drzewa decyzyjnego. Proces analizy danych treningowych może być realizowany
Bardziej szczegółowoProgramowanie i struktury danych
Programowanie i struktury danych 1 / 30 STL Standard Template Library, STL (ang. = Standardowa Biblioteka Wzorców) biblioteka C++ zawierająca szablony (wzorce), które umożliwiają wielokrotne użycie. Główne
Bardziej szczegółowoInformacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów
Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie
Bardziej szczegółowoPrzestrzenne bazy danych Podstawy języka SQL
Przestrzenne bazy danych Podstawy języka SQL Stanisława Porzycka-Strzelczyk porzycka@agh.edu.pl home.agh.edu.pl/~porzycka Konsultacje: wtorek godzina 16-17, p. 350 A (budynek A0) 1 SQL Język SQL (ang.structured
Bardziej szczegółowoPochodna i różniczka funkcji oraz jej zastosowanie do obliczania niepewności pomiarowych
Pochodna i różniczka unkcji oraz jej zastosowanie do obliczania niepewności pomiarowych Krzyszto Rębilas DEFINICJA POCHODNEJ Pochodna unkcji () w punkcie określona jest jako granica: lim 0 Oznaczamy ją
Bardziej szczegółowoJak przekształcać zmienne jakościowe?
Data Preparation Jak przekształcać zmienne jakościowe? Marta Płonka Predictive Solutions W ostatnim artykule zobaczyliśmy, jak sprawdzić, czy między wybranymi przez nas predyktorami a zmienną przewidywaną
Bardziej szczegółowoListy, kolejki, stosy
Listy, kolejki, stosy abc Lista O Struktura danych składa się z węzłów, gdzie mamy informacje (dane) i wskaźniki do następnych węzłów. Zajmuje tyle miejsca w pamięci ile mamy węzłów O Gdzie można wykorzystać:
Bardziej szczegółowoPrzeszukiwanie z nawrotami. Wykład 8. Przeszukiwanie z nawrotami. J. Cichoń, P. Kobylański Wstęp do Informatyki i Programowania 238 / 279
Wykład 8 J. Cichoń, P. Kobylański Wstęp do Informatyki i Programowania 238 / 279 sformułowanie problemu przegląd drzewa poszukiwań przykłady problemów wybrane narzędzia programistyczne J. Cichoń, P. Kobylański
Bardziej szczegółowoData Mining Kopalnie Wiedzy
Data Mining Kopalnie Wiedzy Janusz z Będzina Instytut Informatyki i Nauki o Materiałach Sosnowiec, 30 listopada 2006 Kopalnie złota XIX Wiek. Odkrycie pokładów złota spowodowało napływ poszukiwaczy. Przeczesywali
Bardziej szczegółowoznalezienia elementu w zbiorze, gdy w nim jest; dołączenia nowego elementu w odpowiednie miejsce, aby zbiór pozostał nadal uporządkowany.
Przedstawiamy algorytmy porządkowania dowolnej liczby elementów, którymi mogą być liczby, jak również elementy o bardziej złożonej postaci (takie jak słowa i daty). Porządkowanie, nazywane również często
Bardziej szczegółowoSCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO
SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO. Rzeczywistość (istniejąca lub projektowana).. Model fizyczny. 3. Model matematyczny (optymalizacyjny): a. Zmienne projektowania
Bardziej szczegółowoSprawozdanie z laboratorium: Hurtownie Danych. Algorytm generowania reguł asocjacyjnych. FP-Growth. 9 czerwca 2011
Sprawozdanie z laboratorium: Hurtownie Danych Algorytm generowania reguł asocjacyjnych 9 czerwca 2011 Prowadzący: dr inż. Izabela Szczęch dr inż. Szymon Wilk Autorzy: Łukasz Idkowiak Tomasz Kamiński Jacek
Bardziej szczegółowoAkademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki
Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki Przetwarzanie Sygnałów Studia Podyplomowe, Automatyka i Robotyka. Wstęp teoretyczny Zmienne losowe Zmienne losowe
Bardziej szczegółowoZadania do wykonania. Rozwiązując poniższe zadania użyj pętlę for.
Zadania do wykonania Rozwiązując poniższe zadania użyj pętlę for. 1. apisz program, który przesuwa w prawo o dwie pozycje zawartość tablicy 10-cio elementowej liczb całkowitych tzn. element t[i] dla i=2,..,9
Bardziej szczegółowo1: 2: 3: 4: 5: 6: 7: 8: 9: 10:
Grupa A (LATARNIE) Imię i nazwisko: Numer albumu: 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: Nazwisko prowadzącego: 11: 12: Suma: Ocena: Zad. 1 (10 pkt) Dana jest relacja T. Podaj wynik poniższego zapytania (podaj
Bardziej szczegółowoWykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA
Wykład 4: Wnioskowanie statystyczne Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Idea wnioskowania statystycznego Celem analizy statystycznej nie jest zwykle tylko
Bardziej szczegółowoREGU LY ASOCJACYJNE. Nguyen Hung Son. Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski. 28.II i 6.III, 2008
REGU LY ASOCJACYJNE Nguyen Hung Son Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski 28.II i 6.III, 2008 Nguyen Hung Son (MIMUW) W2 28.II i 6.III, 2008 1 / 38 Outline 1 Dane transakcyjne
Bardziej szczegółowoREGU LY ASOCJACYJNE. Nguyen Hung Son. 25 lutego i 04 marca Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski.
REGU LY ASOCJACYJNE Wydzia l Matematyki, Informatyki i Mechaniki Uniwersytet Warszawski 25 lutego i 04 marca 2005 Outline 1 2 3 regu l asocjacyjnych 4 5 Motywacje Lista autorów (items) A Jane Austen C
Bardziej szczegółowo9.9 Algorytmy przeglądu
14 9. PODSTAWOWE PROBLEMY JEDNOMASZYNOWE 9.9 Algorytmy przeglądu Metody przeglądu dla problemu 1 r j,q j C max były analizowane między innymi w pracach 25, 51, 129, 238. Jak dotychczas najbardziej elegancka
Bardziej szczegółowoData mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych
Temat: Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych Autorzy: Tomasz Małyszko, Edyta Łukasik 1. Definicja eksploracji danych Eksploracja
Bardziej szczegółowoAiSD zadanie trzecie
AiSD zadanie trzecie Gliwiński Jarosław Marek Kruczyński Konrad Marek Grupa dziekańska I5 5 czerwca 2008 1 Wstęp Celem postawionym przez zadanie trzecie było tzw. sortowanie topologiczne. Jest to typ sortowania
Bardziej szczegółowoWyszukiwanie binarne
Wyszukiwanie binarne Wyszukiwanie binarne to technika pozwalająca na przeszukanie jakiegoś posortowanego zbioru danych w czasie logarytmicznie zależnym od jego wielkości (co to dokładnie znaczy dowiecie
Bardziej szczegółowo7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej
7. Estymacja parametrów w modelu normalnym(14.04.2008) Pojęcie losowej próby prostej Definicja 1 n-elementowa losowa próba prosta nazywamy ciag n niezależnych zmiennych losowych o jednakowych rozkładach
Bardziej szczegółowo