Grzegorz Harańczyk, StatSoft Polska Sp. z o.o.



Podobne dokumenty
PRZEWIDYWANIE AWARII I PROBLEMÓW Z JAKOŚCIĄ

PRZYKŁAD BADANIA WZORCÓW ZACHOWAŃ KLIENTÓW ZA POMOCĄ ANALIZY KOSZYKOWEJ

Ewelina Dziura Krzysztof Maryański

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Wprowadzenie Sformułowanie problemu Typy reguł asocjacyjnych Proces odkrywania reguł asocjacyjnych. Data Mining Wykład 2

WellCommerce Poradnik: Promocja

Rysunek 8. Rysunek 9.

PODSTAWOWE ANALIZY I WIZUALIZACJA Z WYKORZYSTANIEM MAP W STATISTICA

Niestandardowa tabela częstości

Edytor materiału nauczania

WellCommerce Poradnik: Sprzedaż

E-book: Automatyzacja powiadomień SMS. CASE STUDY

data mining machine learning data science

1. Instalacja Programu

Listopad Manual. Moduł Akcji Marketingowych

PROGNOZOWANIE Z WYKORZYSTANIEM METOD DATA MINING

Sposób tworzenia tabeli przestawnej pokażę na przykładzie listy krajów z podstawowymi informacjami o nich.

etrader Pekao Podręcznik użytkownika Strumieniowanie Excel

DIF Freedom WEB (CFD) Komputer, Tablet oraz Telefon Szybki Start

PRZEWODNIK PO ETRADER ROZDZIAŁ XII. ALERTY SPIS TREŚCI

SYSTEMY OPERACYJNE I SIECI KOMPUTEROWE

Sprzedawaj jeszcze więcej dzięki usłudze Ads!

Kancelaria zmiany w programie czerwiec 2011

Jak się zalogować do Pocztowy24 Biznes

Identyfikacja znamion ukrytego plagiatu. Z wykorzystaniem IDEA Caseware

Projektowanie przy uz yciu motywo w częś c 1: informacje podśtawowe

Metody eksploracji danych. Reguły asocjacyjne

LINIOWOŚĆ METODY OZNACZANIA ZAWARTOŚCI SUBSTANCJI NA PRZYKŁADZIE CHROMATOGRAFU

Memeo Instant Backup Podręcznik Szybkiego Startu

Naszym zadaniem jest rozpatrzenie związków między wierszami macierzy reprezentującej poziomy ekspresji poszczególnych genów.

Jak korzystać z przeglądarki danych ESS SoftReport

Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.

Jak utworzyć plik SIO dla aktualnego spisu?

Wykład 3: Prezentacja danych statystycznych

Przewodnik po Notowaniach Statica mdm 4

Instrukcja obsługi Systemu monitorowania pomocy publicznej DEMINIMIS (v. 2.00)

Dopasowywanie modelu do danych

Aby przejść do edycji w tym module należy wybrać zakładkę "Dla Pracowników" -> "Sprawdziany".

Obsługa Panelu Menadżera

ONE WORLD BROKER WEB (FOREX) Komputer, Tablet oraz Telefon Szybki Start

WellCommerce Poradnik: Raporty

EBSCOhost Wyszukiwanie podstawowe dla Bibliotek akademickich

Podstawowe informacje potrzebne do szybkiego uruchomienia e-sklepu

Funkcje systemu infokadra

UNIWERSYTET RZESZOWSKI KATEDRA INFORMATYKI

Wstęp 7 Rozdział 1. OpenOffice.ux.pl Writer środowisko pracy 9

Podstawy technologii WWW

Arkusz kalkulacyjny MS EXCEL ĆWICZENIA 4

Instrukcja szyfrowania poczty do ESKOM. na przykładzie wykorzystania narzędzia MS Outlook

Wykład 2: Grupowanie danych (szeregi statystyczne) + porady dotyczące analizy danych w programie STATISTICA

Wszystko o sitelinkach w Google AdWords No prawie wszystko ;)

INSTRUKCJA OBSŁUGI SKLEPU INTERNETOWEGO. Alu System Plus Sp.J. ul.leśna 2d Chrzanów, tel.(+48-32)

Założenia: aplikacja internetowa EDU PLUS tworzenie ofert wirtualnych na bazie polis grupowych wystawionych z iportalu

Instrukcja użytkownika ARSoft-WZ3

Podstawy pracy w systemie Doradca.

Do korzystania ze strony elektronicznej rekrutacji zalecamy następujące wersje przeglądarek internetowych:

5.5. Wybieranie informacji z bazy

TEMAT : TWORZENIE BAZY DANYCH PRZY POMOCY PROGRAMU EXCEL

AiSD zadanie trzecie

Spis treści Szybki start... 4 Podstawowe informacje opis okien... 6 Tworzenie, zapisywanie oraz otwieranie pliku... 23

TP1 - TABELE PRZESTAWNE od A do Z

Rozwiązanie. Uruchom program Access 2007.

WellCommerce Poradnik: Katalog

OPROGRAMOWANIE WSPOMAGAJĄCE ZARZĄDZANIE PROJEKTAMI. PLANOWANIE ZADAŃ I HARMONOGRAMÓW. WYKRESY GANTTA

Tworzenie prezentacji w MS PowerPoint

SYSTEM ZARZĄDZANIA RELACJAMI Z KLIENTEM CRM7

Instrukcja importu dokumentów z programu Fakt do programu Płatnik

Kancelaria 2.26 zmiany w programie czerwiec 2014

Dokumentacja Użytkownika Systemu

WPROWADZANIE ZLECEŃ POPRZEZ STRONĘ INSTRUKCJA UŻYTKOWNIKA

Program dla praktyki lekarskiej. Instrukcja wdrożenia dla POZ i AOS

Instrukcja do programu DoUPS 1.0

Opis zmian w programie Ekspert szkolny w wersji 1.55 z dnia r.

Instrukcja obsługi aplikacji PQ-CONTROL

Analiza współzależności. Z wykorzystaniem IDEA Caseware

Nabór Bursy/CKU. Do korzystania ze strony elektronicznej rekrutacji zalecamy następujące wersje przeglądarek internetowych:

Integracja oprogramowania GASTRO z systemem Blue Pocket

Część 3 - Konfiguracja

Tworzenie szablonów użytkownika

Współpraca Kliniki XP z Laboratorium Idexx

Jak zaimportować bazę do system SARE

WPROWADZENIE WYSZUKIWANIE OGŁOSZEŃ

Tworzenie tabeli przestawnej krok po kroku

Przewodnik Szybki start

Mobilny CRM BY CTI 1

Wprowadzenie do analizy dyskryminacyjnej

Monitornig zawodów deficytowych i nadwyżkowych Przewodnik po aplikacji

JPK Jednolity Plik Kontrolny

Te i wiele innych cech sprawia, że program mimo swej prostoty jest bardzo funkcjonalny i spełnia oczekiwania większości klientów.

Instrukcja użytkownika systemu medycznego

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

emszmal 3: Automatyczne księgowanie przelewów w sklepie internetowym PrestaShop (plugin dostępny w wersji ecommerce)

emszmal 3: Automatyczne księgowanie przelewów w menadżerze sprzedaży BaseLinker (plugin dostępny w wersji ecommerce)

Miejskie Wodociągi i Oczyszczalnia sp. z o.o. w Grudziądzu. ibok. Internetowe Biuro Obsługi Klienta. Instrukcja obsługi

Data Mining podstawy analizy danych Część druga

5.4. Tworzymy formularze

Przewodnik korzystania z Biblioteki kursów na platformach e-learningowych RON

- 1 Laboratorium fotografii cyfrowej Foto Video Hennig

Transkrypt:

CO Z CZYM I PO CZYM, CZYLI ANALIZA ASOCJACJI I SEKWENCJI W PROGRAMIE STATISTICA Grzegorz Harańczyk, StatSoft Polska Sp. z o.o. Jednym z zagadnień analizy danych jest wyszukiwanie w zbiorach danych wzorców, charakteryzujących się współwystępowaniem badanych elementów. Dobrym przykładem ilustrującym potencjalne zastosowanie tych metod jest badanie współwystępowania produktów w koszykach zakupów (stąd często analiza asocjacji określana jest również jako analiza koszykowa). Reguły te mogą dotyczyć np. zwyczajów zakupowych klientów lub prawidłowości w korzystaniu z usług wybranego typu. Rozwinięciem analizy koszykowej jest analiza sekwencji, która pozwala na uwzględnienie powiązań zdarzeń w czasie (tj. poszukiwanie wzorców w sekwencji koszyków). Omawiane techniki zostaną zilustrowane przykładami w programie STATISTICA. Wprowadzenie Analiza asocjacji (association rules) służy do znajdowania w dużym zbiorze danych ukrytych zależności w postaci prostych reguł. Analiza ta polega na badaniu współwystępowania wartości (wariantów) różnych zmiennych. Wyniki analizy tego typu mają postać reguł (tzw. reguł asocjacyjnych), czyli prostych zdań warunkowych postaci: jeżeli A, to B. Pierwotnym zastosowaniem analizy koszykowej była analiza danych transakcyjnych pochodzących z supermarketów. Przedmiotem zainteresowania były współzależności pomiędzy kupowanymi produktami. Rozważano koszyki produktów i badano, jak często dane dwa produkty występują razem. Celem było znalezienie odpowiedzi na pytania: Jakie produkty kupowane są najczęściej razem? Które produkty wykluczają się, a które wspierają nawzajem swoją sprzedaż? Jakie jest prawdopodobieństwo, że klienci, którzy kupili produkt A, kupią również produkt B? Taka wiedza daje duże możliwości, na przykład może pozwolić tak zmodyfikować oferty wysyłane klientom lub rozmieścić produkty w sklepie, aby uzyskać największe wyniki sprzedaży lub zaplanować promocje, nie zmniejszając potencjalnego zysku. Copyright StatSoft Polska 2012 www.statsoft.pl/czytelnia.html 55

Analiza koszykowa ma oczywiście szersze zastosowanie niż badanie koszyków klientów supermarketów. Mianowicie, gdy przestajemy ograniczać się do postrzegania produktów w sensie fizycznym - charakterystycznego dla sklepów, okazuje się, że nie ma ograniczeń co do przedmiotu analizy koszykowej. W szczególności możemy rozszerzyć obszar zainteresowań badawczych o usługi. Przykładem może być: analiza usług pod kątem zastosowania metod zwiększania sprzedaży (up-selling) i sprzedaży krzyżowej (cross-selling), optymalizacja pakietów usług i opłat lub taryf w sektorze finansowym, telekomunikacyjnym i innych, planowanie kampanii promocyjnych na podstawie uzyskanych wyników, weryfikacja efektywności i skuteczności kampanii marketingowych poprzez porównanie wyników analiz z kilku okresów. Reguły asocjacyjne i miary ich jakości Tak jak wspomniano, wynikiem analizy asocjacji są reguły postaci: jeżeli A, to B, oznaczające, że jeżeli wystąpił wariant A, to również wystąpił wariant B. Dysponując jednak zbiorem danych z licznościami występowania wariantów A oraz B, bardzo łatwo jest sprawdzić, czy oba elementy często występowały razem czy też raczej osobno. Aby znaleźć odpowiedź na to pytanie, wystarczy wykonać tabelę dwudzielczą. Rys. 1. Tabele dwudzielcze. Po co więc w takim razie specjalne narzędzia do analizy asocjacji? Otóż problemem nie jest przyjrzenie się związkowi między wybranymi kategoriami (produktami), ale często wskazanie produktów, którym należy się przyjrzeć. Wraz ze wzrostem liczby badanych kategorii rośnie bardzo szybko liczba możliwych (potencjalnie ciekawych) reguł, a co za tym idzie, rośnie liczba tabel dwudzielczych, które należałoby przejrzeć. Już dla 100 kategorii (produktów) liczba tabel dwudzielczych dochodzi do 5 tys. Warto zwrócić uwagę również na fakt, że reguły mogą być bardziej skomplikowane, tj. ogólnie regułę możemy zapisać jako: [warunki poprzednika] => [warunki następnika], 56 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2012

gdzie poprzednik i następnik mogą być dowolnie rozbudowane, tj. na przykład składać się z koniunkcji wielu warunków. Na przykład jeżeli kupiono podpałkę pod grilla oraz filet z łososia, to kupiono folię aluminową. W związku z tym zależałoby nam na narzędziu przeglądającym wszystkie możliwe reguły przy zadanym stopniu złożoności (najczęściej definiowanym jako liczba elementów poprzednika i następnika) i wyszukującym tylko te najciekawsze. Musimy w tym miejscu oczywiście zdefiniować, co to oznacza, że dana reguła jest dla nas interesująca. Miary jakości reguł Określając jakość reguły najczęściej definiuje się kilka standardowych miar: wsparcie (support), zaufanie (confidence) oraz przyrost (lift). Wielkości te wyliczane są na podstawie danych historycznych (próby uczącej) i opisują różne aspekty występowania badanych reguł w przeszłości: Wsparcie reguły odsetek transakcji w danych historycznych, które zawierają wybraną regułę (tzn. jednocześnie spełnione są warunki poprzednika i następnika reguły). Wsparcie reguły przyjmuje wartości z przedziału [0,1]. Parametr ten dodatkowo zilustrujemy prostym przykładem. Załóżmy dla uproszczenia, że baza danych zawiera informacje o 10 klientach i koncentrujemy się na zależnościach pomiędzy posiadanymi przez nich produktami (ROR Plus oraz karta kredytowa). Widać na poniższej ilustracji, że reguła ROR Plus => karta kredytowa ma wsparcie na poziomie 0,3. Warto zwrócić uwagę, że reguła karta kredytowa=> ROR Plus ma takie samo wsparcie. Rys. 2. Ilustracja wsparcia reguły. Zaufanie, pewność reguły odsetek transakcji zawierających analizowaną regułę w zbiorze tych, które spełniają poprzednik danej reguły (dla reguły A => B odpowiada to prawdopodobieństwu warunkowemu P(B A)). Zaufanie dla reguły przyjmuje wartości z przedziału [0,1]. Widać, że reguła karta kredytowa => ROR Plus ma zaufanie na poziomie 0,5 (połowa spośród posiadaczy karty kredytowej ma również rachunek ROR Copyright StatSoft Polska 2012 www.statsoft.pl/czytelnia.html 57

Plus). Natomiast reguła ROR Plus => karta kredytowa ma zaufanie na poziomie 1 (każdy posiadacz rachunku ROR Plus ma kartę kredytową może to oznaczać na przykład stałą procedurę). Rys. 3. Ilustracja zaufania reguły. Przyrost to miara, która określa, czy fakt wystąpienia jednego wariantu (produktu) powoduje zwiększenie się prawdopodobieństwa wystąpienia drugiego wariantu (produktu) w ramach jednej transakcji. Przyrost przyjmuje wartości dodatnie. Jeśli wartość przyrostu jest równa 1, wówczas mówimy, że produkty na siebie nie wpływają, jeśli jest mniejsza od 1, to mówimy, że są produktami antagonistycznymi, a jeśli większa od 1, to że oba produkty są komplementarne. Podsumowując, miary jakości reguł wyliczane są za pomocą następujących wzorów: wsparcie jeśli A, to B = zaufanie jeśli A, to B = liczba transakcji, w których jednocześnie wystąpił A i B liczba transakcji w zbiorze danych liczba transakcji, w których jednocześnie wystąpił A i B liczba transakcji, w których wystąpił A 58 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2012

przyrost jeśli A, to B = = liczba transakcji, w których jednocześnie wystąpił A i B liczba transakcji, w których wystąpił A x (liczba transakcji, w których wystąpił B) Które zatem reguły są interesujące? Zależy to od postawionego pytania. Najczęściej natomiast szukamy tych, które często się realizują (tj. mają duże wsparcie) i jednocześnie są silnymi regułami (tj. mają duże zaufanie), bo tylko wówczas dany zestaw poprzedników będzie często występował i jednocześnie będzie często pociągał za sobą przypisany do niego następnik. Oprócz wyznaczania odpowiednich wskaźników, bardzo popularne jest graficzne przedstawianie związków pomiędzy badanymi elementami za pomocą tzw. wykresów sieciowych (web graph). Na takich wykresach wielkość węzła ilustruje częstość (wsparcie) danego elementu, grubość linii łączącej dwa elementy wsparcie dla reguły utworzonej przez te elementy, natomiast kolor linii oznacza przyrost. Rys. 4. Wykres sieciowy (web graph). Proces szukania reguł Ze względu na specyfikę rozwiązywanego problemu (szukanie najrzadszych lub najczęściej występujących związków) oraz kilka kryteriów, możliwe są różne strategie poszukiwania reguł. Zmiana granicznych wartości parametrów wybranych jako kryteria poszukiwania reguł powoduje zmianę liczby znalezionych reguł. Poniżej przedstawiono wyniki poszukiwania, w którym zmniejszano wartość minimalnego wsparcia reguły. Copyright StatSoft Polska 2012 www.statsoft.pl/czytelnia.html 59

Rys. 5. Schemat obserwowanego zjawiska. W kolejnych krokach otrzymujemy coraz więcej reguł. Często na początku ujawniają się reguły oczywiste i znane, a dopiero później ciekawe i wcześniej niezauważane. Warto zacząć również od reguł najmocniejszych i później zmniejszać poziom oczekiwanego zaufania dla reguł. Ważną zaletą takiego podejścia jest uniknięcie sytuacji, kiedy to wyniki analizy mają podobny stopień złożoności jak pierwotne dane. Przykład analiza koszykowa W tym przykładzie wykorzystamy zbiór danych transakcyjnych pochodzących z jednego supermarketu. Baza danych MarketBasket zawiera ponad 60 tys. transakcji (koszyków zakupów). Każda transakcja to kilkanaście lub kilkadziesiąt wybranych produktów 60 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2012

pochodzących z ponad 600 kategorii. Naszym zadaniem będzie odkrycie prawidłowości w wyborach klientów. Po otwarciu arkusza widzimy jego strukturę. Kolejne kolumny zawierają numer transakcji oraz kolejno produkty, które zostały kupione i znajdowały się w danym koszyku. Produkty zapisano w nieuporządkowanej postaci w kolejnych kolumnach (tj. zastosowano kodowanie typu wielokrotne odpowiedzi). Fragment arkusza z danymi zaprezentowano poniżej. Rys. 6. Arkusz danych MarketBasket. Klasyczne podejście wymagałoby od nas, ze względu na dużą liczbę badanych obiektów (ponad 600 kategorii produktów), przejrzenia ponad 200 tys. tabel dwudzielczych. Aby zbadać związki między występowaniem produktów, wykorzystamy zatem moduł Analiza sekwencji, asocjacji i połączeń w programie STATISTICA. W pierwszej kolejności zaznaczamy opcję Niesekwencyjna analiza asocjacji. Następnie, w oknie specyfikacji analizy wybieramy zmienne, które mają podlegać analizie. W tym celu klikamy przycisk Zmienne (lub OK - wtedy program poprosi o podanie zmiennych automatycznie). Rys. 7. Okno definiowania SAL. Copyright StatSoft Polska 2012 www.statsoft.pl/czytelnia.html 61

Na karcie Więcej można podać wstępne ograniczenia odnośnie minimalnych wartości wsparcia reguł (support) i pewności (confidence) oraz złożoności reguł (maksymalna liczba elementów w zestawie). Moduł STATISTICA SAL wykorzystuje nowoczesną technologię bazodanową do szybkiego i wydajnego pamięciowo poszukiwania reguł. Wszystkie reguły, a więc też cały model, zapisywane są w bazie danych (.dbs). Domyślnie baza ta jest przechowywana w pliku C:\Documents and Settings\USER\My Documents\Default.dbs. Po kliknięciu OK zostaną wykonane obliczenia i wyświetlone okno przeglądania wyników analiz. Przy domyślnych ustawieniach okazało się, że otrzymaliśmy trzy produkty, które charakteryzują się wsparciem powyżej 20%, natomiast nie ma w naszym zbiorze reguł, które charakteryzują się tak wysoką częstością występowania. W kolejnym kroku obniżamy wartość graniczną dla współczynnika wsparcia na 0,1, ale zwiększamy wartość zaufania do poziomu 0,5. Oznacza to, że wyodrębnione zbiory produktów są kupowane razem przez co najmniej 10% klientów (wsparcie). Natomiast minimalna pewność reguły zakłada, że prawdopodobieństwo warunkowe kupienia produktów ujętych w regule wynosi co najmniej 50%. Tabela poniżej przedstawia reguły asocjacyjne, które zostały wyodrębnione przy tak zadanych ograniczeniach. Rys. 8. Wyniki SAL. Na podstawie uzyskanych wyników możemy stwierdzić, że najczęściej kupowane pary produktów to kolejno: jaja i mleko oraz banany i mleko, przy czym klienci częściej kupowali mleko, jeśli kupowali również jaja, niż gdy kupowali również banany. Odpowiednie prawdopodobieństwa warunkowe (pewność reguł) wynoszą odpowiednio 59,4 % i 51,33%. Aby uzyskać więcej reguł, w kolejnym kroku możemy obniżyć wartość graniczną dla wsparcia do poziomu 0,05. Szukamy zatem związków, które pojawiają się co prawda rzadziej, ale są równie silne (tj. ponad połowa klientów, którzy kupili jeden produkt, kupili również drugi). W wyniku otrzymujemy dużo więcej reguł. 62 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2012

Rys. 9. Wyniki SAL. Wybrane wyniki zilustrowano dodatkowo na wykresie sieciowym. Rys. 10. Wykres sieciowy dla reguł ze zbioru MarketBasket. Uzyskane reguły można wdrożyć w programie STATISTICA. Dostępne są dwie możliwości: skorzystanie z utworzonej podczas poszukiwania bazy danych lub wygenerowanie pliku PMML z zapisanymi regułami. W pierwszym przypadku należy wskazać ścieżkę do bazy danych i zaznaczyć opcję Przejdź do wyników bez dodawania nowych transakcji. W tej sytuacji wymagany jest dostęp do bazy danych, w której znajdują się reguły. Copyright StatSoft Polska 2012 www.statsoft.pl/czytelnia.html 63

Rys. 11. Wdrażanie reguł. W drugiej sytuacji należy w oknie z wynikami analizy kliknąć przycisk PMML, aby wygenerować plik z regułami, a podczas ich wdrażania należy na karcie Projekt wybrać opcję Podpowiedz używając PMML oraz wskazać plik z zapisanymi regułami. W wyniku zostanie otworzone okno, w którym możemy wpisać dowolny poprzednik i po kliknięciu przycisku Wyszukaj reguły otrzymać następnik (o ile istnieje reguła z takim poprzednikiem). Po wpisaniu (EGGS) otrzymujemy następującą regułę: Rys. 12. Wyniki wdrożenia reguły z zadanym poprzednikiem. Analiza sekwencji Analiza sekwencji pozwala na rozszerzenie analizy koszykowej o powiązania zdarzeń w czasie. W ten sposób możemy analizować sekwencje zdarzeń. Przy użyciu analizy sekwencji możemy uzyskać regułę, która mówi o tym, że np. 40% klientów, którzy otworzyli 64 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2012

bezpłatny rachunek, w ciągu 3 miesięcy złożyło wniosek o przyznanie kredytu konsumpcyjnego. Zidentyfikowane sekwencje zakupionych produktów można łatwo zastosować w sprzedaży krzyżowej (cross-selling). Analizie poddane mogą być nie tylko produkty i usługi, z których skorzystał klient, ale również jego decyzje czy dyspozycje - może to być na przykład pomocnym narzędziem w odpowiedzi na pytanie, jakie zachowania cechują klientów, którzy zamierzają zrezygnować ze współpracy (zastosowanie w analizie migracji klientów churn analysis). Kolejnym ciekawym zastosowaniem reguł asocjacyjnych uwzględniających kolejność zdarzeń jest wykrywanie rzadkich lub nietypowych zdarzeń lub zachowań klientów, np. nadużyć (fraud detection). Wykorzystanie analizy sekwencji jest możliwe, o ile potrafimy rozróżniać klientów i identyfikować ich działania i kolejne zakupy (np. za pomocą kart lojalnościowych). Z technicznego punktu widzenia w zbiorze danych powinien znajdować się identyfikator klienta. Analizę sekwencji można wówczas postrzegać jako poszukiwanie reguł z tym zastrzeżeniem, że następnik musiał nastąpić później w czasie niż poprzednik. Analiza sekwencji jest dostępna w programie STATISTICA Analiza sekwencji, asocjacji i połączeń, gdy nie zaznaczymy opcji Niesekwencyjna analiza asocjacji na karcie Podstawowe. Przykład analiza sekwencji Przykład drugi jest oparty na zbiorze MSWebData, który zawiera logi wizyt na stronach Microsoft (www.microsoft.com) w pierwszym tygodniu lutego 1998 roku. Każdy przypadek w zbiorze odnosi się do wizyty internauty w jednej z części tematycznych witryny. Użytkownikom internetu zostały przypisane anonimowe identyfikatory, natomiast strony witryny Microsoft zostały podzielone na 294 spójnych tematycznie części. Podczas badania w sumie zarejestrowano prawie 100 tys. odwiedzonych stron. Celem analizy jest wyszukanie wzorców przeglądania stron internetowych witryny Microsoft i możliwość przewidywania kolejności przeglądanych stron. Po otwarciu arkusza widzimy jego strukturę. Kolejne przypadki zawierają kolejne wizyty na stronach witryny. W pierwszej kolumnie zapisany jest identyfikator użytkownika, a w następnych informacja o numerze kroku, w którym dotarł na daną stronę, oraz informacja o przeglądanej stronie (adres www oraz informacja o zawartości). Na początek można, podobnie jak w pierwszym przykładzie, wykorzystać analizę asocjacji i wyodrębnić zestawy stron najczęściej przeglądanych razem. My natomiast od razu uwzględnimy kolejność odwiedzanych stron i zastosujemy analizę sekwencji i połączeń. Uruchamiamy moduł Analiza sekwencji, asocjacji i połączeń w programie STATISTICA. Tym razem nie zaznaczamy pola Niesekwencyjna analiza asocjacji. Wybieramy zmienne do analizy: identyfikator sekwencji id użytkownika, czas zmienną z kolejnością odwiedzin; oraz jako wielokrotne odpowiedzi zawartość strony.na karcie Sekwencje możemy określić m.in. maksymalną długość sekwencji, wpisując ją w polu Maksymalna liczba zestawów. Copyright StatSoft Polska 2012 www.statsoft.pl/czytelnia.html 65

Rys. 13. Arkusz danych MSWebData. Rys. 14. Specyfikacja analizy dla zbioru MSWebData. W wynikach otrzymujemy reguły, które odzwierciedlają kolejność wizyt na stronach Microsoftu. W tabelce poniżej znajdują się najczęściej uczęszczane odcinki wirtualnych ścieżek. 66 www.statsoft.pl/czytelnia.html Copyright StatSoft Polska 2012

Rys. 15. Wyniki analizy sekwencji. Na przykład widać, że aż w 15% wszystkich sekwencji występowały następujące dwa elementy: Free downloads oraz Internet Explorer. Widać również, że spośród tych, którzy znaleźli się na stronie Free downloads, aż 48% było zainteresowanych pobraniem programu Internet Explorer (zaufanie reguły Free downloads => Internet Explorer wynosi 48%). Podsumowanie Zaprezentowane dwa przykłady pokazują możliwości technik analizy asocjacji i sekwencji. Analizy te mogą stanowić cenne rozszerzenie narzędzi raportujących, wzbogacając standardowy zakres wyników o nowe spojrzenie na dane historyczne. Wyniki uzyskane w postaci reguł asocjacyjnych, czyli wyodrębnionych prawidłowości i odpowiadających im prawdopodobieństw, pomagają w poznaniu wzorców działań klientów i zdobyciu przewagi konkurencyjnej. Literatura 1. StatSoft, Inc. (2011). STATISTICA (data analysis software system), version 10. www.statsoft.com. 2. Hastie T., Tibshirani R., Friedman J. (2001), The elements of statistical learning. Data mining, inference and prediction, Springer Verlag. 3. Agrawal, R., Imielinski, T., Swami, A. (1993), Mining Association Rules Between Sets of Items in Large Databases, SIGMOD Conference 1993:207-216. Copyright StatSoft Polska 2012 www.statsoft.pl/czytelnia.html 67