ZASTOSOWANIE EKSPLORACJI DANYCH DO ANALIZY I OCENY SERWISÓW INTERNETOWYCH Ewa Ziemba Proces analizy i oceny funkcjonowania serwisu Nieodzownym etapem przedsięwzięcia budowy i uŝytkowania serwisu internetowego jest analiza i ocena jego funkcjonowania. W fazie strategicznej cyklu Ŝycia serwisu internetowego stawiane są cele, jakie organizacja chce osiągnąć po jego wdroŝeniu [Ziem05]. Konieczne są zatem pomiar i diagnoza wyników funkcjonowania serwisu oraz wykrycie i rozwiązanie problemów, które uniemoŝliwiają osiąganie celów [Chaf02]. Analiza i ocena serwisu dają szansę odpowiedzi na pytania: co działa i funkcjonuje w serwisie dobrze, co powinno być doskonalone, jakie cele osiągnięto, jakie nowe cele naleŝy postawić. Wiedza o funkcjonowaniu serwisu oraz zachowaniu się uŝytkowników serwisu ułatwia podejmowanie trafnych decyzji co do kierunków jego dalszego rozwoju, pozwala odkryć wyzwania i moŝliwości, które naleŝy wziąć pod uwagę w dalszych pracach projektowych. Wspomaga równieŝ podejmowanie właściwych decyzji biznesowych, dotyczących np. polityki cenowej i promocyjnej czy strategii produkcji. Rezultatem oceny serwisu powinno być jego dostosowywanie do wymagań róŝnych grup uŝytkowników. Ocena powinna prowadzić do precyzyjnego opisania odwiedzających serwis, co pozwoli następnie prognozować ich zachowania. Dzięki temu moŝna zrealizować ideę inteligentnej personalizacji serwisu. Istota i rodzaje eksploracji danych w serwisie W analizie i ocenie funkcjonowania serwisu oraz jego rozwoju duŝą rolę mo- Ŝe odegrać eksploracja danych (data mining). Najogólniej, eksplorację danych moŝna zdefiniować jako odkrywanie z dostępnych zasobów danych róŝnego rodzaju wzorców, uogólnień, regularności, prawidłowości, reguł, a zatem czegoś, co stanowi pewną wiedzę zawartą implicite w tych zasobach [Mura04; Kant02]. Data mining wykorzystuje osiągnięcia takich dziedzin nauki jak: statystyka (statystyczna analiza wielowymiarowa), drzewa decyzyjne, sieci neuronowe, regresja czy uczenie maszynowe.
ZARZĄDZANIE WIEDZĄ I ROZWIĄZANIA BUSINESS INTELLIGENCE Eksploracja danych jest obecnie jednym z najdynamiczniej rozwijających się kierunków w informatyce. W środowiskach naukowych i w praktyce gospodarczej prowadzi się badania dotyczące obszarów zastosowania eksploracji danych oraz wykorzystywanych w niej metod. Jednym z tych obszarów jest analiza i ocena funkcjonowania serwisów. W tym przypadku przez eksplorację danych (web mining) naleŝy rozumieć proces automatycznego odkrywania znaczących, poŝytecznych, dotychczas nieznanych i wyczerpujących informacji z serwisu, informacji ujawniających ukrytą wiedzę o serwisie i jego uŝytkownikach. Wiedza ta przyjmuje postać reguł, prawidłowości, tendencji i korelacji, i jest następnie w odpowiedniej formie przedstawiana organizacji i zespołowi projektowemu, aby na tej podstawie mogli rozwiązywać pojawiające się problemy i podejmować decyzje biznesowe oraz decyzje odnośnie dalszego funkcjonowania i rozwoju serwisu. Wiedza będąca wynikiem eksploracji danych moŝe być spoŝytkowana w dwóch wymiarach: do prognozowania (prediction) i do opisu (description) [Mura04]. Prognozowanie polega na wykorzystaniu znanych w chwili obecnej wartości odpowiednich zmiennych w celu przewidywania wartości tych lub innych zmiennych w przyszłości. Przykładowo, model prognostyczny pomaga spersonalizować interfejs serwisu dla poszczególnych klientów na podstawie danych o ich zachowaniu się na stronach serwisu czy składanych zamówieniach. Z kolei opis polega na tworzeniu czytelnej i zrozumiałej dla człowieka reprezentacji wiedzy wydobytej z danych w postaci wykresów, wzorów, reguł, tabel. Na przykład wydobyta wiedza o tym, Ŝe klienci odwiedzający serwis zwykle opuszczają go na stronie z cenami moŝe być spoŝytkowana do wspomagania decyzji dotyczących polityki cenowej. W ramach web mining wyróŝnia się [Kazi03; CoMo97]: 1. Odkrywanie i analizę informacji gromadzonych w serwisie (web content mining): a. wydzielenie tematów (przestrzenie tematyczne), b. analiza tekstów (text mining), c. katalogowanie zawartości na podstawie załoŝonych kryteriów (crawlery). 2. Odkrywanie i analiza wzorców korzystania z serwisu przez uŝytkowników (web usage mining): a. analiza logów (dzienników) serwerów i systemów, b. wykrywanie sesji w serwisach bez identyfikacji, c. wykrywanie ścieŝek nawigacyjnych, d. wykrywanie wzorcowych sposobów korzystania, e. struktura obciąŝenia systemu. 393
ROZDZIAŁ III 3. Analiza struktury serwisu (web structure mining): a. analiza korzystania z odsyłaczy na podstawie logów: wykrywanie nieuŝywanych odsyłaczy, błędne odesłania, ścieŝki na około, zły układ serwisu, strony, w których nastąpiła rezygnacja z serwisu itd., b. analiza (statyczna) odsyłaczy poprzez analizę treści stron. NiezaleŜnie od rodzaju i sposobu wykorzystania, web mining opiera się na trzech filarach: danych, metodach i algorytmach. Źródła danych Jednym z kluczowych etapów w procesie eksploracji danych jest pozyskanie wiarygodnych danych. Bez tego wydobyta z danych wiedza moŝe być przypadkowa i uwzględniać tylko wybrane elementy, co w rezultacie uniemoŝliwi rzetelną analizę i ocenę funkcjonowania serwisu. Dla potrzeb web mining dane mogą być pozyskiwane z róŝnych źródeł: plików log, zawierających dane o działaniu serwisu, jego uŝytkownikach, baz danych, zawierających dane biznesowe organizacji, badań marketingowych, takich jak ankiety i wywiady, dostarczających informacji o doświadczeniach uŝytkowników z serwisem. Jest oczywiste, Ŝe dla pełnego obrazu funkcjonowania serwisu i zachowań uŝytkowników na stronach serwisu niezbędna jest integracja danych z róŝnych źródeł. Pomocne w tym mogą okazać się takie narzędzia analityczne jak: Accure i NetGenesis. Dane z plików log Źródłem wielu danych są standardowe pliki typu log, generowane przez serwer, na którym zainstalowany jest serwis. W plikach log zapisywane są mniej lub bardziej szczegółowe dane o odwiedzających serwis i ich zachowaniu na stronach serwisu. Do przykładowych danych, których źródłem są pliki log zalicza się [Ziem05; Frie01]: liczbę odwołań do serwera w celu pobrania pliku, liczbę odwołań do serwera w celu pobrania strony HTML, liczbę uŝytkowników odwiedzających serwis, liczbę sesji uŝytkowników i przeciętną długość sesji uŝytkownika, najczęściej wykorzystywaną przez uŝytkowników ścieŝkę poruszania się po serwisie, strony w sieci, z których uŝytkownicy wchodzą na serwis i strony, na które przechodzą po opuszczeniu serwisu, strony, z których uŝytkownicy najczęściej opuszczają serwis, 394
ZARZĄDZANIE WIEDZĄ I ROZWIĄZANIA BUSINESS INTELLIGENCE liczbę odwołań do serwisu poprzez odnośniki z innych serwisów, strony, z których najczęściej jest kierowany ruch na serwis, okresy największej aktywności odwiedzających, występowanie błędów w serwisie (po stronie klienta i po stronie serwera), dane o systemach operacyjnych i przeglądarkach, z jakich korzystają odwiedzający serwis, dane o rejonach geograficznych, z których pochodzą odwiedzający serwis, szybkość z jaką wczytywane są strony serwisu i wyszukiwane są dane, procent czasu, w jakim serwis jest dostępny w sieci itd. Analizy plików log mogą dostarczać mylących informacji. WiąŜe się to przede wszystkim z błędną identyfikacją uŝytkowników. Wielu dostawców internetowych uŝywa do identyfikacji dynamicznego adresowania IP, co oznacza, Ŝe ci sami uŝytkownicy mogą mieć w pliku log róŝne adresy IP, a zatem pojawiają się w analizach jako róŝni uŝytkownicy. Z kolei serwery proxy rejestrują tylko jednego uŝytkownika, kiedy w rzeczywistości moŝe on być reprezentowany przez wiele osób. Innym sposobem identyfikacji uŝytkowników są tzw. cookies. Analizy cookies mogą zniekształcać ocenę, jeŝeli komputera uŝywa kilka osób. MoŜliwe jest równieŝ odmówienie przyjęcia cookies lub usunięcie pliku cookies przez uŝytkownika. Liczbę odwołań do serwisu zniekształca takŝe rejestracja serwisu w przeglądarkach uŝytkowników, uŝywanie ramek czy działalność robotów indeksujących. Dane z baz danych Źródłem danych dla procesu eksploracji są takŝe bazy danych organizacji. Dane te są gromadzone podczas: rejestracji uŝytkowników, subskrypcji biuletynu informacyjnego, zapytań on-line uŝytkowników (o dodatkowe informacje, broszury itp.), odpowiedzi na promocje, sprzedaŝy on-line, sprzedaŝy, będącej wynikiem wizyty na stronach serwisu itd. Zalicza się tutaj m.in. dane o: liczbie zarejestrowanych uŝytkowników, liczbie pozyskanych klientów, wartości przychodów ze sprzedaŝy prowadzonej z serwisu, asortymencie sprzedaŝy prowadzonej z serwisu, okresach sprzedaŝy. PowyŜsze informacje są gromadzone w bazach danych informatycznych systemów zarządzania funkcjonujących w organizacji, w szczególności w systemach zarządzania relacjami z klientami CRM (Customer Relationship Management) i systemach informatycznych wspomagających sprzedaŝ. 395
ROZDZIAŁ III Dane z badań marketingowych Poza plikami log i bazami danych do oceny funkcjonowania serwisów wykorzystuje się dane z badań marketingowych. Badania marketingowe moŝna podzielić na dwa podstawowe rodzaje: pierwszy, gdzie organizacja zbiera własne dane o rynku, klientach itp. oraz drugi, polegający na wykorzystaniu badań publikowanych. Najczęściej źródłem danych własnych są otrzymywane od kontrahentów e-maile, przeprowadzane wywiady na stronach serwisu i grup dyskusyjne, otrzymane off-line i on-line oceny od klientów, ankiety itp. Z kolei z badań publikowanych mogą pochodzić dane statystyczne, róŝnego rodzaju dane rankingowe itd. Badania marketingowe są zwykle wykorzystywane do ujawnienia opinii uŝytkowników o funkcjonowaniu serwisu oraz o ich wymaganiach, potrzebach i moŝliwościach. Metody i algorytmy eksploracji danych Wybór metod eksploracji wymaga określenia czy poszukiwana jest interpretacja zaleŝności między danymi czy teŝ potrzebne jest narzędzie predykcji. Najczęściej eksplorację danych wiąŝe się z następującymi typami działań: w przypadku eksploracji deskryptywnej - kojarzenie (odkrywanie asocjacji), odkrywanie związków sekwencji i grupowanie oraz wykrywanie wyjątków i odchyleń, w przypadku eksploracji predyktywnej - klasyfikacja, regresja bądź teŝ analiza szeregów czasowych. Klasyfikowanie Klasyfikowanie (classification) polega na określeniu reguł, które słuŝą do przyporządkowania (zaklasyfikowania) danych do jednej lub więcej wcześniej zdefiniowanych klas (grup) danych. Klasyfikacja często korzysta z algorytmów opartych na drzewach decyzyjnych, sieciach neuronowych, teorii najbliŝszych sąsiadów (Nearest Neighbour Search) czy teorii wnioskowania przez przypadki (Case Based Reasoning). UŜycie tych algorytmów rozpoczyna się od podania im w ramach uczenia się (treningu) zbioru przypadków juŝ sklasyfikowanych. Algorytmy klasyfikacji znajdują duŝe zastosowanie w definiowaniu profili klientów i na tej podstawie personalizowaniu oferty. Przykładowo: dane z plików log o zachowaniu się klientów na stronach serwisu pozwalają odkryć regułę wskazującą, Ŝe klienci z kraju A w X% przypadków są zainteresowani zakupem produktu P, dane z baz danych sprzedaŝy pozwalają odkryć regułę mówiącą, Ŝe klienci z przedziału wiekowego W1 W2 w X% przypadków kupują produkt P, 396
ZARZĄDZANIE WIEDZĄ I ROZWIĄZANIA BUSINESS INTELLIGENCE dane z baz danych marketingu pozwalają odkryć regułę mówiącą, Ŝe męŝczyźni w X% przypadków korzystają z promocji cenowej i dokonują zakupów. Grupowanie W odróŝnieniu od klasyfikacji, gdzie klasy są definiowane wcześniej, niejako poza procesem klasyfikacji, grupowanie (clustering) polega na przyporządkowaniu branego pod uwagę elementu do jednej lub wielu grup (klas), przy czym grupy te są wyznaczane przez sam proces grupowania na podstawie analizy danych o wszystkich dostępnych elementach. Do typowych algorytmów grupowania zalicza się przede algorytmy podziału, hierarchiczne, gęstości oraz oparte na sieci i na modelach [Jędr03]. Grupowanie wykorzystuje się do definiowania profili uŝytkowników. Niektórzy uŝytkownicy są podobni do siebie, inni róŝni. Podobieństwo moŝe dotyczy zainteresowań, wymagań oraz sposobu poruszania się po stronach serwisu. MoŜna zatem zidentyfikować grupy klientów o podobnych preferencjach, grupy klientów według ich schematu nawigacji po serwisie itd. Przykładowo, wynikiem grupowania moŝe być reguła mówiąca, Ŝe X% uŝytkowników serwisu, którzy odwiedzają stronę A ma wykształcenie typu W. Kojarzenie Kojarzenie (association) sprowadza się do odszukiwania tych danych, które wiąŝą się z zadanym zdarzeniem lub inną daną. Algorytmy tu wykorzystywane powinny odkrywać reguły logiczne zapisane w postaci implikacji. Specyficzną formą asocjacji są sekwencje. Sekwencją jest lista działań, czynności lub zdarzeń następujących po sobie w czasie. Podstawą odkrywania sekwencji jest baza danych sekwencji, zawierająca np. listy transakcji dokonywanych przez pojedynczych klientów. Zastosowania algorytmów kojarzenia mogą być następujące: dane z plików log pozwalają określić, Ŝe jeŝeli klient odwiedził stronę A serwisu, to w X% przypadków odwiedzi stronę B, dane z plików log pozwalają określić, Ŝe jeŝeli klient odwiedził stronę B serwisu, to w X% przypadków opuści serwis, dane z baz danych sprzedaŝy pozwalają określić, Ŝe jeŝeli klient zakupił w sklepie internetowym produkt A, to w X% przypadków zakupi produkt B. Regresja Wynikiem regresji (regression) jest funkcja przyporządkowująca danemu elementowi konkretną wartość. W przypadku złoŝonych problemów wykorzystuje się tutaj sieci neuronowe. Przykładem zastosowania regresji jest przewi- 397
ROZDZIAŁ III dywanie popytu na nowy produkt w zaleŝności od promocji przeprowadzonej na stronach serwisu. Wzorce semantyczne Obecnie prowadzone są intensywne badania nad analizą i wizualizacją wzorców semantycznych w danych tekstowych. W serwisie duŝe znaczenie ma analiza tekstu w celu odkrycia nowej wiedzy, przeszukiwanie tekstu w celu odnalezienia kluczowych słów, częstości występowania słów, fraz, zdań. W analizie semantycznej tekstu wykorzystuje się algorytmy sztucznej inteligencji, np. sieci neuronowe. Metody te pozwalają m.in. analizować komunikaty od klientów otrzymywane za pośrednictwem poczty elektronicznej pod kątem poznania zaleŝności między raportowanymi problemami a stopniem niezadowolenia klientów [Jędr03]. Korzyści z eksploracji danych w serwisie Eksploracja danych dostarcza bardzo cennej wiedzy o funkcjonowaniu serwisu. Pozwala uzyskać wiedzę o tym kto, kiedy, dlaczego i jak uŝywa serwisu. Organizacja posiada zatem cenną, dialektyczną wiedzę o atrakcyjności swojej oferty, wiedzę o tym w jaki sposób kształtować ofertę, aby odpowiadała ona potrzebom klienta itp. Dzięki web mining moŝliwe staje się personalizowanie serwisu, automatyzacja nawigacji oraz "inteligentny" e-business. Wyniki analizy mogą być wykorzystywane m.in. do: poprawy struktury serwisu, struktury stron i nawigacji, rozwoju serwisu, automatycznej personalizacji serwisu (podpowiadanie stron i produktów, personalizacja wyglądu), kategoryzacji klientów, kształtowania strategii cenowej czy promocyjnej, rozliczania reklam (np. banery), modernizacji infrastruktury technicznej (sprzęt, oprogramowanie, sieć). Reasumując, eksploracja moŝe przynieść korzyści organizacji, gdyŝ dostarcza danych uŝytecznych w procesach podejmowania decyzji biznesowych i decyzji dotyczących funkcjonowania i rozwoju serwisu. Widoczne są teŝ korzyści dla klienta, gdyŝ serwis lepiej odpowiada na jego potrzeby, a on sam częściej i chętniej korzysta z serwisu oraz jest zainteresowany jego nowymi funkcjami. 398
ZARZĄDZANIE WIEDZĄ I ROZWIĄZANIA BUSINESS INTELLIGENCE Literatura [Chaf02] [CoMo97] [Frie01] [Jędr03] [Kant02] [Kazi03] [Mura04] [Ziem05] Chaffey D.: E-business and e-commerce Management, Prentice Hall, Edinburgh, 2002. Cooley R., Mobasher B., Srivastava J.: Web Mining: Information and Pattern Discovery on the World Wide Web, 9 th IEEE International Conference on Tools with Artificial Intelligence (ICTAI 97), 1997. Friedlein A.: Web Project Management, Morgan Kaufmann Publishers, San Francisco, 2001. Jędrzejowicz P.: Eksploracja danych narzędzie współczesnego biznesu, [w:] Informatyka w gospodarce globalnej. Problemy i metody, pr. zb. pod red. J.Kisielnickiego J.Grabary i J.S. Nowaka, WNT, Warszawa, 2003. Kantardzic M.: Data Mining: Concepts, Models, Methods and Algorithms, J.Wiley, New York, 2002. Kazienko P.: Eksploracja danych a serwisy internetowe, SASForum, 4 kwietnia 2003. Muraszkiewicz M: Eksploracja danych dla telekomunikacji, Instytut Informatyki Teoretycznej i Stosowanej PAN htttp://www.icie.com.pl/mrm.htm, 2004. Ziemba E.: Metodologia budowy serwisów internetowych dla zastosowań gospodarczych, AE, Katowice, 2005 399