Eksploracja danych a serwisy internetowe Przemysław KAZIENKO Wydział Informatyki i Zarządzania Politechnika Wrocławska kazienko@pwr.wroc.pl
Dlaczego eksploracja danych w serwisach internetowych? Kanały internetowe (serwisy, witryny) dla wielu firm są głównym a dla bardzo wielu ważnym obszarem działalności Ocena serwisu (a co za tym idzie zmiany na lepsze) bez zastosowania specjalistycznych narzędzi jest trudna ze względu na: dużą liczbę informacji (serwisy składają się z wielu stron) dużą liczbę informacji o odwiedzinach użytkowników ocena powinna być dokonywana przez użytkowników a nie twórców Serwisy internetowe są ważnymi elementami kontaktów z klientem powinny być uwzględniane w systemach zarządzania relacjami z klientem (CRM) Dostosowywanie serwisu do użytkownika jest ważnym elementem budowania zadowolenia i utrzymania klienta Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 2
Typy eksploracji danych w Internecie Analiza treści serwisu web content mining: wydzielenie tematów (przestrzenie tematyczne) analiza tekstów (text mining) crawlery Analiza sposobów korzystania z serwisu przez użytkowników web usage mining: analiza logów (dzienników) serwerów i systemów wykrywanie sesji w serwisach bez identyfikacji wykrywanie ścieżek nawigacyjnych wykrywanie wzorcowych sposobów korzystania struktura obciążenia systemu Analiza struktury serwisu web structure mining: analiza korzystania z odsyłaczy na podstawie logów: wykrywanie nieużywanych odsyłaczy, błędne odesłania, ścieżki na około, zły układ serwisu, strony, w których nastąpiła rezygnacja z serwisu, miejsca powrotów analiza (statyczna) odsyłaczy poprzez analizę treści stron Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 3
Proces eksploracji Gromadzenie (pozyskiwanie) danych: zapamiętywanie przebiegu sesji użytkownika, formularze wypełniane przez użytkownika. Eksploracja danych (a także inne formy analizy): analiza zachowań użytkowników analiza treści serwisu analiza struktury (układu) serwisu analiza interfejsu (układ, wygląd, sposoby interakcji) Wykorzystanie wyników analizy Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 4
Wykorzystanie wyników analizy Poprawa serwisu (struktury, układu treści, wyglądu), statyczna Automatyczna personalizacja serwisu podpowiadanie stron i produktów, personalizacja wyglądu Wprowadzenie nowych elementów do serwisu, np. dostępu przez WAP, nowe formy płatności, nowe usług dodatkowe (np. konta pocztowe) Wydzielenie grupy klientów atrakcyjnych Zmiany w strategii cenowej, np. wprowadzenie opłat dla wybranych grup użytkowników Integracja z innymi kanałami i systemami firmy Rozliczenia reklamowe (np. banery) Sprzedaż danych i analiz innym firmom Zmiany w infrastrukturze technicznej (komputery, połączenia sieciowe, oprogramowanie serwerów) Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 5
Eksploracja - korzyści Analiza (eksploracja) może przynieść korzyści: klientowi serwis lepiej odpowiada na jego potrzeby, częściej i chętniej korzysta z serwisu, wykorzystuje nowe funkcji organizacji dostarczenie danych użytecznych w procesach podejmowania decyzji, klient lepiej ocenia serwis a więc i firmę Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 6
Analiza metody i techniki Raporty, zestawienia, wykresy, OLAP Eksploracja danych (data mining): Grupowanie sesji użytkowników, stron serwisów, stron produktowych, identyfikacja użytkowników z grupami, podpowiadanie odsyłaczy, zmiany w strukturze serwisu Sekwencje czasowe, regresja liniowa, sieci neuronowe przewidywanie zachowań użytkowników, predykcja obciążenia Drzewa decyzyjne, np. kiedy i dlaczego użytkownicy rezygnują, klasyfikacja użytkowników Reguły związków wykrywanie sesji w serwisach bez identyfikacji, podpowiadanie następnego kroku (odsyłacze) Wzorce sekwencji wykrywanie ścieżek nawigacyjnych, reorganizacja struktury serwisu Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 7
WebHound SAS Solution Przeznaczony do analizy logów serwera WWW Wydziela dane z logów (extract), wypełnia nimi zbiory SASowe (load), tworzy raporty (HTML+skrypty Javy) i hurtownie danych (kostki) Daje wiedzę o użytkownikach serwisu: Skąd pochodzą (kraje, organizacje) Skąd do nas przyszli (odesłania w innych serwisach) Kiedy pracują Jak korzystają z serwisu (ścieżki nawigacyjne) Co używają: platformy systemowe i przeglądarki Daje wiedzę o serwisie Przewidywane przyszłe obciążenia, Najczęściej wykorzystywane ścieżki nawigacyjne Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 8
Godzinowy raport obciążenia Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 9
Najczęściej oglądane strony Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 10
Kraje użytkowników Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 11
Organizacje użytkowników Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 12
Najpopularniejsze ścieżki nawigacyjne Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 13
Platformy użytkowników Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 14
Ścieżki nawigacyjne Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 15
Strony poprzedzające rezygnację z serwisu w danym miejscu Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 16
Konfiguracja a personalizacja (1) Serwisy mogą być konfigurowane (customization) czyli dopasowywane przez użytkownika, najczęściej ręcznie. Przykład: my.yahoo.com - zmiana zawartości (prawy ekran), kolorów, układu; wszystko z ograniczonej listy. Choose content. What s on your page Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 17
Konfiguracja a personalizacja (2) Serwisy mogą być personalizowane (personalization) czyli automatycznie dopasowywane przez system do użytkownika na podstawie jego profilu. Osoby które kupowały "XML na poważnie" często kupowały też: Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 18
Profile użytkowników Profil użytkownika może uwzględniać: aktualne działania użytkownika (np. jakie strony właśnie odwiedził) dotychczasową historię działań użytkownika w serwisie (sposób poruszania się po serwisie, zakupy) wiedzę wynikającą z informacji przekazanych przez użytkownika (np. w procesie rejestracji) lub pochodzącą z innych systemów Do personalizacji można także wykorzystać: profile innych, podobnych użytkowników dane o serwisie (zawartość, struktura) informacje firmowe (związane z promocjami, strategią firmy np. wydawnictwo nastawia się przede wszystkim na książki tłumaczone) Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 19
Koncepcja podpowiadania odsyłaczy Wydzielenie terminów ze stron serwisu Utworzenie wektorów terminów, Grupowanie Przestrzenie tematyczne - centroidy tematów OFFLINE Identyfikacja sesji (logi) Utworzenie wektorów sesji. Grupowanie Wzorce użycia - grupy, centroidy grup sesji Najbliższa tematyka Żądanie HTTP Przeglądarka Odp. HTTP Serwer WWW. Wektor aktual.sesji Najbliższa grupa sesji ONLINE wektor centroidu Web content mining wektor sesji Integracja wektorów Ranking stron Integracja Podpowiedzi (URL-e) wektor centroidu Web usage mining Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 20
Problemy (1) Wybór właściwych deskryptorów (terminów dobrze opisujących treść) f cu ( ) t ( t ) t i i t n k1 2 n k2 t exp = i n t i 4 * + ti t n k + 3 q i q max - liczba dokumentów, w których występuje termin t i, k t 1, kt 2, k t 3 -stałe, tf q i częstość występowania terminu t i we wszystkich pytaniach do wyszukiwarki, tf q max max. wartość tf q i. n t i Wartość wag współrzędnych wektora, uwzględniające częstość i miejsce występowania terminu, wielkość strony, liczbę dokumentów, w których termin występuje Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 21 tf tf
Problemy (2) Postać wektora aktualnej sesji, współrzędne: w a j = n a j (λ), 0, gdy gdy dokument d dokument d j j byl nie byl ogladany ogladany w aktywnej sesji λ stała z przedziału [0,1], wyznaczona eksperymentalnie, przyjęto λ=0,95; n a j kolejny nr dokumentu d j w aktualnej sesji w odwrotnym porządku. Sposób dokonania integracji wektorów i rankingu dokumentów Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 22
Koncepcja podpowiadania odsyłaczy i banerów reklamowych - agenty Crawler OFFLINE Banner Manager (URL-e banerów) Content Manager (wektory terminów i dokumentów) Banner Miner (wektory banerów) Content Miner (tematy, content mining) Usage Miner (wzorce użycia, usage mining) Banner Recommender (najlepsze banery) najbliższa tematyka User Assistent (generowanie stron HTML) Hyperlink Recommender (łączenie centroidów, ranking) User Session Monitor (wektor aktualnej sesji) najbliższe użycie sesja użytkownika Odpowiedź HTTP Server WWW Przeglądarka Żądanie HTTP ONLINE Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 23
Podpowiadanie odsyłaczy Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 24
Dziękuję za uwagę! Przemysław Kazienko: Eksploracja danych a serwisy internetowe. SASForum, 4 kwietnia 2003 25