Analiza zachowao użytkowników serwisów WWW Web Mining. Wykład 3. Rok akademicki 2009/2010 1 Zakres badao web miningowych Podstawowe problemy rozważane na gruncie Web Miningu to: analiza zawartości serwisów internetowych, analiza zachowao użytkowników, analiza struktury serwisów internetowych. 2 1
Dlaczego warto przeprowadzad badania użytkowników serwisów WWW? Przeciętny miesięczny czas spędzony w sieci przez polskiego użytkownika: styczeo 2006: 28 godzin 23 minuty, styczeo 2008: 45 godzin 33 minuty. Źródło: Dominik Kaznowski, Nowy marketing, Communications, 2008 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 3 Polski rynek e-commerce Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 4 2
Polscy e-klienci Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 5 Profil klienta e-commerce Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 6 3
Klasyfikacja metod badania zachowao użytkowników ze względu na sposób gromadzenia danych o użytkownikach Ze względu na miejsce gromadzenia danych o użytkownikach ze względu na cel analizy. 7 Sposób gromadzenia danych Klasyfikacja ze względu na sposób gromadzenia danych: modele tworzone przy aktywnym udziale użytkowników podstawowym źródłem danych są informacje uzyskane od użytkowników i będące odpowiedziami na zadane pytania (ankiety, formularze, kupony, dane adresowe i in.) modele tworzone przy pasywnym udziale użytkowników podstawowym źródłem danych są informacje opisujące sposób korzystania przez użytkownika z serwisu internetowego 8 4
Ankiety dotyczące aktywności internautów 9 Dziennik serwera główne źródło informacji w podejściu pasywnym Dane obrazujące przebieg sesji HTTP - zapisy w dzienniku systemu 2003-01-01 00:00:00 194.228.169.20-10.1.1.1 80 GET /universe/data/index.htm - 200 Mozilla/4.0+(compatible;+MSIE+5.5; +Windows+98) http://audit.tn.pl/index.php3 Problemy: identyfikowany jest komputer, a nie użytkownik, trudności w identyfikacji robotów sieciowych problemy z identyfikacją przy stosowaniu dynamicznego przydziału numerów IP, wpływ serwerów pośredniczących. 10 5
Bazy danych o użytkownikach przechowywane po stronie serwera w celu identyfikacji użytkownika konieczne logowanie! 11 Miejsce gromadzenia danych Klasyfikacja ze względu na miejsce gromadzenia danych stanowiących podstawę do ich konstrukcji komputery użytkowników, odwiedzane serwisy firm internetowych, serwery pośredniczące (proxy), ośrodki gromadzenia i analizy danych. 12 6
Cel stosowania metod analizy aktywności użytkowników. Klasyfikacja ze względu na cel ich stosowania Badanie klienta Profil klienta Cechy demograficzne Zainteresowania Cykl życia klienta Geolokalizacja Sposób nawigacji w serwisie Funkcjonowanie serwisu Jakośd serwisu Skutecznośd i efektywnośd Rozliczanie kosztów Bezpieczeostwo systemu Systemy wykrywania włamao 13 Określenie cech demograficznych użytkownika Czy użytkownik jest kobietą? http://www.sport.pl 35% 73% http://www.gala.pl http://www.nivea.com.pl 65% 52% http://www.plusgsm.pl Wyniki badań panelowych http://www.moda.pl Historia aktywności użytkownika 69% Wyniki badań panelowych Prawdopodobieostwo poprawnej identyfikacji płci w rzeczywistych serwisach kształtuje się na poziomie 95% (DoubleClick) 14 7
Badanie aktywności klientów Podstawowy problem identyfikacja użytkownika W wielu przypadkach identyfikowany jest komputer, a nie jego użytkownik dynamiczne przydzielanie IP, serwery pośredniczące, użytkowanie adresów prywatnych IP. 15 Identyfikacja poprzez pliki cookies pliki cookies - pliki tekstowe zapisywane przez serwer WWW na komputerze użytkownika (przechowują informacje o aktywności użytkowników). Problemy: nie wszyscy użytkownicy wyrażają zgodę na zapisywanie plików cookies (chęd ochrony prywatności) użytkownik korzystający z kilku komputerów nie jest prawidłowo rozpoznawany, 16 8
Zapis danych po stronie serwera informacje przechowywane są w bazie danych po stronie serwera możliwośd realizacji połączeo z różnych komputerów koniecznośd identyfikacji użytkowników (poprzez logowanie) 17 Cele badania klientów systemy rekomendujące, systemy wspomagające kampanie marketingowe (dostosowanie reklam do zainteresowao użytkowników) geolokalizacja modelowanie sposobu poruszania się klienta w serwisie oszacowanie wartości klientów, oszacowanie prawdopodobieostwa pozostania lub utraty klienta, 18 9
Systemy rekomendujące Systemy rekomendujące systemy pozwalające na prognozowanie preferencji użytkownika poprzez analizę preferencji innych użytkowników (podobnych do danego) BAZA DANYCH dane o użytkownikach podobnych do bieżącego PROGNOZA BAZA DANYCH dane o użytkownikach podobnych do bieżącego MODEL PROGNOZA 19... Klasyfikacja systemów rekomendujących ze względu na sposób wyrażania preferencji użytkownika systemy oparte na opiniach wyrażonych w sposób jawny, systemy oparte na opiniach wyrażanych w sposób niejawny (jest ona szacowana na podstawie aktywności użytkowników /przeglądanych stron/) 20 10
Systemy ad serwerowe Funkcje ad serwera: dostarczanie reklam prezentowanych w serwisach WWW, monitorowanie przebiegu akcji promocyjnej (ewidencjonowanie stron oglądanych przez użytkowników i prezentowanych reklam oraz sposobu reakcji na reklamy), profilowanie przekazu reklamowego (w zależności od czasu, profilu użytkownika /cookies, dane z ankiet/, numeru IP, systemu operacyjnego, sposobu zachowania się użytkownika. zawartości strony /kontekstowe/), generowanie raportów. 21... 22 11
Rodzaje targetowania targetowanie behawioralne kierowanie reklam na podstawie danych dotyczących wcześniejszej aktywności użytkownika wcześniejsza aktywnośd użytkownika może byd analizowana w obrębie komputera użytkownika (konieczne zainstalowanie programu śledzącego działalnośd użytkownika), portalu sieci reklamowej reklama nie musi mied związku tematycznego z zawartością strony targetowanie kontekstowe dostosowanie reklam do zawartości strony (przykładem mogą byd reklamy w wyszukiwarkach Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 23 Modele geolokalizacyjne Celem stosowania modeli geolokalizacyjnych jest określenie miejsca pobytu użytkownika systemu (klienta firmy) Źródła danych: bazy danych z rejestrami numerów IP, informacja o topologii sieci, specjalizowane usługi sieciowe (ping, traceroute, dns), analiza adresów domenowych (np. www.onet.pl). 24 12
Zastosowania modeli geolokalizacyjnych identyfikacja preferencji użytkowników związanych z miejscem zamieszkania, koordynacja akcji promocyjnych przeprowadzanych drogą internetową z innymi działaniami przeprowadzanymi na danym obszarze, identyfikacja klientów pochodzących z obszarów o podwyższonym ryzyku biznesowym, dostosowanie się do przepisów prawnych obowiązujących na obszarze, z którego pochodzi użytkownik serwisu, dostosowanie się do kulturowych i językowych preferencji użytkownika, określenie strefy czasowej w obszarze przebywania użytkownika. 25 Modelowanie sposobu korzystania z serwisu Źródła danych: pliki dzienników serwerów WWW (numer IP komputera klienta, data i czas pobrania elementu, nazwa pobieranego pliku), programy śledzące aktywnośd użytkowników instalowane na ich komputerach. Najpopularniejsze typy modeli: modele asocjacyjne, modele Markowa. 26 13
... Zastosowania: możliwośd dostosowania zawartości serwisu do rozpoznanego profilu użytkownika, analiza struktury serwisu z punktu widzenia jej dostosowania do potrzeb użytkownika, systemy rekomendujące, pobieranie z wyprzedzeniem (prefetching) elementów serwisu w celu skrócenia czasu dostępu do żądanego elementu. 27 Modelowanie funkcjonowania serwisu Rodzaje stosowanych modeli: modelowanie jakości serwisu (dostępnośd serwisu, dostępnośd usług serwisu, wydajnośd, aktualnośd, integralnośd, popularnośd), modele służące ocenie skuteczności i efektywności serwisów i kampanii promocyjnych, modele służące rozliczeniu kosztów kampanii promocyjnych. 28 14
Ocena popularności serwisów Podstawowe mierniki: liczba wizyt w serwisie, liczba użytkowników, liczba nowych użytkowników, liczba powracających użytkowników, przeciętna szybkośd poruszania się po serwisie, przeciętna częstotliwośd odwiedzin. 29 Ocena skuteczności i efektywności działao promocyjnych CTR click through ratio liczba kliknięd w reklamę w stosunku do liczby wyemitowanych odsłon (wskaźnik ten waha się zwykle w granicach od 1 do 2%) przeciętny koszt pozyskania klienta (odwiedzającego serwis, rejestrującego się w serwisie, dokonującego transakcji), odsetek użytkowników, którzy zdecydowali się na dokonanie określonej akcji (wśród wszystkich / nowych / powracających odwiedzających), odsetek użytkowników, którzy rozpoczęli realizację transakcji, ale zrezygnowali z jej zakooczenia, odsetek odchodzących użytkowników, przeciętna liczba kliknięd prowadzących do wykonania określonej akcji. 30 15
Systemy wykrywania włamao Metody wykrywania włamao: analiza plików dzienników, porównywanie ruchu sieciowego z wzorcami ataków, konstruowanie profili normalnego zachowania się użytkowników i wykrywanie zachowao niezgodnych ze wzorcami. 31 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 32 16
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 33 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 34 17
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 35 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 36 18
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 37 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 38 19
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 39 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 40 20
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 41 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 42 21
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 43 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 44 22
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 45 Reklamy w wyszukiwarkach Google AdWords Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 46 23
Reklamy w wyszukiwarkach Google AdWords Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 47 Reklamy w wyszukiwarkach Google AdWords Modele płatności CPM za tysiąc wyświetleo reklamy CPC za kliknięcie na reklamie Warunki wyświetlenia reklamy słowa kluczowe wpisane w wyszukiwarce język lokalizacja użytkownika budżet na reklamę Podręcznik: http://www.ittechnology.us/kursy/google-adwords/ebook-googleadwords_2.0.pdf Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 48 24
Reklamy Google na innych stronach Google AdSense Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 49 Reklamy Google na innych stronach Google AdSense Sposób funkcjonowania: Zgłoszenie strony Akceptacja przez Google Zdefiniowanie sposobu wyświetlania reklamy (kolor, wielkośd, blokada reklam konkurencji,...) poprzez umieszczenie fragmentu kodu HTML w kodzie strony Dobór reklam przez Google (dopasowanie do zawartości strony, języka,...) Zasady płatności właściciel strony otrzymuje nie mniej niż 1 centa za kliknięcie na reklamie (wypłata co miesiąc po zgromadzeniu 100 USD) Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 50 25