Zakres badao web miningowych Analiza zachowao użytkowników serwisów WWW Podstawowe problemy rozważane na gruncie Web Miningu to: analiza zawartości serwisów internetowych, analiza zachowao użytkowników, analiza struktury serwisów internetowych. Web Mining. Wykład 4. Rok akademicki 2010/2011 1 2 Klasyfikacja metod badania zachowao użytkowników Sposób gromadzenia danych ze względu na sposób gromadzenia danych o użytkownikach Ze względu na miejsce gromadzenia danych o użytkownikach ze względu na cel analizy. Klasyfikacja ze względu na sposób gromadzenia danych: modele tworzone przy aktywnym udziale użytkowników podstawowym źródłem danych są informacje uzyskane od użytkowników i będące odpowiedziami na zadane pytania (ankiety, formularze, kupony, dane adresowe i in.) modele tworzone przy pasywnym udziale użytkowników podstawowym źródłem danych są informacje opisujące sposób korzystania przez użytkownika z serwisu internetowego 3 4 Ankiety dotyczące aktywności internautów Dziennik serwera główne źródło informacji w podejściu pasywnym Dane obrazujące przebieg sesji HTTP - zapisy w dzienniku systemu 2003-01-01 00:00:00 194.228.169.20-10.1.1.1 80 GET /universe/data/index.htm - 200 Mozilla/4.0+(compatible;+MSIE+5.5; +Windows+98) http://audit.tn.pl/index.php3 Problemy: identyfikowany jest komputer, a nie użytkownik, trudności w identyfikacji robotów sieciowych problemy z identyfikacją przy stosowaniu dynamicznego przydziału numerów IP, wpływ serwerów pośredniczących. 5 6 1
Bazy danych o użytkownikach przechowywane po stronie serwera Miejsce gromadzenia danych Klasyfikacja ze względu na miejsce gromadzenia danych stanowiących podstawę do ich konstrukcji komputery użytkowników, odwiedzane serwisy firm internetowych, serwery pośredniczące (proxy), ośrodki gromadzenia i analizy danych. w celu identyfikacji użytkownika konieczne logowanie! 7 8 Cel stosowania metod analizy aktywności użytkowników. Określenie cech demograficznych użytkownika Klasyfikacja ze względu na cel ich stosowania Badanie klienta Profil klienta Cechy demograficzne Zainteresowania Cykl życia klienta Geolokalizacja Sposób nawigacji w serwisie Funkcjonowanie serwisu Jakośd serwisu Skutecznośd i efektywnośd Rozliczanie kosztów Bezpieczeostwo systemu Systemy wykrywania włamao 73% 52% Wyniki badań panelowych Czy użytkownik jest kobietą? http://www.sport.pl http://www.gala.pl http://www.nivea.com.pl http://www.plusgsm.pl http://www.moda.pl Historia aktywności użytkownika 35% 65% 69% Wyniki badań panelowych Prawdopodobieostwo poprawnej identyfikacji płci w rzeczywistych serwisach kształtuje się na poziomie 95% (DoubleClick) 9 10 Badanie aktywności klientów Identyfikacja poprzez pliki cookies Podstawowy problem identyfikacja użytkownika W wielu przypadkach identyfikowany jest komputer, a nie jego użytkownik dynamiczne przydzielanie IP, serwery pośredniczące, użytkowanie adresów prywatnych IP. pliki cookies - pliki tekstowe zapisywane przez serwer WWW na komputerze użytkownika (przechowują informacje o aktywności użytkowników). 11 Problemy: nie wszyscy użytkownicy wyrażają zgodę na zapisywanie plików cookies (chęd ochrony prywatności) użytkownik korzystający z kilku komputerów nie jest prawidłowo rozpoznawany, 12 2
Zapis danych po stronie serwera Cele badania klientów informacje przechowywane są w bazie danych po stronie serwera możliwośd realizacji połączeo z różnych komputerów koniecznośd identyfikacji użytkowników (poprzez logowanie) systemy rekomendujące, systemy wspomagające kampanie marketingowe (dostosowanie reklam do zainteresowao użytkowników) geolokalizacja modelowanie sposobu poruszania się klienta w serwisie oszacowanie wartości klientów, oszacowanie prawdopodobieostwa pozostania lub utraty klienta, 13 14 Systemy rekomendujące... Systemy rekomendujące systemy pozwalające na prognozowanie preferencji użytkownika poprzez analizę preferencji innych użytkowników (podobnych do danego) BAZA DANYCH dane o użytkownikach podobnych do bieżącego PROGNOZA Klasyfikacja systemów rekomendujących ze względu na sposób wyrażania preferencji użytkownika systemy oparte na opiniach wyrażonych w sposób jawny, systemy oparte na opiniach wyrażanych w sposób niejawny (jest ona szacowana na podstawie aktywności użytkowników /przeglądanych stron/) BAZA DANYCH dane o użytkownikach podobnych do bieżącego MODEL PROGNOZA 15 16 Systemy ad serwerowe... Funkcje ad serwera: dostarczanie reklam prezentowanych w serwisach WWW, monitorowanie przebiegu akcji promocyjnej (ewidencjonowanie stron oglądanych przez użytkowników i prezentowanych reklam oraz sposobu reakcji na reklamy), profilowanie przekazu reklamowego (w zależności od czasu, profilu użytkownika /cookies, dane z ankiet/, numeru IP, systemu operacyjnego, sposobu zachowania się użytkownika. zawartości strony /kontekstowe/), generowanie raportów. 17 18 3
Rodzaje targetowania Modele geolokalizacyjne targetowanie behawioralne kierowanie reklam na podstawie danych dotyczących wcześniejszej aktywności użytkownika wcześniejsza aktywnośd użytkownika może byd analizowana w obrębie komputera użytkownika (konieczne zainstalowanie programu śledzącego działalnośd użytkownika), portalu sieci reklamowej reklama nie musi mied związku tematycznego z zawartością strony targetowanie kontekstowe dostosowanie reklam do zawartości strony (przykładem mogą byd reklamy w wyszukiwarkach Celem stosowania modeli geolokalizacyjnych jest określenie miejsca pobytu użytkownika systemu (klienta firmy) Źródła danych: bazy danych z rejestrami numerów IP, informacja o topologii sieci, specjalizowane usługi sieciowe (ping, traceroute, dns), analiza adresów domenowych (np. www.onet.pl). Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 19 20 Zastosowania modeli geolokalizacyjnych Modelowanie sposobu korzystania z serwisu identyfikacja preferencji użytkowników związanych z miejscem zamieszkania, koordynacja akcji promocyjnych przeprowadzanych drogą internetową z innymi działaniami przeprowadzanymi na danym obszarze, identyfikacja klientów pochodzących z obszarów o podwyższonym ryzyku biznesowym, dostosowanie się do przepisów prawnych obowiązujących na obszarze, z którego pochodzi użytkownik serwisu, dostosowanie się do kulturowych i językowych preferencji użytkownika, określenie strefy czasowej w obszarze przebywania użytkownika. Źródła danych: pliki dzienników serwerów WWW (numer IP komputera klienta, data i czas pobrania elementu, nazwa pobieranego pliku), programy śledzące aktywnośd użytkowników instalowane na ich komputerach. Najpopularniejsze typy modeli: modele asocjacyjne, modele Markowa. 21 22... Modelowanie funkcjonowania serwisu Zastosowania: możliwośd dostosowania zawartości serwisu do rozpoznanego profilu użytkownika, analiza struktury serwisu z punktu widzenia jej dostosowania do potrzeb użytkownika, systemy rekomendujące, pobieranie z wyprzedzeniem (prefetching) elementów serwisu w celu skrócenia czasu dostępu do żądanego elementu. Rodzaje stosowanych modeli: modelowanie jakości serwisu (dostępnośd serwisu, dostępnośd usług serwisu, wydajnośd, aktualnośd, integralnośd, popularnośd), modele służące ocenie skuteczności i efektywności serwisów i kampanii promocyjnych, modele służące rozliczeniu kosztów kampanii promocyjnych. 23 24 4
Ocena popularności serwisów Ocena skuteczności i efektywności działao promocyjnych Podstawowe mierniki: liczba wizyt w serwisie, liczba użytkowników, liczba nowych użytkowników, liczba powracających użytkowników, przeciętna szybkośd poruszania się po serwisie, przeciętna częstotliwośd odwiedzin. CTR click through ratio liczba kliknięd w reklamę w stosunku do liczby wyemitowanych odsłon (wskaźnik ten waha się zwykle w granicach od 1 do 2%) przeciętny koszt pozyskania klienta (odwiedzającego serwis, rejestrującego się w serwisie, dokonującego transakcji), odsetek użytkowników, którzy zdecydowali się na dokonanie określonej akcji (wśród wszystkich / nowych / powracających odwiedzających), odsetek użytkowników, którzy rozpoczęli realizację transakcji, ale zrezygnowali z jej zakooczenia, odsetek odchodzących użytkowników, przeciętna liczba kliknięd prowadzących do wykonania określonej akcji. 25 26 Systemy wykrywania włamao Metody wykrywania włamao: analiza plików dzienników, porównywanie ruchu sieciowego z wzorcami ataków, konstruowanie profili normalnego zachowania się użytkowników i wykrywanie zachowao niezgodnych ze wzorcami. 27 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 28 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 29 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 30 5
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 31 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 32 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 33 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 34 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 35 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 36 6
Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 37 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 38 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 39 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 40 Reklamy w wyszukiwarkach Google AdWords Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 41 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 42 7
Reklamy w wyszukiwarkach Google AdWords Reklamy w wyszukiwarkach Google AdWords Modele płatności CPM za tysiąc wyświetleo reklamy CPC za kliknięcie na reklamie Warunki wyświetlenia reklamy słowa kluczowe wpisane w wyszukiwarce język lokalizacja użytkownika budżet na reklamę Podręcznik: http://www.ittechnology.us/kursy/google-adwords/ebook-googleadwords_2.0.pdf Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 43 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 44 Reklamy Google na innych stronach Google AdSense Reklamy Google na innych stronach Google AdSense Sposób funkcjonowania: Zgłoszenie strony Akceptacja przez Google Zdefiniowanie sposobu wyświetlania reklamy (kolor, wielkośd, blokada reklam konkurencji,...) poprzez umieszczenie fragmentu kodu HTML w kodzie strony Dobór reklam przez Google (dopasowanie do zawartości strony, języka,...) Zasady płatności właściciel strony otrzymuje nie mniej niż 1 centa za kliknięcie na reklamie (wypłata co miesiąc po zgromadzeniu 100 USD) Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 45 Paweł Lula, Katedra Systemów Obliczeniowych, Uniwersytet Ekonomiczny w Krakowie 46 8