Hurtownie danych Analiza zachowań użytkownika w Internecie Ewa Kowalczuk, Piotr Śniegowski Informatyka Wydział Informatyki Politechnika Poznańska 2 czerwca 2011
Wprowadzenie Jak zwiększyć zysk sklepu internetowego?
Wprowadzenie Poznanie cech i preferencji użytkowników dostosowanie sklepu architektura serwisu wygląd stron asortyment modyfikacje dynamiczne up-selling cross-selling wydajność serwisu
Wprowadzenie Data webhouse clickstream zapis aktywności użytkownika na stronie WWW Ralph Kimball
Źródła danych Logowanie zdarzeń Extented Log format adres IP klienta dane identyfikacyjne znacznik czasowy GET/POST kod odpowiedzi HTTP rozmiar odpowiedzi HTTP referrer user agent
Źródła danych Logowanie zdarzeń Extented Log format adres IP klienta dane identyfikacyjne znacznik czasowy GET/POST kod odpowiedzi HTTP rozmiar odpowiedzi HTTP referrer user agent warstwa serwera aplikacji dodanie produktu do koszyka wyszukanie słowa kluczowego porzucenie koszyka
Źródła danych Clickstream sessionisation bezstanowość protokołu HTTP adres IP + user agent
Źródła danych Clickstream sessionisation bezstanowość protokołu HTTP adres IP + user agent ciasteczka
Źródła danych Crawlery
Źródła danych Crawlery wyłączone obrazki pusty referrer robots.txt wyjątkowo szybkie przeglądanie stron przeszukiwanie wszerz / wzdłuż brak zakupu
Źródła danych Crawlery wyłączone obrazki pusty referrer robots.txt wyjątkowo szybkie przeglądanie stron przeszukiwanie wszerz / wzdłuż brak zakupu podążanie za niewidzialnymi linkami
Źródła danych Informacje o użytkowniku dane demograficzne przychód wiek płeć styl życia
Źródła danych Informacje o użytkowniku dane demograficzne przychód wiek płeć styl życia źródła danych formularze rejestracyjne
Źródła danych Informacje o użytkowniku dane demograficzne przychód wiek płeć styl życia źródła danych formularze rejestracyjne dane o kartach kredytowych spisy ludności county recorder offices
Schemat hurtowni
Analiza danych Metody analizy przetwarzanie OLAPowe reguły asocjacyjne wzorce sekwencji uczenie maszynowe drzewa decyzyjne sieci neuronowe klasyfikator Bayesowski clustering
Analiza danych Uczenie maszynowe Osoby wydające ponad 512$ to samotne kobiety w wieku 25-35 lat, zarabiające ponad 35000$ rocznie. kampanie ogólne bardzo tanie 2-3% skuteczności duża ilość poczty ryzyko zablokowania konta / odbierania reklam
Analiza danych Reguły asocjacyjne produkty często kupowane razem dynamiczna rekomendacja strony często odwiedzane razem połączenie odnośnikami pre-fetching pre-kompilacja
Analiza danych Wzorce sekwencji Użytkownik, który odwiedził stronę A, później E i C odwiedzi w kolejnych krokach stronę D.
Odkrywanie wzorców sekwencji Dane wejściowe użytkownik timestamp id produktu 001 1 3 002 1 2 001 2 9 002 3 3 002 4 4 002 4 6 002 4 7 003 5 3 003 5 5 003 5 7 004 5 3 005 6 9 004 7 4 004 7 7 004 8 9
Odkrywanie wzorców sekwencji 1. Sortowanie użytkownik sekwencja 001 (3)(9) 002 (2)(3)(467) 003 (357) 004 (3)(47)(9) 005 (9)
Odkrywanie wzorców sekwencji 2. Zbiory częste zbiór częsty liczba sekwencji wsparcie (> 0.3) kod 3 4 0.8 A 4 2 0.4 B 7 3 0.6 C 47 2 0.4 D 9 3 0.6 E
Odkrywanie wzorców sekwencji 3. Transformacja zbiór częsty kod 3 A 4 B 7 C 47 D 9 E oryginalna sekwencja zakodowana sekwencja (3)(9) (A)(E) (2)(3)(467) (A)(BCD) (357) (AC) (3)(47)(9) (A)(BCD)(E) (9) (E)
Odkrywanie wzorców sekwencji 4. Sekwencjonowanie Jeżeli sekwencja nie jest częsta, to żadna jej nadsekwencja nie jest częsta. (H)(B) nie jest częsta (H)(A)(B) nie jest częsta, (AH)(B) nie jest częsta.
Odkrywanie wzorców sekwencji 4. Sekwencjonowanie częste 3-sekwencje ABC ABD ACD BCD kandydujące 4-sekwencje ABCC ABCD ABDC ABDD ACDD BCDD częste 4-sekwencje ABCD
Odkrywanie wzorców sekwencji 5. Maksymalizacja zbiór częsty kod 3 A 4 B 7 C 47 D 9 E Sekwencja maksymalna to sekwencja, która nie zawiera się w żadnej innej sekwencji ze zbioru. sekwencja częsta wsparcie odkodowana sekwencja sekwencje maksymalne (A)(B) 0.4 (3)(4) (A)(C) 0.4 (3)(7) (A)(E) 0.4 (3)(9) (3)(9) (A)(D) 0.4 (3)(47) (3)(47)
Odkrywanie wzorców sekwencji Zastosowania ścieżka liczność main.jsp splash.jsp END 14622 main.jsp main.jsp 3731 main.jsp main.jsp main.jsp 790 main.jsp hot.jsp registration.jsp 303 product.jsp 289......
Podsumowanie Aplikowanie zmian ocena wzorców użyteczność możliwość podjęcia działań słowa kluczowe, które nie zostały znalezione liczność wstążka 1566 paseczki 1300 Emily 604 decoupage 529 biedronka 324 talerzyk 311 szkło 150
Podsumowanie Cykl życia hurtowni danych 1 analiza wymagań 2 projektowanie hurtowni 3 pobranie danych 4 przetwarzanie danych 5 wykorzystanie wyników analiz