Hurtownie danych. Analiza zachowań użytkownika w Internecie. Ewa Kowalczuk, Piotr Śniegowski. Informatyka Wydział Informatyki Politechnika Poznańska

Podobne dokumenty
Integracja technik eksploracji danych ]V\VWHPHP]DU]G]DQLDED]GDQ\FK QDSU]\NáDG]LH2UDFOHi Data Mining

INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH

Eksploracja danych a serwisy internetowe Przemysław KAZIENKO

Sprawozdanie Laboratorium 4

Inżynieria biomedyczna

ZASADY KORZYSTANIA Z PLIKÓW COOKIES ORAZ POLITYKA PRYWATNOŚCI W SERWISIE INTERNETOWYM PawłowskiSPORT.pl

Wykorzystywanie plików cookies

PrestaShop. Sklep internetowy szyty na miarę

Odkrywanie asocjacji

POLITYKA PRYWATNOŚCI SERWIS:

data mining machine learning data science

Web Application Firewall - potrzeba, rozwiązania, kryteria ewaluacji.

Danych Osobowych oświadcza, że za wyjątkiem sytuacji uregulowanych w prawie polskim dane dotyczące IP oraz cookies nie będą przekazywane osobom

Zasady dotyczące plików cookies i innych podobnych technologii. 1. Jaki jest zakres tych Zasad?


Serwis realizuje funkcje pozyskiwania informacji o użytkownikach i ich zachowaniach w następujący sposób:

Używamy plików cookies, aby zapamiętać twoje preferencje. Niesie to następujące skutki:

Personalizowane rekomendacje w e-commerce, czyli jak skutecznie zwiększyć przychody w sklepie on-line

Reguły asocjacyjne, wykł. 11

Sieci Komputerowe i Bazy Danych

POLITYKA OCHRONY PRYWATNOŚCI APLIKACJI MOBILNEJ BIK DATA

Przygotowanie do nowoczesnego programowania po stronie przeglądarki. (HTML5, CSS3, JS, wzorce, architektura, narzędzia)

INSTRUKCJA OBSŁUGI. Pakietu Bezpieczeństwa UPC (ios) Radość z. każdej chwili

Cemarol Sp. z o.o. Polityka prywatności (pliki cookies) 1. Informacje ogólne.

Systemy Wspomagania Decyzji

Metadane. Data Maining. - wykład VII. Paweł Skrobanek, C-3 pok. 323 pawel.skrobanek@pwr.wroc.pl oprac. Wrocław 2006

POLITYKA COOKIES SERWISU CARDINA.PL

Odkrywanie wzorców sekwencji

2. w przeglądarce Firefox. 3. w przęglądarce Internet Explorer. 4. w przeglądarce Opera. 5. w przeglądarce Safari

Polityka prywatności Spółdzielni Mieszkaniowej Słoneczny Stok

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Elementy cyfrowe i układy logiczne

Instrukcja obsługi Pakietu Bezpieczeństwa UPC (ios)

Polityka prywatności serwisu

Ewelina Dziura Krzysztof Maryański

Polityka prywatności Rankosoft Sp. z o.o. Sp. komandytowa

1. Odkrywanie asocjacji

Dariusz Brzeziński Instytut Informatyki, Politechnika Poznańska

Overlord - specyfikacja uzupełniająca. Jakub Gołębiowski Adam Kawa Piotr Krewski Tomasz Weksej

POLITYKA PRYWATNOŚCI SKLEPU INTERNETOWEGO KREATYWNEDZIECI.COM.PL

POLITYKA PRYWATNOŚCI SKLEPU INTERNETOWEGO ESZPILKA.PL

Polityka Cookies. 1. Co to jest plik cookie? 2. Dlaczego korzystamy z Plików Cookies? 3. Z jakich rodzajów Plików Cookies korzystamy?

Telesprzedaż by CTI Instrukcja

POLITYKA PRYWATNOŚCI

Wybrane działy Informatyki Stosowanej

Polityka Cookies Wyborowa Pernod Ricard

Cookie Policy. 1. Informacje ogólne.

Konfiguracja i uruchomienie usługi Filtry adresów IP dla użytkowników Centrum Usług Internetowych dla Klientów Banku Spółdzielczego w Łęcznej.

POLITYKA PRYWATNOŚCI ORAZ POLITYKA PLIKÓW COOKIES W Sowa finanse

Polityka prywatności

II. PRZETWARZANIE DANYCH OSOBOWYCH:

INFORMATYKA Pytania ogólne na egzamin dyplomowy

1 Postanowienia ogólne

Indeksy w bazach danych. Motywacje. Techniki indeksowania w eksploracji danych. Plan prezentacji. Dotychczasowe prace badawcze skupiały się na

Wybrane działy Informatyki Stosowanej

Strona główna góra. Profesjonalny sklep internetowy

Polityka Prywatności i Cookies

Uniwersytet w Białymstoku Wydział Ekonomiczno-Informatyczny w Wilnie SYLLABUS na rok akademicki 2012/2013

Oknonet Warunki użytkowania POSTANOWIENIA OGÓLNE

Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych

POLITYKA PRYWATNOŚCI

N21mobile Polityka Cookies

Analiza zachowao użytkowników serwisów WWW. Zakres badao web miningowych

Polityka prywatności dla

POLITYKA PRYWATNOŚCI SKLEPU INTERNETOWEGO. RawDecor.pl

Asocjacyjna reprezentacja danych i wnioskowanie

Portal Security - ModSec Enterprise

POLITYKA PRYWATNOŚCI

Tomasz Karwatka Janmedia Interactive ecommerce w czym tkwi siła naszych rozwiązań

Instytut-Mikroekologii.pl

Serwis nie zbiera w sposób automatyczny żadnych informacji, z wyjątkiem informacji zawartych w plikach cookies.

Jarosław Kuchta Administrowanie Systemami Komputerowymi. Internetowe Usługi Informacyjne

procertum CLIDE Client 2.1 wersja 1.0.2

Data Mining Wykład 1. Wprowadzenie do Eksploracji Danych. Prowadzący. Dr inż. Jacek Lewandowski

AUTOMATYKA INFORMATYKA

INTERNETOWE BAZY DANYCH materiały pomocnicze - wykład XII

Strona główna- góra. Profesjonalny sklep internetowy

Data Mining Kopalnie Wiedzy

POLITYKA PRYWATNOŚCI SKLEPU INTERNETOWEGO panbogdan.pl

Analiza zachowao użytkowników serwisów WWW

Poradnik użytkownika systemu BibbyNet. Część I Konto użytkownika

POLITYKA PRYWATNOŚCI. I. Zasady polityki prywatności SKLEPU INTERNETOWEGO

Poniżej znajdą Państwo dalsze informacje na temat rodzajów używanych przez nas plików cookies. Rodzaj zbieranych danych. przechowywany plik cookie?

1 Ochrona Danych Osobowych

Sprawozdanie nr 4. Ewa Wojtanowska

INTEGRACJA z hurtownią Numoco

Zasady dotyczące plików cookie GALLO

Tematy projektów Edycja 2014

Polityka prywatności dla strony ELCEN Sp. z o.o. z siedzibą w Gdyni

Polityka prywatności w serwisie internetowym IPN

POLITYKA PRYWATNOŚCI SKLEPU INTERNETOWEGO MIRACULUM. Postanowienia ogólne

Sklep Internetowy (HTML/xHTML, CSS, JavaScript, PHP, MySQL)

Algorytmy odkrywania binarnych reguł asocjacyjnych

2. CEL I ZAKRES ZBIERANIA DANYCH ORAZ ODBIORCY DANYCH

Transkrypt:

Hurtownie danych Analiza zachowań użytkownika w Internecie Ewa Kowalczuk, Piotr Śniegowski Informatyka Wydział Informatyki Politechnika Poznańska 2 czerwca 2011

Wprowadzenie Jak zwiększyć zysk sklepu internetowego?

Wprowadzenie Poznanie cech i preferencji użytkowników dostosowanie sklepu architektura serwisu wygląd stron asortyment modyfikacje dynamiczne up-selling cross-selling wydajność serwisu

Wprowadzenie Data webhouse clickstream zapis aktywności użytkownika na stronie WWW Ralph Kimball

Źródła danych Logowanie zdarzeń Extented Log format adres IP klienta dane identyfikacyjne znacznik czasowy GET/POST kod odpowiedzi HTTP rozmiar odpowiedzi HTTP referrer user agent

Źródła danych Logowanie zdarzeń Extented Log format adres IP klienta dane identyfikacyjne znacznik czasowy GET/POST kod odpowiedzi HTTP rozmiar odpowiedzi HTTP referrer user agent warstwa serwera aplikacji dodanie produktu do koszyka wyszukanie słowa kluczowego porzucenie koszyka

Źródła danych Clickstream sessionisation bezstanowość protokołu HTTP adres IP + user agent

Źródła danych Clickstream sessionisation bezstanowość protokołu HTTP adres IP + user agent ciasteczka

Źródła danych Crawlery

Źródła danych Crawlery wyłączone obrazki pusty referrer robots.txt wyjątkowo szybkie przeglądanie stron przeszukiwanie wszerz / wzdłuż brak zakupu

Źródła danych Crawlery wyłączone obrazki pusty referrer robots.txt wyjątkowo szybkie przeglądanie stron przeszukiwanie wszerz / wzdłuż brak zakupu podążanie za niewidzialnymi linkami

Źródła danych Informacje o użytkowniku dane demograficzne przychód wiek płeć styl życia

Źródła danych Informacje o użytkowniku dane demograficzne przychód wiek płeć styl życia źródła danych formularze rejestracyjne

Źródła danych Informacje o użytkowniku dane demograficzne przychód wiek płeć styl życia źródła danych formularze rejestracyjne dane o kartach kredytowych spisy ludności county recorder offices

Schemat hurtowni

Analiza danych Metody analizy przetwarzanie OLAPowe reguły asocjacyjne wzorce sekwencji uczenie maszynowe drzewa decyzyjne sieci neuronowe klasyfikator Bayesowski clustering

Analiza danych Uczenie maszynowe Osoby wydające ponad 512$ to samotne kobiety w wieku 25-35 lat, zarabiające ponad 35000$ rocznie. kampanie ogólne bardzo tanie 2-3% skuteczności duża ilość poczty ryzyko zablokowania konta / odbierania reklam

Analiza danych Reguły asocjacyjne produkty często kupowane razem dynamiczna rekomendacja strony często odwiedzane razem połączenie odnośnikami pre-fetching pre-kompilacja

Analiza danych Wzorce sekwencji Użytkownik, który odwiedził stronę A, później E i C odwiedzi w kolejnych krokach stronę D.

Odkrywanie wzorców sekwencji Dane wejściowe użytkownik timestamp id produktu 001 1 3 002 1 2 001 2 9 002 3 3 002 4 4 002 4 6 002 4 7 003 5 3 003 5 5 003 5 7 004 5 3 005 6 9 004 7 4 004 7 7 004 8 9

Odkrywanie wzorców sekwencji 1. Sortowanie użytkownik sekwencja 001 (3)(9) 002 (2)(3)(467) 003 (357) 004 (3)(47)(9) 005 (9)

Odkrywanie wzorców sekwencji 2. Zbiory częste zbiór częsty liczba sekwencji wsparcie (> 0.3) kod 3 4 0.8 A 4 2 0.4 B 7 3 0.6 C 47 2 0.4 D 9 3 0.6 E

Odkrywanie wzorców sekwencji 3. Transformacja zbiór częsty kod 3 A 4 B 7 C 47 D 9 E oryginalna sekwencja zakodowana sekwencja (3)(9) (A)(E) (2)(3)(467) (A)(BCD) (357) (AC) (3)(47)(9) (A)(BCD)(E) (9) (E)

Odkrywanie wzorców sekwencji 4. Sekwencjonowanie Jeżeli sekwencja nie jest częsta, to żadna jej nadsekwencja nie jest częsta. (H)(B) nie jest częsta (H)(A)(B) nie jest częsta, (AH)(B) nie jest częsta.

Odkrywanie wzorców sekwencji 4. Sekwencjonowanie częste 3-sekwencje ABC ABD ACD BCD kandydujące 4-sekwencje ABCC ABCD ABDC ABDD ACDD BCDD częste 4-sekwencje ABCD

Odkrywanie wzorców sekwencji 5. Maksymalizacja zbiór częsty kod 3 A 4 B 7 C 47 D 9 E Sekwencja maksymalna to sekwencja, która nie zawiera się w żadnej innej sekwencji ze zbioru. sekwencja częsta wsparcie odkodowana sekwencja sekwencje maksymalne (A)(B) 0.4 (3)(4) (A)(C) 0.4 (3)(7) (A)(E) 0.4 (3)(9) (3)(9) (A)(D) 0.4 (3)(47) (3)(47)

Odkrywanie wzorców sekwencji Zastosowania ścieżka liczność main.jsp splash.jsp END 14622 main.jsp main.jsp 3731 main.jsp main.jsp main.jsp 790 main.jsp hot.jsp registration.jsp 303 product.jsp 289......

Podsumowanie Aplikowanie zmian ocena wzorców użyteczność możliwość podjęcia działań słowa kluczowe, które nie zostały znalezione liczność wstążka 1566 paseczki 1300 Emily 604 decoupage 529 biedronka 324 talerzyk 311 szkło 150

Podsumowanie Cykl życia hurtowni danych 1 analiza wymagań 2 projektowanie hurtowni 3 pobranie danych 4 przetwarzanie danych 5 wykorzystanie wyników analiz