Badanie internetu NeWWWton Fizyka w sieci Piotr Pohorecki, Anna Poręba Gemius SA
Krótko o nas: niezależna firma badawcza - lider badań internetu, usługi badawcze, analityczne i doradcze w zakresie internetu, obszar działalności Polska, Czechy, Słowacja, Litwa, Łotwa, Estonia, Ukraina, Węgry, Rosja, Rumunia, Dania, Austria, zespół: informatycy, matematycy, fizycy, socjolodzy, psycholodzy... 2 2
Zagadnienia: model internauty jak symulować zachowanie internautów? sieć bezskalowa jako model sieci www zmiana czasu w internecie przykład problemu badawczego 3 3
Model internauty Piotr Pohorecki 4Model internauty 4
Model internauty Wprowadzenie Założenia modelu Symulacja Weryfikacja wyników Podsumowanie 5Model internauty 5
Model internauty Wprowadzenie Identyfikacja użytkownika za pomocą pliku cookie. Problem niejednoznaczności: 1 użytkownik <-> wiele cookiesów (komputer w pracy, w domu, etc.) 1 cookie <-> wielu użytkowników (rodzinny komputer, kawiarenka, uczelnia) Rozwiązanie: model na poziomie pośrednim: użytkownik = przeglądarka (profil) Uwaga: w ustalonej chwili: 1 profil <-> 1 cookie Model zachowań internauty : dokonywanie wizyt, kasowanie ciasteczek (cookies). Testowany na jednej dużej witrynie. 6Model internauty 6
Model - założenia Profil wykonuje wizyty; podczas każdej wizyty może skasować cookie (nadawany jest nowy). Założenia modelu: 0) Populacja N profili. 1) Rozkład czasu pomiędzy wizytami: obserwacje pojawiają się przypadkowo => P(t)= l * Exp(-lt), gdzie l>0 l odwrotność średniego czasu pomiędzy wizytami występuje k*24h powtarzalność (pomijamy w modelu) l ~ Gamma(a,b) oznacza zróżnicowanie rozkładu profili (zróżnicowanie populacji) 7Model internauty 7
Rozkład czasu pomiędzy wizytami wykonanymi w 2006/2007 roku przez cookies urodzone w styczniu 2006/2007 częstość dla pierwszych 100 h 8Model internauty 8
Model założenia Założenia modelu: - cd. 2) Prawdopodobieństwo skasowania cookie maleje potęgowo wraz z wiekiem cookie, tzn. P(skas) = p/k c, gdzie: k wiek cookie rozumiany jako numer wizyty cookies a lub numer dnia życia cookie (z innymi p i c) 3) Ustalony przedział czasu, w którym parametry są stałe. Analiza danych w kontekście ad. 2: Ok. 60% cookies żyje nie dłużej niż 1h (wykonuje 1 wizytę) Średni czas życia 24 dni (7 wizyt) Odchylanie standardowe 65 dni (24 wizyty) duże! => często występują cookiesy żyjące bardzo krótko albo bardzo długo 9Model internauty 9
Rozkład czasu życia i prawdopodobieństwo skasowania cookie, według wieku wyrażonego liczbą wykonanych wizyt. Dane dla pierwszych 30 wizyt za 2006 i 2007 rok dla cookies urodzonych w styczniu 2006/2007. 10Model internauty 1 0
Symulacja Technicznie symulacja w C: N-krotnie powtarzana pętla: wybór profilu (losowanie l ~ Gamma(a,b) ) podpętla: losowanie czasu do kolejnej wizyty z rokładu Exp(l); sprawdzenie czy profil skasował cookiesa (pp. p/k c ) symulacja działania profilu przez dany czas (okienko czasowe tydzień, miesiąc) koniec podpętli; przejście do kolejnego profilu koniec symulacji 11Model internauty 1 1
Weryfikacja Charakterystyki modelowe (z symulacji) porównujemy z rzeczywistymi. Parametry N, a, b, p, c dobieramy tak, by uzyskać najlepszą zgodność. Dokładniej: stosujemy metodę momentów, a więc wybieramy takie parametry by: średni czas między wizytami w modelu = rzeczywistemu średni kwadrat czasu w modelu = rzeczywistemu średni liczba wizyt / cookies w modelu = rzeczywistej średni liczba wizyt w przedziale czasu w modelu = rzeczywistej Uzyskano dobrą zgodność, gdy okresem symulacji był tydzień. Dla miesiąca gorsza zgodność. Prawdopodobnie założenie o stałych parametrach przestaje obowiązywać dla długich okresów. 12Model internauty 1 2
Wyniki procedury symulacji dla dwóch badanych okresów 2006 3 tydzień VI miesiąc N 1680000 4900000 a 0,50 0,20 b 0,80 0,86 p 0,86 0,70 c 1,20 1,07 Charakterystyki model dane model dane średni czas pomiędzy wizytami (dni) 1,28 1,27 1,91 1,92 średnia kwadratów czasów pomiędzy wizytami (dni2) 2,13 2,14 8,23 10,4 średnia liczba wizyt / cookie 3,15 3,14 4,87 4,90 średnia kwadratów liczby wizyt / cookie 36,7 35,9 157 192 liczba wizyt (znane cookie) 7359820 7296834 34050737 33832357 13Model internauty 1 3 liczba cookies 2333268 2326595 6978114 6901849
Rozkład czasu między wizytami, 3 tydzień (z lewej) i VI miesić (z prawej) 14Model internauty 1 4
Rozkład liczby wizyt / cookie, fragment dla 50 wizyt; 3 tydzień (z lewej) i VI miesić (z prawej) 2006 15Model internauty 1 5
Podsumowanie Model próbą rozwiązania problemu kasowalności cookies. Kształt rozkładu Gamma(a,b) opisującego parametr l świadczy o bardzo silnym zróżnicowaniu populacji profili pod względem częstości wykonywania wizyt. Jest to zupełnie naturalne, są internauci bardzo często korzystający z internetu, ale są też tacy, którzy robią to sporadycznie. Lepsze wyniki dla krótszych okienek czasowych. Dla miesięcy dopasowanie rozkładów nieidealne. Prawdopodobnie parametry modelu ulegają zmianie w czasie. Potrzebne dalsze badania. Mogą pokazać ciekawe rzeczy! 16Model internauty 1 6
WWW jako sieć bezskalowa Anna Poręba 1 7 17
Sieci bezskalowe WWW jako sieć bezskalowa Badania i teorie topologii sieci WWW siecią bezskalową Inne przykłady Charakterystyka sieci bezskalowych Możliwości dalszych badań 1 8 18
Sieci bezskalowe Sieć losowa Paul Erdős i Alfréd Rényi (1959) - badania nad sieciami w komunikacji i naukach przyrodniczych Sieć losowa węzły połączone w sposób losowy Liczba połączeń dla wybranego węzła rozkład Poissona 1 9 19 Wszystkie węzły mają średnio tę samą liczbę połączeń
Sieci bezskalowe Świat jest mały Milgram (1967) Hipoteza: członkowie jakiejkolwiek dużej społeczności mogą być pokrewni sobie dzięki krótkim sieciom pośrednich znajomych Eksperyment: wysłanie listów przez pośredników do maklera w Bostonie 20% listów dotarło, średnio po sześciokrotnym przekazaniu kolejnym osobom Sześć stopni separacji 2 0 20 Liczba Erdősa
Sieci bezskalowe Scale-Free Networks Albert-László Barabási i Albert Réka (1998) Celem badania było utworzenie mapy sieci WWW Przyjęte założenie WWW to sieć losowa Okazało się, że sieć WWW nie ma własności sieci losowych istnieją węzły o ogromnej liczbie linków Liczba linków zgodnie z prawem potęgowym 2 1 21 Nowe węzły podłączają się do istniejących z prawdopodobieństwem proporcjonalnym do liczby posiadanych przez tamte linków
Sieci bezskalowe Inne przykłady Połączenia lotnicze Fizyczna struktura Internetu 2 2 22
Sieci bezskalowe Aktorzy Hollywood (Kevin Bacon hubem?) Metabolizm komórkowy Relacje seksualne 2 3 23
Sieci bezskalowe Sieć www jako sieć bez skali Charakterystyka Mała liczba węzłów połączonych z dużą liczbą innych (huby) Nie ma ograniczeń na liczbę połączeń Duża liczba węzłów posiadających małą liczbę linków Nowe węzły przyłączają się do już istniejących z prawdopodobieństwem proporcjonalnym do ilości już posiadanych przez nie linków 2 4 24
Sieci bezskalowe Sieć www jako sieć bez skali Charakterystyka Podatność na epidemie Odporne na losowe awarie węzłów Wrażliwe na skoordynowane ataki na huby Sieć bez skali Awaria losowych węzłów Atak na huby 2 5 25
Sieci bezskalowe Ruch w Internecie W badaniu gemiustraffic monitorujemy ok. 10 tysięcy polskich witryn. Możemy analizować generowany na nich ruch. Czy ruch na witrynie także poddaje się prawu potęgowemu? 2 6 26
Sieci bezskalowe Ruch w Internecie Liczba odsłon Skala logarytmiczna linia prosta 2 7 27
Zagadnienia Czy witryny o dużej liczbie linków generują duży ruch? Czy witryny na których jest duży ruch są wskazywane przez ogromną liczbę innych witryn? 2 8 Jak na ruch w sieci WWW wpływa emisja reklam, marketing portalu, itp.? 28
Zmiana czasu w Internecie Anna Poręba 2 9 29
Zmiana czasu Zmiana czasu w Internecie Każdej jesieni i wiosny następuje zmiana czasu Jak szybko Polacy przystosowują się do nowego czasu? Czym różni się jesienna zmiana czasu od wiosennej? 3 0 30
Zmiana czasu Metodologia: Analizie poddano liczbę odsłon dokonywanych na ok. 4 tys. polskich witryn należących do systemu gemiustraffic. Uwzględniono ruch generowany jedynie przez użytkowników łączących się z Internetem z obszaru Polski. Dane z 26-28 października porównano ze średnią z kilku odpowiednich dni tygodnia w październiku i listopadzie. Dane z 29-30 marca porównano ze średnią z kilku odpowiednich dni tygodnia w marcu i kwietniu. 100% stanowią wszystkie odsłony dokonane w ciągu doby. 3 1 31
Zmiana czasu Odwołanie czasu letniego Weekend 26-27 października - jesienna zmiana czasu. 27 października w nocy dokonano cofnięcia wskazówek zegara z godziny 3.00 na godzinę 2.00. 3 2 32
Zmiana czasu Wnioski: Internauci pozostali przy komputerze nieznacznie dłużej niż zazwyczaj W niedzielę 27 października rano zachowywali się w Internecie tak, jakby zmiany czasu w ogóle nie było Mniej więcej od godziny ósmej do południa zaobserowowano różnicę we wzroście ruchu wynoszącą dokładnie godzinę. Przykładowo, 27 października o godzinie 9.00 natężenie ruchu wynosi niemal dokładnie tyle, co w typową jesienną niedzielę o godzinie 10.00 - około 3,7% ruchu generowanego w trakcie doby W jesienne niedziele Polacy rozpoczynają dzień o tej godzinie, o której rzeczywiście chcą 3 3 33
Zmiana czasu Niedziela wieczorem - przesunięcie rzędu pół godziny Dostosowanie się do nowego czasu ma miejsce w pierwszy dzień roboczy po zmianie. Jak pokazuje wykres 3 - zaczęliśmy pracować tylko odrobinkę wcześniej niż zazwyczaj o tej porze, Natężenie ruchu w godzinach roboczych utrzymywało się na troszeczkę wyższym poziomie niż w przeciętny jesienny poniedziałek. 3 4 34
Zmiana czasu Wprowadzenie czasu letniego Jesienne przestawienie czasu Wiosenna zmiana czasu otrzymujemy jedną godzinę ponad plan. utrata jednej godziny. Zmiana na czas letni jest mniejszym problemem niż zmiana jesienna Opóźnienie jest mniejsze niż godzina 3 5 35 Część osób już pierwszego dnia po zmianie zaakceptowała nowy czas
Zmiana czasu Wyższa niż zazwyczaj aktywność użytkowników sieci w niedzielę wieczorem Być może duża aktywność internautów w niedzielny wieczór wzięła się stąd, że ruch rozłożony zazwyczaj na kilka godzin, skumulował się w krótszym czasie W poniedziałek pracę rozpoczynamy niemal tak jak zazwyczaj. 3 6 36
Podsumowanie: Przekrój zagadnień model internauty matematyczny model zjawiska fizycznego sieć bezskalowa wykorzystanie teorii przy planowaniu badań zmiana czasu w internecie przykład problemu badawczego 3 7 37
Dziękujemy za uwagę www.gemius.pl 3 8 38