Badanie internetu. NeWWWton Fizyka w sieci. Piotr Pohorecki, Anna Poręba Gemius SA



Podobne dokumenty
Raport oglądalności Krośnieńskiego Portalu Internetowego Październik 2010

Metoda pomiaru site-centric

Dzieci aktywne online. Urodzeni z myszką w ręku Często online, rzadziej offline Treści poszukiwane

Serwis Badanie profilu społeczno-demograficznego odwiedzających serwis. gemiusprofile Styczeń 2005

Trendy w I połowie 2011 Rynek internetowy w liczbach.

EXAMPLE CAMPAIGN Analiza skuteczności internetowej kampanii reklamowej

Idea badania - Metodologia. Raport z badania syndykatowego z wykorzystaniem danych site-centric

Biostatystyka, # 3 /Weterynaria I/

Wykładnicze grafy przypadkowe: teoria i przykłady zastosowań do analizy rzeczywistych sieci złożonych

Gemius SA - od kuchni!

Raport z badań popytu w komunikacji miejskiej w Elblągu w 2015

166 Wstęp do statystyki matematycznej

POMELO DO CELO. Analiza skuteczności internetowej kampanii reklamowej. Czas analizy:

W sieci małego świata od DNA po facebooka. Dr hab. Katarzyna Sznajd-Weron, prof. PWr.

REGULAMIN. Cookies. Co to są ciasteczka?

Warsztat nauczyciela: Badanie rzutu ukośnego

XXXI MARATON WARSZAWSKI Warszawa,

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

RAPORT POLSKI INTERNET 2009/2010. ul. Wołoska 7, budynek Mars, klatka D, II piętro Warszawa, tel. (0 22) , fax (0 22)

Regulaminy. Cookies. Polityka dotycząca Ciasteczek

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych. Wykład tutora na bazie wykładu prof. Marka Stankiewicza

Czas pracy nauczycieli w Europie

Podstawy opracowania wyników pomiarów z elementami analizy niepewności pomiarowych. Wykład tutora na bazie wykładu prof. Marka Stankiewicza

Sieci złożone. Modelarnia 2014/2015 Katarzyna Sznajd-Weron

FINLANDIA- CZAS PRACY SZKOŁY. Przerwa jesienna: (4 dni) Święta Ferie zimowe

Modelowanie sieci złożonych

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Metody Statystyczne. Metody Statystyczne.

Statystyki serwisu oraz profil użytkowników

Narzędzia statystyczne i ekonometryczne. Wykład 1. dr Paweł Baranowski

dr Sławomir Nałęcz Z-ca dyr. Dep. Badań Społecznych i Warunków Życia Główny Urząd Statystyczny

Statystyka matematyczna i ekonometria

Rozkłady statystyk z próby

Rozkład Gaussa i test χ2

Polityka bezpieczeństwa.

Wykorzystanie Internetu przez młodych Europejczyków

Statystyczne Metody Opracowania Wyników Pomiarów

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Rachunek Prawdopodobieństwa i Statystyka

Grafy Alberta-Barabasiego

Warsztaty metod fizyki teoretycznej

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

RYNEK ZBÓŻ. Biuro Analiz i Programowania ARR Nr 48/2013 TENDENCJE CENOWE. Ceny krajowe w skupie

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Metody badań w naukach ekonomicznych

PROGNOZOWANIE I SYMULACJE EXCEL 1 AUTOR: MARTYNA MALAK PROGNOZOWANIE I SYMULACJE EXCEL 1 AUTOR: MARTYNA MALAK

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

Detekcja motywów w złożonych strukturach sieciowych perspektywy zastosowań Krzysztof Juszczyszyn

Oświadczenie o plikach cookies

Wprowadzenie do analizy korelacji i regresji

LABORATORIUM Z FIZYKI

Strategie opieki nad osobami starszymi

SMOP - wykład. Rozkład normalny zasady przenoszenia błędów. Ewa Pawelec

Rachunek prawdopodobieństwa i statystyka - W 9 Testy statystyczne testy zgodności. Dr Anna ADRIAN Paw B5, pok407

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Konkurencyjność polskiej gospodarki na tle krajów unijnych

PDF created with FinePrint pdffactory Pro trial version

Zastosowanie Excela w matematyce

PARAMETRY, WŁAŚCIWOŚCI I FUNKCJE NIEZAWODNOŚCIOWE NAPOWIETRZNYCH LINII DYSTRYBUCYJNYCH 110 KV

Polityka Cookies. W razie dalszych pytań lub uwag, prosimy o kontakt za pośrednictwem naszej strony kontaktowej

KARTA INFORMACYJNA PRZEDMIOTU

3. Modele tendencji czasowej w prognozowaniu

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

SZCZEGÓŁOWY OPIS ZADANIA - BRIEF MEDIOWY

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

Media Regionalne na Podkarpaciu. Data opracowania: listopad 2012 Autor: Dział Badań i Analiz Media Regionalne Sp. z o.o

Dr Anna Miotk, PBI/UKSW. Generacje w internecie

III. ZMIENNE LOSOWE JEDNOWYMIAROWE

Analiza ilościowa w przetwarzaniu równoległym

Wykład 14. Testowanie hipotez statystycznych - test zgodności chi-kwadrat. Generowanie liczb losowych.

Prawdopodobieństwo geometryczne

PODSTAWOWE ROZKŁADY PRAWDOPODOBIEŃSTWA. Piotr Wiącek

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Umiejętności Polaków - wyniki Międzynarodowego Badania Kompetencji Osób Dorosłych PIAAC

METODY STATYSTYCZNE W BIOLOGII

Stosowanie ciasteczek (cookies)

zbieranie porządkowanie i prezentacja (tabele, wykresy) analiza interpretacja (wnioskowanie statystyczne)

Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)

Wykład 10 ( ). Testowanie hipotez w rodzinie rozkładów normalnych przypadek nieznanego odchylenia standardowego

EDUKACYJNA WARTOŚĆ DODANA

HARMONOGRAMY PRACY INSTRUKCJA OBSŁUGI

Zmienne losowe ciągłe i ich rozkłady

Rozkład zmiennej losowej Polega na przyporządkowaniu każdej wartości zmiennej losowej prawdopodobieństwo jej wystąpienia.

Symulacyjne metody wyceny opcji amerykańskich

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Radio Track. standard rynkowy. zarządzanie badaniem: KBR. realizacja Millward Brown

Statystyka matematyczna i ekonometria

Testowanie hipotez. Marcin Zajenkowski. Marcin Zajenkowski () Testowanie hipotez 1 / 25

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD EMPIRYCZNY

Z Wikipedii, wolnej encyklopedii.

Wykład 9 Wnioskowanie o średnich

RYNEK ZBÓŻ. Cena bez VAT Wg ZSRIR (MRiRW) r. Zmiana tyg. TENDENCJE CENOWE. Towar

Konferencja w sprawie zakazu handlu w niedziele

Wprowadzenie do. Dane o rynku, prognozy. Krzysztof Rosinski

SIGMA KWADRAT. Weryfikacja hipotez statystycznych. Statystyka i demografia CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

Sprawy organizacyjne

Strefa pokrycia radiowego wokół stacji bazowych. Zasięg stacji bazowych Zazębianie się komórek

ODRZUCANIE WYNIKÓW POJEDYNCZYCH POMIARÓW

Prognoza terminu sadzenia rozsady sałaty w uprawach szklarniowych. Janusz Górczyński, Jolanta Kobryń, Wojciech Zieliński

RYNEK ZBÓŻ. Biuro Analiz i Programowania ARR Nr 35/2015

Transkrypt:

Badanie internetu NeWWWton Fizyka w sieci Piotr Pohorecki, Anna Poręba Gemius SA

Krótko o nas: niezależna firma badawcza - lider badań internetu, usługi badawcze, analityczne i doradcze w zakresie internetu, obszar działalności Polska, Czechy, Słowacja, Litwa, Łotwa, Estonia, Ukraina, Węgry, Rosja, Rumunia, Dania, Austria, zespół: informatycy, matematycy, fizycy, socjolodzy, psycholodzy... 2 2

Zagadnienia: model internauty jak symulować zachowanie internautów? sieć bezskalowa jako model sieci www zmiana czasu w internecie przykład problemu badawczego 3 3

Model internauty Piotr Pohorecki 4Model internauty 4

Model internauty Wprowadzenie Założenia modelu Symulacja Weryfikacja wyników Podsumowanie 5Model internauty 5

Model internauty Wprowadzenie Identyfikacja użytkownika za pomocą pliku cookie. Problem niejednoznaczności: 1 użytkownik <-> wiele cookiesów (komputer w pracy, w domu, etc.) 1 cookie <-> wielu użytkowników (rodzinny komputer, kawiarenka, uczelnia) Rozwiązanie: model na poziomie pośrednim: użytkownik = przeglądarka (profil) Uwaga: w ustalonej chwili: 1 profil <-> 1 cookie Model zachowań internauty : dokonywanie wizyt, kasowanie ciasteczek (cookies). Testowany na jednej dużej witrynie. 6Model internauty 6

Model - założenia Profil wykonuje wizyty; podczas każdej wizyty może skasować cookie (nadawany jest nowy). Założenia modelu: 0) Populacja N profili. 1) Rozkład czasu pomiędzy wizytami: obserwacje pojawiają się przypadkowo => P(t)= l * Exp(-lt), gdzie l>0 l odwrotność średniego czasu pomiędzy wizytami występuje k*24h powtarzalność (pomijamy w modelu) l ~ Gamma(a,b) oznacza zróżnicowanie rozkładu profili (zróżnicowanie populacji) 7Model internauty 7

Rozkład czasu pomiędzy wizytami wykonanymi w 2006/2007 roku przez cookies urodzone w styczniu 2006/2007 częstość dla pierwszych 100 h 8Model internauty 8

Model założenia Założenia modelu: - cd. 2) Prawdopodobieństwo skasowania cookie maleje potęgowo wraz z wiekiem cookie, tzn. P(skas) = p/k c, gdzie: k wiek cookie rozumiany jako numer wizyty cookies a lub numer dnia życia cookie (z innymi p i c) 3) Ustalony przedział czasu, w którym parametry są stałe. Analiza danych w kontekście ad. 2: Ok. 60% cookies żyje nie dłużej niż 1h (wykonuje 1 wizytę) Średni czas życia 24 dni (7 wizyt) Odchylanie standardowe 65 dni (24 wizyty) duże! => często występują cookiesy żyjące bardzo krótko albo bardzo długo 9Model internauty 9

Rozkład czasu życia i prawdopodobieństwo skasowania cookie, według wieku wyrażonego liczbą wykonanych wizyt. Dane dla pierwszych 30 wizyt za 2006 i 2007 rok dla cookies urodzonych w styczniu 2006/2007. 10Model internauty 1 0

Symulacja Technicznie symulacja w C: N-krotnie powtarzana pętla: wybór profilu (losowanie l ~ Gamma(a,b) ) podpętla: losowanie czasu do kolejnej wizyty z rokładu Exp(l); sprawdzenie czy profil skasował cookiesa (pp. p/k c ) symulacja działania profilu przez dany czas (okienko czasowe tydzień, miesiąc) koniec podpętli; przejście do kolejnego profilu koniec symulacji 11Model internauty 1 1

Weryfikacja Charakterystyki modelowe (z symulacji) porównujemy z rzeczywistymi. Parametry N, a, b, p, c dobieramy tak, by uzyskać najlepszą zgodność. Dokładniej: stosujemy metodę momentów, a więc wybieramy takie parametry by: średni czas między wizytami w modelu = rzeczywistemu średni kwadrat czasu w modelu = rzeczywistemu średni liczba wizyt / cookies w modelu = rzeczywistej średni liczba wizyt w przedziale czasu w modelu = rzeczywistej Uzyskano dobrą zgodność, gdy okresem symulacji był tydzień. Dla miesiąca gorsza zgodność. Prawdopodobnie założenie o stałych parametrach przestaje obowiązywać dla długich okresów. 12Model internauty 1 2

Wyniki procedury symulacji dla dwóch badanych okresów 2006 3 tydzień VI miesiąc N 1680000 4900000 a 0,50 0,20 b 0,80 0,86 p 0,86 0,70 c 1,20 1,07 Charakterystyki model dane model dane średni czas pomiędzy wizytami (dni) 1,28 1,27 1,91 1,92 średnia kwadratów czasów pomiędzy wizytami (dni2) 2,13 2,14 8,23 10,4 średnia liczba wizyt / cookie 3,15 3,14 4,87 4,90 średnia kwadratów liczby wizyt / cookie 36,7 35,9 157 192 liczba wizyt (znane cookie) 7359820 7296834 34050737 33832357 13Model internauty 1 3 liczba cookies 2333268 2326595 6978114 6901849

Rozkład czasu między wizytami, 3 tydzień (z lewej) i VI miesić (z prawej) 14Model internauty 1 4

Rozkład liczby wizyt / cookie, fragment dla 50 wizyt; 3 tydzień (z lewej) i VI miesić (z prawej) 2006 15Model internauty 1 5

Podsumowanie Model próbą rozwiązania problemu kasowalności cookies. Kształt rozkładu Gamma(a,b) opisującego parametr l świadczy o bardzo silnym zróżnicowaniu populacji profili pod względem częstości wykonywania wizyt. Jest to zupełnie naturalne, są internauci bardzo często korzystający z internetu, ale są też tacy, którzy robią to sporadycznie. Lepsze wyniki dla krótszych okienek czasowych. Dla miesięcy dopasowanie rozkładów nieidealne. Prawdopodobnie parametry modelu ulegają zmianie w czasie. Potrzebne dalsze badania. Mogą pokazać ciekawe rzeczy! 16Model internauty 1 6

WWW jako sieć bezskalowa Anna Poręba 1 7 17

Sieci bezskalowe WWW jako sieć bezskalowa Badania i teorie topologii sieci WWW siecią bezskalową Inne przykłady Charakterystyka sieci bezskalowych Możliwości dalszych badań 1 8 18

Sieci bezskalowe Sieć losowa Paul Erdős i Alfréd Rényi (1959) - badania nad sieciami w komunikacji i naukach przyrodniczych Sieć losowa węzły połączone w sposób losowy Liczba połączeń dla wybranego węzła rozkład Poissona 1 9 19 Wszystkie węzły mają średnio tę samą liczbę połączeń

Sieci bezskalowe Świat jest mały Milgram (1967) Hipoteza: członkowie jakiejkolwiek dużej społeczności mogą być pokrewni sobie dzięki krótkim sieciom pośrednich znajomych Eksperyment: wysłanie listów przez pośredników do maklera w Bostonie 20% listów dotarło, średnio po sześciokrotnym przekazaniu kolejnym osobom Sześć stopni separacji 2 0 20 Liczba Erdősa

Sieci bezskalowe Scale-Free Networks Albert-László Barabási i Albert Réka (1998) Celem badania było utworzenie mapy sieci WWW Przyjęte założenie WWW to sieć losowa Okazało się, że sieć WWW nie ma własności sieci losowych istnieją węzły o ogromnej liczbie linków Liczba linków zgodnie z prawem potęgowym 2 1 21 Nowe węzły podłączają się do istniejących z prawdopodobieństwem proporcjonalnym do liczby posiadanych przez tamte linków

Sieci bezskalowe Inne przykłady Połączenia lotnicze Fizyczna struktura Internetu 2 2 22

Sieci bezskalowe Aktorzy Hollywood (Kevin Bacon hubem?) Metabolizm komórkowy Relacje seksualne 2 3 23

Sieci bezskalowe Sieć www jako sieć bez skali Charakterystyka Mała liczba węzłów połączonych z dużą liczbą innych (huby) Nie ma ograniczeń na liczbę połączeń Duża liczba węzłów posiadających małą liczbę linków Nowe węzły przyłączają się do już istniejących z prawdopodobieństwem proporcjonalnym do ilości już posiadanych przez nie linków 2 4 24

Sieci bezskalowe Sieć www jako sieć bez skali Charakterystyka Podatność na epidemie Odporne na losowe awarie węzłów Wrażliwe na skoordynowane ataki na huby Sieć bez skali Awaria losowych węzłów Atak na huby 2 5 25

Sieci bezskalowe Ruch w Internecie W badaniu gemiustraffic monitorujemy ok. 10 tysięcy polskich witryn. Możemy analizować generowany na nich ruch. Czy ruch na witrynie także poddaje się prawu potęgowemu? 2 6 26

Sieci bezskalowe Ruch w Internecie Liczba odsłon Skala logarytmiczna linia prosta 2 7 27

Zagadnienia Czy witryny o dużej liczbie linków generują duży ruch? Czy witryny na których jest duży ruch są wskazywane przez ogromną liczbę innych witryn? 2 8 Jak na ruch w sieci WWW wpływa emisja reklam, marketing portalu, itp.? 28

Zmiana czasu w Internecie Anna Poręba 2 9 29

Zmiana czasu Zmiana czasu w Internecie Każdej jesieni i wiosny następuje zmiana czasu Jak szybko Polacy przystosowują się do nowego czasu? Czym różni się jesienna zmiana czasu od wiosennej? 3 0 30

Zmiana czasu Metodologia: Analizie poddano liczbę odsłon dokonywanych na ok. 4 tys. polskich witryn należących do systemu gemiustraffic. Uwzględniono ruch generowany jedynie przez użytkowników łączących się z Internetem z obszaru Polski. Dane z 26-28 października porównano ze średnią z kilku odpowiednich dni tygodnia w październiku i listopadzie. Dane z 29-30 marca porównano ze średnią z kilku odpowiednich dni tygodnia w marcu i kwietniu. 100% stanowią wszystkie odsłony dokonane w ciągu doby. 3 1 31

Zmiana czasu Odwołanie czasu letniego Weekend 26-27 października - jesienna zmiana czasu. 27 października w nocy dokonano cofnięcia wskazówek zegara z godziny 3.00 na godzinę 2.00. 3 2 32

Zmiana czasu Wnioski: Internauci pozostali przy komputerze nieznacznie dłużej niż zazwyczaj W niedzielę 27 października rano zachowywali się w Internecie tak, jakby zmiany czasu w ogóle nie było Mniej więcej od godziny ósmej do południa zaobserowowano różnicę we wzroście ruchu wynoszącą dokładnie godzinę. Przykładowo, 27 października o godzinie 9.00 natężenie ruchu wynosi niemal dokładnie tyle, co w typową jesienną niedzielę o godzinie 10.00 - około 3,7% ruchu generowanego w trakcie doby W jesienne niedziele Polacy rozpoczynają dzień o tej godzinie, o której rzeczywiście chcą 3 3 33

Zmiana czasu Niedziela wieczorem - przesunięcie rzędu pół godziny Dostosowanie się do nowego czasu ma miejsce w pierwszy dzień roboczy po zmianie. Jak pokazuje wykres 3 - zaczęliśmy pracować tylko odrobinkę wcześniej niż zazwyczaj o tej porze, Natężenie ruchu w godzinach roboczych utrzymywało się na troszeczkę wyższym poziomie niż w przeciętny jesienny poniedziałek. 3 4 34

Zmiana czasu Wprowadzenie czasu letniego Jesienne przestawienie czasu Wiosenna zmiana czasu otrzymujemy jedną godzinę ponad plan. utrata jednej godziny. Zmiana na czas letni jest mniejszym problemem niż zmiana jesienna Opóźnienie jest mniejsze niż godzina 3 5 35 Część osób już pierwszego dnia po zmianie zaakceptowała nowy czas

Zmiana czasu Wyższa niż zazwyczaj aktywność użytkowników sieci w niedzielę wieczorem Być może duża aktywność internautów w niedzielny wieczór wzięła się stąd, że ruch rozłożony zazwyczaj na kilka godzin, skumulował się w krótszym czasie W poniedziałek pracę rozpoczynamy niemal tak jak zazwyczaj. 3 6 36

Podsumowanie: Przekrój zagadnień model internauty matematyczny model zjawiska fizycznego sieć bezskalowa wykorzystanie teorii przy planowaniu badań zmiana czasu w internecie przykład problemu badawczego 3 7 37

Dziękujemy za uwagę www.gemius.pl 3 8 38