Mikro- i makro-ewolucja sieci społecznych Mikołaj Morzy Agnieszka Ławrynowicz Instytut Informatyki Poznań, rok akademicki 2010/2011 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 1
O czym będzie ten wykład? Wprowadzenie do Web 2.0 Popularne sieci społeczne Modele powstawania sieci społecznych model preferencyjnego dołączania dołączanie przez społeczności pożar lasu Ewolucja sieci społecznych mikroewolucja sieci makroewolucja sieci (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 2
Web 2.0 Zmiana paradygmatu push vs pull filozofia i architekura społeczność treść generowana przez użytkowników źródło: wikipedia.org (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 3
Web 2.0 według Tima O'Reilly "Web 2.0 to rewolucja w przemyśle komputerowym spowodowana przejściem do postrzegania sieci Internet jako platformy, a także próba zrozumienia zasad odnoszenia sukcesów na tej platformie. Najważniejsza z owych zasad nakazuje budowę aplikacji wykorzystujących efekty sieciowe do samoulepszania się w miarę postępującego upowszechniania się aplikacji [ ]" Tim O'Reilly (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 4
Zasady Web 2.0 Wieczna wersja β Luźno powiązane niewielkie fragmenty Oprogramowanie ponad poziomem urządzenia Prawo zachowania niewielkich zysków Dane to nowy "Intel inside" Przekuj użytkowników w uczestników (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 5
Wybuchy aktywności http://www.youtube.com/watch?v=3ycz3zqk0a8 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 6
Popularne sieci społeczne social news (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 7
Popularne sieci społeczne social knowledge (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 8
Popularne sieci społeczne social bookmarking (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 9
Popularne sieci społeczne social networks (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 10
Definicje Sieć społeczna: struktura składająca się z encji połączonych jedną bądź wieloma relacjami. Encje tworzące sieć społeczną reprezentują osoby, grupy lub organizacje, natomiast relacje reprezentują zależności występujące w świecie rzeczywistym: przyjaźń, zaufanie, sympatię, nieufność, konflikt, handel, współwystępowanie, transmisję chorób, itp. Analiza sieci społecznych (ang. SNA, social network analysis): definiowanie i formalizowanie miar, których zadaniem jest uchwycenie charakteru interakcji między ludźmi, grupami i organizacjami, przy użyciu różnych cech, zasobów i relacji między węzłami analizowanej sieci. Co podlega analizie miary: średnica sieci, przepustowość, rozkład stopni wierzchołków, struktura społeczna, centralność cechy: dostępność, wzajemność, gęstość, przepływ, spójność, wpływ (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 11
Przykład SNA Analiza akademickiego klubu karate (Zachary, 1972) (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 12
Czy wybuchy da się przewidzieć? [ ] by studying the communication and movement of millions of individuals through the electronic records they left behind, like mobile phone records, we have found a huge degree of predictability of individual behavior. The measurements told us that to those familiar with our past, our future acts should rarely be a surprise. (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 13
Jak długie jest wybrzeże Anglii? B.Mandelbrot, How Long Is the Coast of Britain? Statistical Self-Similarity and Fractional Dimension Science, 1967 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 14
Zjawiska pozbawione skali http://www.dailymotion.pl/video/x3su4b_mandelbrot-fractal-zoom_creation (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 15
Problem pijanej mrówki Czy mrówka wróci do mrowiska? d=1: na pewno wróci d=2: może się zdarzyć, że nie wróci d=3: raczej nie wróci (66%) (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 16
Przykłady zjawisk bezskalowych wysyłanie wiadomości e-mail liczebność gmin w Polsce sieci kontaktów seksualnych cytowania artykułów naukowych liczba odwiedzin stron WWW częstość występowania nazwisk w Polsce rozprzestrzenianie się wirusów (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 17
Sieci bezskalowalne Najpopularniejszy typ sieci społecznych γ rozkład stopni wierzchołków P( k) k γ 2, 3 odporność na losowe awarie (do 80% węzłów) niski współczynnik grupowania praktycznie stała średnica sieci d ln ln n zjawisko "małych światów" (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 18
Model Barabási-Alberta Algorytm generowania losowych sieci generuje sieci o rozkładzie stopni wierzchołków P( k) k zakłada nieustanny wzrost sieci wykorzystuje mechanizm preferencyjnego dołączania ("rich get richer", autokataliza) średnia długość ścieżki współczynnik grupowania ln n l ln ln n C n 0.75 3 węzły są dodawane do sieci sekwencyjnie prawdopodobieństwo dołączenia do węzła v i p( v ) i = deg( vi ) deg( v j j ) (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 19
Makroewolucja sieci społecznych Błędne założenia modelu Barabási-Alberta założenie o stałym średnim stopniu wierzchołków założenie o powolnym wzroście średnicy sieci W rzeczywistości (Leskovec et al., 2005) sieci społeczne stają się z czasem bardziej gęste, tj. liczba krawędzi rośnie ponad-liniowo względem liczby węzłów α e( t) n( t) α 1,2 α=1 stały średni stopień wierzchołków α=2 stały procent wierzchołków dołączonych do danego wierzchołka średnica sieci maleje wraz ze wzrostem liczby węzłów (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 20
Makroewolucja - przykłady źródło: "Graphs over time ", Leskovec et al., KDD'05 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 21
Makroewolucja - przykłady źródło: "Graphs over time ", Leskovec et al., KDD'05 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 22
Makroewolucja - przykłady źródło: "Graphs over time ", Leskovec et al., KDD'05 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 23
Modele ewolucji sieci społecznych Community Guided Attachment prawd. utworzenia krawędzi średni stopień wierzchołka krawędzie i wierzchołki p( j, k) c h 1 c n = n log deg( ) b 1 c < 2 logb c e( t) n( t) b wady brak malejącej średnicy j k brak rozkładu potęgowego stopni wierzchołków (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 24
Modele ewolucji sieci społecznych Forest Fire Model analogie: pożar lasu, cytowania artykułów, stowarzyszenia parametry forward burning probability p backward burning ratio r 1. węzeł v wybiera losowo ambasadora a i tworzy krawędź 2. węzeł vwybiera xkrawędzi wchodzących i wychodzących z a(w stosunku 1/r) i tworzy do nich krawędzie, liczba krawędzi x jest losowana z rozkładu dwumianowego o 1 średniej (1 p) 3. węzeł vpowtarza krok (2) dla wszystkich węzłów a 1,,a x wybranych w kroku (2) (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 25
Modele ewolucji sieci społecznych (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 26
Mikroewolucja sieci społecznych W jaki sposób zachowanie indywidualnych węzłów wpływa na globalne cechy sieci? proces pojawiania się nowych węzłów proces inicjalizacji krawędzi proces wyboru krawędzi docelowej czas życia i aktywności węzłów (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 27
Przykładowe zbiory danych sieć T N E E b E Δ % ρ κ Flickr 621 584207 3554130 2594078 1475345 65.63 1.32 1.44 Delicious 292 203234 430707 348437 96387 27.66 1.15 0.81 Answers 121 598314 1834217 1067021 303858 23.36 1.25 0.92 LinkedIn 1294 7550955 30682028 30682028 15201596 49.55 1.14 1.04 T: liczba przedziałów czasowych N: liczba węzłów E: liczba krawędzi E b : liczba krawędzi wzajemnych E Δ : liczba krawędzi domykających trójkąty %: procent krawędzi domykających trójkąty ρ: wykładnik gęstnienia sieci ρ E( t) N( t) κ: wykładnik domykania odległych krawędzi E h exp( κh) (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 28
Pojawianie się węzłów w sieci Funkcja N( ) pojawiania się węzłów jest zależna od procesu społecznego formującego sieć sieć N(t) Flickr exp(0.25t) Delicious 16t 2 +3000t+40000 Answers LinkedIn -28t 2 +40000t-2500 3900t 2 +76000t- 130000 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 29
Jak chętnie wybierane są popularne węzły? Prawdopodobieństwo wyboru węzła v o stopniu d (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 30
Modele wyboru węzła Prawdopodobieństwo wyboru węzła v o stopniu d model D model DR model A model DA τ p( v) dt ( v) 1 p( v) τdt ( v) + (1 τ ) N( t) τ p( v) a ( v) t p( v) d ( v) a ( v) t t τ Dopasowanie modeli do rzeczywistych sieci Flickr: dołączanie preferencyjne, model D(τ=1) Delicious: dołączanie preferencyjno-losowe, model DR(τ=0.5) Answers: dołączanie preferencyjno-wiekowe, model DA(τ=0.4) LinkedIn: dołączanie preferencyjno-losowe, model DR(τ=0.9) (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 31
Czy aktywność węzła zależy od wieku? Aktywność węzła v o wieku a (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 32
Wiek węzłów i częstotliwość tworzenia krawędzi Czas życia węzłów najlepsze dopasowanie dla p l ( a) λ exp( λa) brak dopasowania dla węzłów o bardzo krótkim czasie życia Częstotliwość tworzenia krawędzi najlepsze dopasowanie dla α α (d) stałe, β (d) liniowo zależne p g ( δ ( d)) δ ( d) exp( βδ ( d)) całkowity brak korelacji między δ (1) a końcowym stopniem wierzchołka (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 33
Jak często wybierani są sąsiedzi? Liczba krawędzi utworzonych do węzłów w odległości h (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 34
Czy model "domykania trójek" jest poprawny? Prawdopodobieństwo utworzenia krawędzi do węzła w odległości h (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 35
Ogólny model mikroewolucji sieci społecznych 1. węzły pojawiają się zgodnie z funkcją N( ) 2. węzeł losuje czas życia az rozkładu p l ( a) = λ exp( λa) 3. węzeł dodaje pierwszą krawędź do węzła vproporcjonalnie do stopnia d(v) 4. węzeł losuje przerwę δz rozkładu p g δ i przechodzi w stan uśpienia na δkroków α ( d, α, β ) = δ exp( β d δ ) 5. po przebudzeniu, jeśli czas życia węzła jeszcze nie upłynął, węzeł tworzy krawędź domykającą trójkąt do węzła vw odległości 2 6. węzeł przechodzi do kroku (4) (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 36
Podsumowanie Rozwój wielu sieci społecznych zdradza daleko posunięte podobieństwa Nowe modele z dużą dokładnością odtwarzają rozwój rzeczywistych sieci społecznych modelowanie zjawisk lokalnych i globalnych w sieci modelowanie procesów społecznych zależnych od charakteru sieci społecznej Otwarte problemy rozprzestrzenianie się informacji w sieciach społecznych maksymalizacja wpływu w sieciach społecznych tworzenie się i ewolucja mikrogrup w sieciach społecznych (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 37