Wprowadzenie do analizy sieci społecznych



Podobne dokumenty
Centralność w sieciach społecznych. Radosław Michalski Social Network Group - kwiecień 2009

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

Teoria grafów dla małolatów. Andrzej Przemysław Urbański Instytut Informatyki Politechnika Poznańska

Ćwiczenie 3 ANALIZA SIECI SPOŁECZNYCH (SNA) W SIECI

Analiza sieci społecznych. Veslava Osińska

Analiza sieci przedsiębiorstw z wykorzystaniem metody SNA

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

TEORIA GRAFÓW I SIECI

Obszary strukturalne i funkcyjne mózgu

Grafy Alberta-Barabasiego

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Modelowanie sieci złożonych

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Mikro- i makro-ewolucja sieci społecznych

a) 7 b) 19 c) 21 d) 34

AiSD zadanie trzecie

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Algorytmy grafowe. Wykład 1 Podstawy teorii grafów Reprezentacje grafów. Tomasz Tyksiński CDV

Sieci: grafy i macierze. Sieci afiliacji. Analiza sieci społecznych. Najważniejsze pytania. Komunikatory internetowe

5c. Sieci i przepływy

Programowanie sieciowe. Tadeusz Trzaskalik

Przykład planowania sieci publicznego transportu zbiorowego

Programowanie obiektowe

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

MATEMATYKA DYSKRETNA - MATERIAŁY DO WYKŁADU GRAFY

Ogólne wiadomości o grafach

Algorytmy analizy skupień / Sławomir Wierzchoń, Mieczysław Kłopotek. wyd. 1, 1. dodr. (PWN). Warszawa, Spis treści

Algorytm Dijkstry znajdowania najkrótszej ścieżki w grafie

Matematyczne Podstawy Informatyki

Bazy danych TERMINOLOGIA

Matematyczne Podstawy Informatyki

Wymagania edukacyjne z informatyki w klasie IIIa gimnazjum

Matematyka dyskretna

Hierarchiczna analiza skupień

S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor

Algorytmy genetyczne

Programowanie obiektowe

Maksymalne zaangażowanie uwagi klienta

Bazy danych. Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. Wykład 3: Model związków encji.

Prawa potęgowe w grafach przepływu informacji dla geometrycznych sieci neuronowych

TEORIA GRAFÓW I SIECI

Agnieszka Kamińska, Dorota Ponczek. Matematyka na czasie Gimnazjum, klasa 3 Rozkład materiału i plan wynikowy

Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym

Suma dwóch grafów. Zespolenie dwóch grafów

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Wybrane podstawowe rodzaje algorytmów

WETI. Zastosowanie aplikacji WIKI w przetwarzaniu zespołowym. Anna Jaworska, Piotr Orłowski. Wstęp. Technologie

WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA

Generacja Y o mediach społecznościowych w miejscu pracy

TEMAT : Przykłady innych funkcji i ich wykresy.

Zofia Kruczkiewicz, Algorytmu i struktury danych, Wykład 14, 1

Diagram przypadków użycia

G. Wybrane elementy teorii grafów

Drzewa. Jeżeli graf G jest lasem, który ma n wierzchołków i k składowych, to G ma n k krawędzi. Własności drzew

Opis zmian w programie: Wersja

Sieci społeczne w blogosferze

Kamila Muraszkowska Znaczenie wąskich gardeł w sieciach białkowych. źródło: (3)

Przykłady grafów. Graf prosty, to graf bez pętli i bez krawędzi wielokrotnych.

Algorytmy Równoległe i Rozproszone Część V - Model PRAM II

MODELE SIECIOWE 1. Drzewo rozpinające 2. Najkrótsza droga 3. Zagadnienie maksymalnego przepływu źródłem ujściem

Nowe narzędzia zarządzania jakością

Grafem nazywamy strukturę G = (V, E): V zbiór węzłów lub wierzchołków, Grafy dzielimy na grafy skierowane i nieskierowane:

Porównanie aplikacji do tworzenia harmonogramów.

Co to jest grupowanie

Matematyczne Podstawy Informatyki

Routing. mgr inż. Krzysztof Szałajko

Algorytmy dynamiczne. Piotr Sankowski. - p. 1/14

Przepływy danych. Oracle Designer: Modelowanie przepływów danych. Diagramy przepływów danych (1) Diagramy przepływów danych (2)

Sieci obliczeniowe poprawny dobór i modelowanie

Bydgoskie Centrum Archiwizacji Cyfrowej sp. z o.o.

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Marketing, relacje i sieci spo eczne wyniki bada Facebooka

W sieci małego świata od DNA po facebooka. Dr hab. Katarzyna Sznajd-Weron, prof. PWr.

w ramach na rzecz rozwoju ICT studia podyplomowe

ShopGold Integrator by CTI. Instrukcja

Metody uporządkowania

Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych

Ewidencja licencji na oprogramowanie w SIST krótki przewodnik

Pojęcie bazy danych. Funkcje i możliwości.

MIGRATE OS TO SSD. Przewodnik

TEORETYCZNE PODSTAWY INFORMATYKI

Wymagania edukacyjne z informatyki dla klasy szóstej szkoły podstawowej.

PageRank i HITS. Mikołajczyk Grzegorz

Odkrywanie CAQDAS : wybrane bezpłatne programy komputerowe wspomagające analizę danych jakościowych / Jakub Niedbalski. Łódź, 2013.

SPOŁECZNOŚCI INTERNETOWE

ANALIZA SIECI SPOŁECZNYCH W ZARZĄDZANIU

ZESPÓŁ SZKÓŁ W OBRZYCKU

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

Workplace by Facebook. Twoja bezpieczna, firmowa sieć społecznościowa

TWORZENIE BLOKÓW I ATRYBUTÓW DLA PODANEGO PRZYKŁADU RYSUNKU ZESTAWIENIOWEGO. SPORZĄDZENIE LISTY ATRYBUTÓW

Scenariusz lekcji. podać definicję matematyczną grafu; wymienić podstawowe rodzaje grafów;

Wykładnicze grafy przypadkowe: teoria i przykłady zastosowań do analizy rzeczywistych sieci złożonych

SPÓJNOŚĆ. ,...v k. }, E={v 1. v k. i v k. ,...,v k-1. }. Wierzchołki v 1. v 2. to końce ścieżki.

1. Algorytmy przeszukiwania. Przeszukiwanie wszerz i w głąb.

Sieci Kohonena Grupowanie

Programowanie dynamiczne i algorytmy zachłanne

Czy istnieje zamknięta droga spaceru przechodząca przez wszystkie mosty w Królewcu dokładnie jeden raz?

Wykorzystanie algorytmów mrówkowych w dynamicznym problem

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Transkrypt:

Wprowadzenie do analizy sieci społecznych Mikołaj Morzy Agnieszka Ławrynowicz Instytut Informatyki Poznań, rok akademicki 2010/2011 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 1

Początki: analiza sieci Początki SNA sięgają zarównonauk społecznych, jak i ogólnych metod: analizy sieci i teorii grafów. Analiza sieci zajmuje się formułowaniem i rozwiązywaniem problemów wyrażonych za pomocą struktur sieciowych, reprezentowanych najczęściej w postaci grafów. Teoria grafów dostarcza abstrakcyjnych metod analizy grafów. W połączeniu z technikami wizualizacji i badania sieci tworzy podstawę analizy sieci społecznych (SNA). SNA to przede wszystkim specyficzna perspektywa analizy: skupienie się nie na indywidualnych jednostkach lub makrostrukturach, lecz związkachmiędzy jednostkami, grupami i instytucjami. (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 2

Początki: nauki społeczne Badanie społeczeństw zperspektywy sieciowej oznacza postrzeganie jednostek jako zanurzonych w sieci powiązań. Wytłumaczenia zachowań społecznych poszukuje się w strukturze sieci, zamiast w cechach osobniczych. Taka perspektywa nabiera szczególnego znaczenia w "usieciowionych społeczeństwach" Badania SNA w ramach nauk społecznych były historycznie przeprowadzane przede wszystkim przez matematyków, fizyków, informatyków, biologów (nauki o sieciach i grafach) Koncepcja wykorzystania powiązań między jednostkami nie jest nowa, ale dopiero nowe zbiory danych i nowe metody obliczeniowe umożliwiły zastosowanie SNA na wielką skalę. Socjogram przygotowywany przez Jacoba Moreno, genialnego amerykańskiego socjologa, który położył podwaliny pod SNA w latach 30-tych XX wieku (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 3

Wizualizacja w naukach społecznych Porównanie wzorców dyskusji na tematy polityczne Blogi http://www.blogpulse.com/papers/2005/adamicglanceblogwww.pdf fora dyskusyjne http://www.online-deliberation.net/conf2005/viewpaper.php?id=27&print=1 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 4

Początki: inne nauki SNA znajduje zastosowanieprzede wszystkim do badania struktur tworzonych przez ludzi, ale może być zastosowana także do badania innych zjawisk. Winformatyce SNA jest wykorzystywana do analizy przepływów informacji, badania struktur sieci WWW, itp. W biologii SNAzostała zaaplikowana do badania łańcuchów pokarmowych w różnych ekosystemach i przewidywania zmian w łańcuchach w odpowiedzi na zmiany w ekosystemach. http://www.searchengineposition.com/info/articles/bowtie.asp Teoria muszki, czyli propozycja wyjaśnienia przyczyn popularności niektórych odnośników w Sieci "Graph Structure of the Web", A.Broder et al., Computer Networks (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 5

SNA: zastosowania praktyczne Ekonomia: SNA jest wykorzystywana do analizy i poprawy kanałów komunikacji wewnątrz organizacji Policja: służby wywiadowcze i policja wykorzystują SNA do badania struktur siatek przestępczych i terrorystycznych Serwisy WWW: wiele serwisów wykorzystuje SNA do znajdowania rekomendacji linków i znajomych na podstawie FoaF Operatorzy telekomunikacyjni: korzystają z SNA do optymalizacji przepustowości i pojemności sieci Organizacje watchdog: badają ukryte powiązania między administracją, przemysłem i lobbystami Sieć powiązań między sprawcami zamachów z 11.07 Gradientowa wizualizacja ujawnia stopień bliskości między poszczególnymi aktorami. (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 6

Kiedy i po co korzystać z SNA? Do badania dowolnej struktury sieciowej lub w trakcie optymalizacji parametrów sieci (np. przepustowości lub szybkości rozprzestrzeniania się sygnału) Do wizualizacji danych w celu odkrycia niewidocznych struktur i wzorców w powiązaniach i związkach między aktorami Do badania skuteczności dyseminacji informacji w sieci Do analizy ilościowej sieci zachowanie i akcje poszczególnych aktorów jest często funkcją ich pozycji w sieci, a nie ról tradycyjnie przypisywanych do aktorów analiza ilościowa pozwala określić role pełnione przez węzły w sieci, w tym zidentyfikować najważniejszych aktorów, na których można skupić analizę jakościową (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 7

Podstawowe pojęcia sieci w jaki sposób modelować i reprezentować zjawiska w postaci sieci społecznych? powiązania w jaki sposób identyfikować silne i słabe punkty w sieci? gracze w jaki sposób znajdować najważniejsze lub najbardziej centralne węzły w sieci? spójność jak mierzyć "jakość" struktur sieciowych lub aktualnej konfiguracji? (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 8

Reprezentacja związków w postaci sieci B D A B C A C D Adam: Bartek, powiedz Cecylii że zapraszamy ich na obiad Bartek: Cecylia, przyjdź z mamą do nas na obiad Bartek: Pani Doroto, czy przyjdziecie do nas na obiad? Adam: Dorota, czy Bartek powiedział Ci o obiedzie? Koniecznie przyjdźcie! Cecylia: Mamo, jesteśmy zaproszone na obiad. Dorota: Dobrze Adam, na pewno wpadniemy. (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 9

Możliwe notacje grafów skierowanych A węzeł A A B węzeł B C C B B D macierz sąsiedztwa D C lista krawędzi C A B C D D A 1 1 0 B 0 1 1 C 0 0 0 D 0 0 1 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 10

A A Możliwe notacje grafów nieskierowanych C B B D graf skierowany kto z kim się kontaktuje? węzeł A A B B D węzeł B C C D C C graf nieskierowany kto kogo zna? D A B C D A 1 1 0 B 1 1 1 C 1 1 0 D 0 1 1 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 11

Sieci typu "ego" i sieci pełne pełna * sieć * w praktyce pełna sieć nigdy nie jest dostępna a analizie podlega wycinek sieci (problem demarkacji granic) (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 12

Podstawowe pojęcia sieci w jaki sposób modelować i reprezentować zjawiska w postaci sieci społecznych? powiązania w jaki sposób identyfikować silne i słabe punkty w sieci? gracze w jaki sposób znajdować najważniejsze lub najbardziej centralne węzły w sieci? spójność jak mierzyć "jakość" struktur sieciowych lub aktualnej konfiguracji? (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 13

Wagi krawędzi w grafach A 30 5 22 B węzeł węzeł waga A B 30 A C 5 B C 22 2 B D 2 C 37 D D C 37 lista krawędzi macierz sąsiedztwa A B C D wagi mogą reprezentować: częstotliwość interakcji liczbę wymienionych przedmiotów indywidualne odczucie siły przyjaźni koszt komunikacji (np. odległość) bardziej złożone relacje A 30 5 0 B 30 22 2 C 5 22 37 D 0 2 37 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 14

Wagi krawędzi jako siła związku Krawędzie reprezentują interakcję, przepływ informacji i dóbr, podobieństwo, afiliację, lub związki społeczne. Dla związków społecznych miarą siły powiązania może być: częstotliwość interakcji (np. komunikacji) lub wolumen przepływu (wymiana) wzajemność interakcji lub przepływu rodzaj interakcji lub przepływu atrybuty łączonych węzłów lub krawędzi (np. stopień pokrewieństwa) struktura sąsiedztwa łączonych węzłów (np. liczba wspólnych sąsiadów) Bezpośrednie badania (np. ankiety) pozwalają lepiej określić rodzaj i siłę związku, ale miary typu proxysą także bardzo użyteczne. (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 15

Homofilia silne Przechodniość kliki Homofilia, przechodniość i mosty związki Heterofilia słabe Mosty grupy Homofiliato tendencja do łączenia się z ludźmi o podobnych cechach (statusie, zainteresowaniach, przekonaniach, itp. ) homofiliaprowadzi do powstawania homogenicznych grup w których tworzenie związków jest łatwe homofiliamoże stanowić przeszkodę do wymiany informacji lub innowacji, heterofilia może być w wielu kontekstach pożądana Przechodniość jest cechą powiązań, istnienie związków między A i B oraz B i C sugeruje istnienie związku między A i C silne związki znacznie częściej są przechodnie niż słabe związki, istnienie przechodniości jest często wyraźnym sygnałem istnienia silnych związków przechodniość i homofiliaprowadzą do powstawania klik i pseudo-klik Mosty to węzły i krawędzie łączące różne grupy ułatwiają komunikację między grupami, zwiększają spójność, umożliwiają rozprzestrzenianie informacji i innowacji mostami są najczęściej słabe związki (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 16

Podstawowe pojęcia sieci w jaki sposób modelować i reprezentować zjawiska w postaci sieci społecznych? powiązania w jaki sposób identyfikować silne i słabe punkty w sieci? gracze w jaki sposób znajdować najważniejsze lub najbardziej centralne węzły w sieci? spójność jak mierzyć "jakość" struktur sieciowych lub aktualnej konfiguracji? (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 17

Stopień wierzchołka Stopniem wejściowym (ang. in-degree) lub wyjściowym(ang. out-degree) węzła nazywamy liczbę krawędzi wchodzących lub wychodzących z węzła (dla grafów nieskierowanych posługujemy się pojęciem stopnia wierzchołka) Centralność wg stopni wierzchołków często mierzy popularność lub wpływowość węzłów Centralność wg stopni wierzchołków jest użyteczna do określania, które węzły są kluczowe z punktu widzenia rozprzestrzeniania informacji lub wpływania na węzły położone w bezpośrednim sąsiedztwie. (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 18

Ścieżki i najkrótsze ścieżki Ścieżką (ang. path) między dwoma węzłami nazywamy dowolną sekwencję unikalnych węzłów łączącą dane dwa węzły Najkrótszą ścieżką między dwoma węzłami nazywamy ścieżkę o najmniejszej liczbie krawędzi. Liczbę krawędzi nazywamy odległością(ang. distance) między węzłami najkrótsze ścieżki <1,2,4> i <1,3,4> inne ścieżki: <1,2,5,3,4> lub <1,3,5,2,4> Krótkie ścieżki są często pożądaną własnością sieci (np. w przypadku maksymalizacji prędkości komunikacji), istnieją też sieci, w których pożądane są długie ścieżki (np. w przypadku sieci transmisji chorób zakaźnych) (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 19

Pośrednictwo Pośrednictwem(ang. betweeness) węzła v nazywamy stosunek liczby najkrótszych ścieżek między dowolnymi dwoma węzłami przechodzących przez węzeł vdo łącznej liczby wszystkich najkrótszych ścieżek Czasami pośrednictwo jest normalizowane w taki sposób, aby maksymalne pośrednictwo w sieci wynosiło 1 Pośrednictwo wskazuje, które węzły są najważniejsze z punktu widzenia komunikacji między węzłami Węzły o dużym pośrednictwie mogą być punktami utraty spójności sieci (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 20

Bliskość Bliskością(ang. closeness) węzła v nazywamy średnią długość najkrótszych ścieżek między węzłem v i wszystkimi pozostałymi węzłami (innymi słowy jest to oczekiwana odległość między węzłem v i dowolnym innym węzłem) Bliskość jest miarą zasięgu(ang. reach) danego węzła, tj. miarą czasu, jaki jest potrzebny, aby z danego węzła dotrzeć do innych węzłów miara przydatna w sytuacji gdy podstawowym kryterium jest prędkość rozchodzenia się informacji niskie wartości są pożądane w przypadku gdy celem jest minimalizacja czasu propagacji informacji (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 21

Wektor własny węzła Wartość wektora własnego węzła (ang. eigenvector) jest proporcjonalna do wartości wektorów własnych węzłów, z którymi dany węzeł jest bezpośrednio połączony Wektor własny węzła określa względną ważność węzła w sieci wersją tej miary jest algorytm PageRank miara wektora własnego informuje, które węzły są powiązane z najbardziej powiązanymi węzłami (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 22

Interpretacja podanych miar centralności stopień Jak wielu ludzi może skontaktować się daną osobą? Z iloma ludźmi dana osoba może się skontaktować? pośrednictwo bliskość Jakie jest prawdopodobieństwo, że dana osoba jest kluczowa dla przepływu informacji między dowolnymi dwoma innymi osobami? Jak szybko dana osoba może się skomunikować z wszystkimi pozostałymi osobami w sieci? wektor własny Jak dobrze połączona jest dana osoba? (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 23

Interpretacje praktyczne stopień Muzyka: z iloma muzykami dany muzyk sesyjny współpracował podczas nagrywania płyt? pośrednictwo Wywiad: kto jest ogniwem w siatce szpiegowskiej, przez które przechodzi najwięcej tajnych informacji? bliskość Epidemiologia: jeśli ta osoba jest nosicielem choroby, jak szybko rozprzestrzeni się dana choroba? wektor własny Nauka: kto jest autorem/kąartykułów, które były najchętniej cytowane przez luminarzy? (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 24

Identyfikacja najważniejszych aktorów w sieci W przedstawionej obok sieci węzłem o najwyższym stopniu jest węzeł 10 Węzły 3 i 5 mają łącznie większy stopień niż węzeł 10, dodatkowo, łącze między nimi jest krytyczne dla spójności sieci Pod wieloma względami węzły 3 i 5 są "ważniejsze" z punktu widzenia funkcjonowania sieci niż węzeł 10 (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 25

Podstawowe pojęcia sieci w jaki sposób modelować i reprezentować zjawiska w postaci sieci społecznych? powiązania w jaki sposób identyfikować silne i słabe punkty w sieci? gracze w jaki sposób znajdować najważniejsze lub najbardziej centralne węzły w sieci? spójność jak mierzyć "jakość" struktur sieciowych lub aktualnej konfiguracji? (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 26

Wzajemność Wzajemność(ang. reciprocity) to stosunek związków zwrotnych do liczby wszystkich związków występujących w sieci Interpretacja konkretnej wartości miary wzajemności jest silnie zależna od kontekstu analizy wzajemność = 0.4 Wzajemność jest użyteczną miarą obopólności wymiany informacji w sieci, która z kolei jest popularnie wykorzystywaną miarą spoistości sieci. Wzajemność jest zdefiniowana jedynie w grafach skierowanych (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 27

Gęstość związek istniejący związek potencjalny Gęstość(ang. density) sieci to stosunek liczby istniejących związków w sieci do liczby wszystkich potencjalnych związków w sieci (który wynosi n*(n-1) / 2 dla liczby wierzchołków n w grafie nieskierowanym) gęstość = 5/6 = 0.83 Gęstość to popularna miara kompletności sieci, lub stopnia usieciowieniasieci (przykładowo, klika ma gęstość 1) wzajemność sieci = 0.4 gęstość = 5/12 = 0.42 Graf skierowany jest scharakteryzowany dwukrotnie mniejszą gęstością niż odpowiadający mu graf nieskierowany Gęstość jest użyteczną miarą kontrolną gdy ta sama analiza jest przeprowadzana dla różnych obszarów sieci (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 28

Współczynnik grupowania Współczynnik grupowania (ang. clustering coefficient) dla danego węzła jest gęstością bezpośredniego sąsiedztwa danego węzła, gdzie sąsiedztwo jest zdefiniowane jako zbiór wszystkich węzłów bezpośrednio powiązanych z danym węzłem Współczynnik grupowania dla całej sieci jest średnią współczynników grupowania wszystkich węzłów wchodzących w skład sieci współczynnik grupowania = 0.31 Algorytmy grupowania próbują maksymalizować współczynnik grupowania sieci. Celem algorytmów grupowania jest odkrywanie wspólnot i społeczności w ramach sieci (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 29

Średnica, największa i najmniejsza odległość Średnicąsieci (ang. diameter) nazywamy długość najdłuższej spośród najkrótszych ścieżek łączących dowolne dwa węzły w sieci Średnica sieci jest często bardziej znaczącym parametrem (szczególnie jeśli chodzi o propagację informacji w sieci) niż liczba węzłów lub liczba krawędzi rzadkie sieci charakteryzują się za zwyczaj większą średnicą sieci bezskalowe posiadają relatywnie małe średnice Alternatywą dla średnicy sieci jest średnia odległość między węzłami (średnia najkrótszych ścieżek między wszystkimi parami węzłów) (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 30

Zjawisko małych światów lokalna grupa most Zjawisko małych światów (ang. small world phenomenon) występuje w sieciach, które w pierwszej chwili wyglądają na losowe, ale charakteryzują się dwoma cechami: posiadają stosunkowo wysoką wartość współczynnika grupowania (węzły tworzą lokalnie gęste grupy) posiadają niewielką średnicę i niewielką średnią odległość między węzłami (każdy węzeł może być osiągnięty w kilku krokach) F.Karinthy, "Everything is different", 1929 M.Gurevich, M.Kochen, 1961 S.Milgram, "The Small World Problem", 1967 D.Watts, e-mail network, 2001 J.Leskovec, E. Horvitz, MS Messenger, 2006 "Six Degrees of Kevin Bacon" Zjawisko małych światów jest bardzo częste w sieciach społecznych ze względu na przechodniość silnych związków i tendencję słabych związków do tworzenia mostów (które skracają średnią odległość między węzłami) (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 31

Preferencyjne dołączanie Zjawisko preferencyjnego dołączania (ang. preferentialattachement) polega na tym, że w trakcie życia sieci nowe związki dotyczą węzłów, które posiadają wysoki stopień w wyniku powstaje sieć, w której niewielka liczba węzłów ma bardzo wysoki stopień a większość węzłów ma bardzo niski stopień sieci posiadające tę własność charakteryzują się potęgowym rozkładem stopni wierzchołków preferencyjne dołączanie zazwyczaj skutkuje pojawieniem się zjawiska małych światów Powody występowania preferencyjnego dołączania mogą być różne: popularność jakość model mieszany (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 32

Struktury jądra i struktury peryferyjne Wygodną metryką stopnia scentralizowania sieci jest miara centralizacji (ang. centralization) wyliczenie centralizacji sieci odbywa się na podstawie różnicy stopni wierzchołków scentralizowane sieci posiadają większość związków do wybranych węzłów, takie sieci są przydatne do rozwiązywania wielu problemów (szczególnie problemów wymagających koordynacji), ale są dużo bardziej zawodne i narażone na ataki niż sieci zdecentralizowane węzły w jądrze jądro Poza centralizacją wiele sieci posiada spójne silnie powiązane jądro zawierające odnośniki do struktur peryferyjnych jądro może być znalezione na podstawie analizy wizualnej czy analizy rozkładu stopni wierzchołków struktury peryferyjne (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 33

Samodzielna analiza sieci (1/3) uruchom TouchGraph Facebook Browser(http://apps.facebook.com/touchgraph) upewnij się, że zaznaczyłaś(eś) wystarczającą liczbę znajomych starannie zbadaj wynikową sieć sprawdź rankingi znajomych oraz ich pozycję w sieci, zbadaj znalezione grupy i ich cechy charakterystyczne, postaraj się znaleźć silne i słabe związki w sieci, oceń ogólną strukturę sieci http://www.touchgraph.com/tggooglebrowser.html (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 34

Samodzielna analiza sieci (2/3) uruchom NameGenWeb(http://apps.facebook.com/namegenweb) wybierz format UCInet eksportu danych zapisz dane na dysku uruchom MS Excel i otwórz wygenerowany plik w automatycznie otwartym kreatorze importu plików tekstowych wskaż, że plik jest rozdzielony za pomocą znaku spacji w wynikowym pliku zauważ, że najpierw znajduje się lista węzłów, a następnie lista krawędzi zaznacz wszystkie krawędzie i skopiuj do schowka dołącz do utworzonej na Facebookugrupy "Technologie semantyczne i sieci społecznościowe (TSiSS)" wystarczy poszukać TSiSS co tydzień wykonaj zrzut aktualnej struktury Twojej sieci egocentrycznej na koniec semestru przygotuj opracowanie pokazujące trend zmian (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 35

Samodzielna analiza sieci (3/3) pobierz i zainstaluj program NodeXL(http://nodexl.codeplex.com) uruchom Microsoft NodeXL Excel 2007 Template zaznacz pierwszą komórkę w arkuszu i skopiuj do niej listę krawędzi wygenerowaną w poprzednim kroku wybierz menu NodeXL PrepareData Get VerticesfromEdge List wybierz menu NodeXL Graph Metrics i wylicz wszystkie miary wygeneruj graf, zbadaj jego własności, sprawdź działanie filtrów (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 36

Inne programy do analizy sieci społecznych Na rynku jest dostępnych wiele narzędzi do analizy sieci społecznościowych. Często narzędzia te są trudne w obsłudze, mało intuicyjne, oraz wymagają wiedzy eksperckiej. Pajek http://vlado.fmf.uni-lj.si/pub/networks/pajek/ UCInet http://www.analytictech.com/ucinet/ NetDraw http://www.analytictech.com/netdraw/netdraw.htm GUESS http://graphexploration.cond.org/ wiele pakietów do systemu R pełna lista: http://en.wikipedia.org/wiki/social_network_analysis_software (c) Mikołaj Morzy, Agnieszka Ławrynowicz, Instytut Informatyki Politechniki Poznańskiej TSiSS 37