Sieci: grafy i macierze. Sieci afiliacji. Analiza sieci społecznych. Najważniejsze pytania. Komunikatory internetowe



Podobne dokumenty
Modelowanie sieci złożonych

Jan M. Zając (UW / SmartNet) Zespół: Dominik Batorski, Paweł Kucharski

Gadu-Gadu i sieci społeczne

Grafy Alberta-Barabasiego

Sieci społeczne w blogosferze

Wykładnicze grafy przypadkowe: teoria i przykłady zastosowań do analizy rzeczywistych sieci złożonych

Jak złowić klienta? Analiza sieci społecznych jako nowe narzędzie badań marketingowych

Kontekstowe wskaźniki efektywności nauczania - warsztaty

Obszary strukturalne i funkcyjne mózgu

Testowanie hipotez statystycznych

STATYSTYKA MATEMATYCZNA

Ćwiczenie 3 ANALIZA SIECI SPOŁECZNYCH (SNA) W SIECI

Sieci złożone. Modelarnia 2014/2015 Katarzyna Sznajd-Weron

Statystyki teoriografowe grafów funkcjonalnych w sieciach neuronowych

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

MODELE LINIOWE. Dr Wioleta Drobik

Model EWD dla II etapu edukacyjnego.

Inteligentna analiza danych

Zarządzanie populacjami zwierząt. Parametry genetyczne cech

Analiza składowych głównych. Wprowadzenie

Algorytmy mrówkowe (optymalizacja kolonii mrówek, Ant Colony optimisation)

W sieci małego świata od DNA po facebooka. Dr hab. Katarzyna Sznajd-Weron, prof. PWr.

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

Rozwój społeczeństwa informacyjnego na Mazowszu

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

SPOŁECZNE UWARUNKOWANIA INNOWACYJNOŚCI. dr Jagoda Mrzygłocka- Chojnacka

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Kontekstowe modele efektywności nauczania po I etapie edukacyjnym

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Marketing, relacje i sieci spo eczne wyniki bada Facebooka

Analiza sieci relacji w radach nadzorczych polskich spółek publicznych

Coś z niczego? czyli czego możemy się dowiedzieć o sieciach społecznych na podstawie danych sondażowych

IG1: INSTALACJA KOMUNIKATORA GADU-GADU

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Postrzeganie telefonów komórkowych

Korelacje krzyżowe kryzysów finansowych w ujęciu korelacji potęgowych. Analiza ewolucji sieci na progu liniowości.

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Przejście fazowe w sieciach złożonych w modelu Axelroda

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

CECHY ILOŚCIOWE PARAMETRY GENETYCZNE

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ

Agnieszka Chłoń-Domińczak Mateusz Pawłowski Ścieżki edukacyjno-zawodowe: wpływ wykształcenia na aktywność i dezaktywizację zawodową

Zmienne zależne i niezależne

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Wymagania edukacyjne z informatyki w klasie IIIa gimnazjum

Proces badawczy schemat i zasady realizacji

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Kształtowanie kompetencji personalnych i społecznych w szkole zawodowej drogą do sukcesu na rynku pracy

Wprowadzenie do analizy sieci społecznych

Statystyka Matematyczna Anna Janicka

STATYSTYKA MATEMATYCZNA

Wnioskowanie statystyczne. Statystyka w 5

BADANIA OPERACYJNE. dr Adam Sojda Pokój A405

Internet. Podstawowe usługi internetowe. Wojciech Sobieski

w ramach na rzecz rozwoju ICT studia podyplomowe

Rozdział 6. Komunikatory internetowe i czaty Jak działa komunikator?

Matematyka ubezpieczeń majątkowych r.

Prawdopodobieństwo i statystyka

Oszacowanie i rozkład t

Wykład I. Administrowanie szkolną siecią komputerową. dr Artur Bartoszewski

Analiza Sieci Społecznych Pajek

Zaawansowane R&D w systemach pamięci masowej

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

R-PEARSONA Zależność liniowa

Badania eksploracyjne Badania opisowe Badania wyjaśniające (przyczynowe)

Psychometria PLAN NAJBLIŻSZYCH WYKŁADÓW. Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. TEN SLAJD JUŻ ZNAMY

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

STATYSTYKA MATEMATYCZNA

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Testowanie hipotez statystycznych

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Wybrane rozkłady zmiennych losowych. Statystyka

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Finanse behawioralne; badanie skłonności poznawczych inwestorów

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

Analiza wariancji - ANOVA

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Wykład 9 Wnioskowanie o średnich

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

Testy nieparametryczne

Mikro- i makro-ewolucja sieci społecznych

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Badania marketingowe 2016_12. Krzysztof Cybulski Katedra Marketingu Wydział Zarządzania Uniwersytet Warszawski

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

OBSŁUGA KOMUNIKATORA GADU- GADU I WEB-GADU

Badanie internetu. NeWWWton Fizyka w sieci. Piotr Pohorecki, Anna Poręba Gemius SA

Weryfikacja przypuszczeń odnoszących się do określonego poziomu cechy w zbiorowości (grupach) lub jej rozkładu w populacji generalnej,

1 Podstawy rachunku prawdopodobieństwa

Rozkłady statystyk z próby. Statystyka

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Formowanie opinii w układach społecznych na przykładzie wyborów parlamentarnych

Transkrypt:

Sieci społeczne Charakterystyka, uwarunkowania i konsekwencje struktur relacji społecznych na przykładzie komunikacji internetowej E Sieci: grafy i macierze A B A B A - C D E dr Dominik Batorski B - Instytut Socjologii, UW Praca doktorska napisana pod kierunkiem Prof. dr hab. Andrzeja Nowaka D C C D E - - - 2 Sieci afiliacji Analiza sieci społecznych A B C D E 2 3 4 4 E A 3 C 2 B D Charakterystyki pozycji jednostek w sieci Centralność Prestiż Grupy w obrębie sieci Kliki Pozycje strukturalne Globalne własności sieci 3 4 Najważniejsze pytania Struktura sieci personalnych grupy czy sieci? Własności struktury dużych sieci Komponenty globalne Problem małego świata Rozkład liczby relacji Mixing patterns Komunikatory internetowe Komunikatory to wygodny sposób na komunikowanie się przez Internet w czasie rzeczywistym. Umożliwiają sprawdzenie obecności innych osób w Sieci. Krótkie wiadomości tekstowe. Inne funkcje: Wysyłanie SMS, Przesyłanie plików. Rozmowy głosowe. Tryb konferencyjny. 5 6

Gadu-gadu (GG) to najpopularniejszy komunikator w Polsce. Obecnie ma około 3 milionów użytkowników. Gadu-Gadu Komunikatory są używane: Przede wszystkim do kontaktu ze znajomymi, przyjaciółmi i rodziną; czasem również do podtrzymywania kontaktu z osobami poznanymi w Sieci. 7 Zgromadzone dane Informacje o relacjach z list kontaktów: Dane ze stycznia 24; Listy 3,354,457 aktywnych użytkowników; Informacja o tym kto ma kogo w swojej skrzynce. Zawierające, ponad 75 milionów relacji; W sumie 5,39,453 zarejestrowanych użytkowników. I prawie 3 miliony posiadających odwzajemnione relacje. Dane indywidualne: Płeć, wiek, miejsce zamieszkania. Dane o komunikacji. Dane z czterech tygodni maja 24; Informacja o tym kto w danym tygodniu do kogo wysyłał wiadomości. 8 Rodzaje analizowanych sieci. Sieć relacji z list kontaktów; 2. Sieci komunikacji krótkookresowej (poszczególne tygodnie); 3. Sieci komunikacji długookresowej (miesiąc); 4. Sieci intensywnej komunikacji (przynajmniej raz w tygodniu przez miesiąc); 5. Sieci relacji długotrwałych (istniejących minimum 4 miesiące); 6. Sieci mocnych relacji (odwzajemnionych, długotrwałych i intensywnych); Płeć i wiek użytkowników 9 Liczba relacji Relacje a płeć Rodzaj relacji odwzajemnione przychodzące Średnia 4.2 22. Max 43 9466 Informacje o płci podaje 87% użytkowników 37% stanowią kobiety 49% mężczyźni Mężczyźni mają więcej relacji niż kobiety. wychodzące powiązania 25. 32.9 948 Relacje pomiędzy osobami różnej płci są bardziej prawdopodobne. Jednak odwzajemnienie relacji jest większe w obrębie płci. 2

Relacje a wiek Badania internetu Internet jest wykorzystywany przede wszystkim w celach związanych z aktywnościami życia codziennego. Komunikacja w Internecie odbywa się głównie pomiędzy osobami, które się znają i utrzymują ze sobą relacje również poza Internetem. Wiele z prawidłowości dotyczących interakcji obserwowanych w Internecie jest bardzo podobnych do prawidłowości obserwowanych poza Internetem. Błędem jest traktowanie Internetu jako zupełnie nowej i niezależnej rzeczywistości społecznej. 3 4 Grupy vs. sieci Grupy vs. sieci Formalnie grupa jest jednym z możliwych rodzajów sieci. Łatwiej jest jednak porównywać metaforę grup z metaforą sieci. Każda osoba tworzy raczej własną sieć personalną niż należy do jednej grupy z osobami, z którymi jest w relacjach. Chociaż ludzie bardzo często widzą świat w terminach grup, to jednak funkcjonują w relacjach, których struktury mają znacznie bardziej sieciowy charakter. Grupy duża gęstość wyraźne granice zorganizowane hierarchicznie trwałe homogeniczne Sieci niewielka gęstość brak wyraźnych granic fragmentaryczność nietrwałe zróżnicowane większa rozpiętość przestrzenna 5 6 Struktury o charakterze grupowym Struktura sieciowa () Jednostka jako członek wielu niezależnych grup. 7 8

Struktura sieciowa (2) Struktura sieciowa. Niska gęstość Struktura sieciowa (3) Gwiazda socjometryczna brak relacji pomiędzy znajomymi ego. 9 2 Sieci personalne Lokalna gęstość Sieciowy indywidualizm (Wellman) Miary: Lokalna gęstość Lokalna gęstość, relacje między znajomymi Relacje skierowane Średnia.26 Komponenty lokalne Wspólni znajomi (pokrywanie się sieci personalnych) Powiązania Odwzajemnione.225.86 2 22 Gęstość w zależności od wieku Znaczenie lokalnych komponentów 23 24

Sieci personalne Sieci personalne 25 26 Komponenty lokalne Duże sieci personalne Liczba komponentów Wielkość największego komp. Udział największego komp. Średnia liczebność pozostałych komp. Max. 343 365 28 Średnia 5.595 8.54.62.29 Użytkownicy posiadający i więcej odwzajemnionych relacji. 35% aktywnych użytkowników. posiadają przeciętnie 27 odwzajemnionych relacji, oraz: Lokalna gęstość.3 Liczba komponentów 9.5 Udział największego komponentu 56% Przeciętny rozmiar pozostałych komp..34 27 28 Liczba komponentów i wiek Rozmiar komponentu 29 3

Sieci personalne (promień ) Sieci personalne (promień 2) 3 32 Znajomi znajomych Sieci personalne uwzględniające znajomych znajomych. Średnia liczebność takiej sieci personalnej to: 398 użytkowników Lokalna gęstość,7 Liczba komponentów lokalnych 2,5 Wielkość największego komponentu 37 Udział największego komponentu 87,3% Wielkość pozostałych komponentów 7,9 Wspólni znajomi (pokrywanie się sieci personalnych) Średni procent wspólnych znajomych: 4.7% 33 34 Typowa sieć personalna Typowa sieć personalna 2 35 36

Problem małego świata Eksperymenty Milgrama (967, 969) Listy przekazywane od osoby do osoby docierały do docelowej osoby zaledwie w kilku krokach. Wyjaśnienie zjawiska (Watts i Strogatz, 998) 37 Model małych światów (Watts i Strogatz, 998) (a) Jednowymiarowa sieć, w której każdy z wezłów połączony jest z sześcioma najblizszymi sasiadami. (b) Ten sam model na okręgu po połączeniu obu końców w celu uniknięcia problemu krawędzi. (c) Model Wattsa i Strogatza powstały w wyniku przepisania niewielkiej części krawędzi (wybranych losowo z małym prawdopodobienstwem) do losowo wybranych wezłów. 38 Komponenty Komponenty (Component) Komponent, do którego należy dany węzeł to zbiór węzłów, do którego można dotrzeć poprzez ścieżki relacji pomiędzy węzłami. Ile jest komponentów w sieci? Liczba i rozmiar komponentów powiązanych podgrafów: Słabe powiązania 539453 użytkowników; 66 komponentów. Powiązania odwzajemnione 294847 użytkowników; 576 komponentów. 39 4 Słabe połączenia Połączenia odwzajemnione 66 komponentów Rozmiar komp. 5388245 7 6 4 3 2 Liczba komp. 9 5 3 576 komponentów 99.57% użytkowników w największym komponencie Rozmiar komp. 2935753 4 2 8-5-7 4 3 2 Liczba komp. 2 22 82 2 523 4954 4 42

Próba Próba użytkowników dobrana w sposób losowy. Wielkość próby 4782 użytkowników (.5% populacji); w tym 4727 z największego komponentu. Odległość użytkownika od każdego innego w największym komponencie. W sumie ponad 43,2 miliardy przeanalizowanych par. Pytania Geodesic path: A geodesic path is the shortest path through the network from one vertex to another (there may be and often is more than one geodesic path between two vertices). Diameter: The diameter of a network is the length (in number of edges) of the longest geodesic path between any two vertices. 43 44 Najkrótsze ścieżki Średnica sieci Min. Max. Średnia Największa odległość 8 3.8 Średnia odległość 4.37.6 5.786 Wariancja długości.49.59.539 45 46 Rozkład liczby relacji Rozkład liczby relacji odbiega znacznie od rozkładu normalnego. Scale-free networks (Barabási, Barabási i Albert) Rozkład potęgowy power law distribution P k k -α Rozkład wykładniczy Exponential distribution P k e -k/κ Źródła potęgowego rozkładu liczby relacji Wzrost sieci: Początkowo sieć składa się z niewielkiej liczby węzłów. W każdej jednostce czasu dodawane są nowe węzły. Nowy węzeł jest połączony z m spośród istniejących węzłów. Dołączanie preferencyjne: Prawdopodobieństwo dodania połączenia do istniejącego węzła zależy od liczby relacji posiadanych przez ten węzeł. Im więcej ma on relacji tym większe prawdopodobieństwo, że otrzyma kolejną. 47 48

Rozkład liczby relacji Rozkład wykładniczy 49 5 Rozkład potęgowy Rozkład potęgowy czy wykładniczy? Relacje odwzajemnione R 2 dla rozkładu wykładniczego.93 R 2 dla rozkładu potęgowego.88 Powiązania R 2 dla rozkładu wykładniczego.27 R 2 dla rozkładu potęgowego.9 Rozkład wykładniczy lepiej wyjaśnia rozkład liczby relacji wychodzących, a rozkład potęgowy relacji przychodzących. 5 52 Charakter rozkładu liczby relacji: potęgowy czy wykładniczy? Mixing patterns Rozkład wykładniczy Rozkład potęgowy Jakie węzły są ze sobą w relacji? Różne rodzaje (typy) węzłów, prawdopodobieństwo połączenia pomiędzy węzłami zależy od typów węzła Odwzajemnione relacje R 2 =.93 R 2 =.88 Homofilia: Upodobanie do podobieństwa, nakazujące przyjaźnić się z tymi, którzy są do nas podobni wiekiem, zawodem, miejscem zamieszkania, wyznaniem, poglądami, wartościami, światopoglądem. Słabe relacje R 2 =.27 R 2 =.9 Ten rodzaj selektywnych powiązań jest też nazywany assortative mixing 53 54

Homofilia Zależność od wieku Homofilia: Upodobanie do podobieństwa, nakazujące przyjaźnić się z tymi, którzy są do nas podobni wiekiem, zawodem, miejscem zamieszkania, wyznaniem, poglądami, wartościami, światopoglądem. 55 56 Assortative mixing - degree Zależność liczby relacji Specjalnym przypadkiem assortative mixing jest: degree correlation Sieci społeczne charakteryzują się własnością assortative mixing, Natomiast pozostałe rodzaje sieci (informacyjne, technologiczne, biologiczne) wykazują disassortative mixing (Newman, 22). 57 58 Mixing patterns - wyniki Jądro sieci (25+ relacji) Współczynnik korelacji Pearsona jest dobrą miarą zależności. dodatni dla sieci z assortative mixing ujemny dla sieci z disassortative mixing Zależność relacji od wieku, R 2 =,65 Zależność od liczby znajomych R 2 =, 2 59 6

Jądro sieci (3+ relacji) Szukanie w sieci Modele małych światów nie wyjaśniają możliwości szukania w sieci Jon Kleinberg Zależność relacji od odległości. Mark Newman i inni Szukanie uwzględniające własności jednostek 6 62 Sieci: Społeczne Technologiczne Informacyjne Biologiczne Rodzaje sieci Różne rodzaje sieci wykazują bardzo podobne własności Własności złożonych sieci Lokalna gęstość (clustering) Wielki komponent Krótkie ścieżki Potęgowy/ wykładniczy rozkład liczby relacji Mixing patterns assortative mixing 63 64 Konsekwencje struktury sieci Odporność sieci Dyfuzja informacji i innowacji Wpływ społeczny Odporność sieci Odporność na awarie: losowe awarie węzłów. Odporność na atak: eliminacja kluczowych (największych) węzłów. Znaczenie usuwania węzłów dla: liczby komponentów i rozmiaru największego komponentu; długości krótkich ścieżek; efektywności sieci; 65 66

Odporność sieci wyniki Znaczenie różnych własności sieci dla jej odporności: Sieci małych światów są odporne na awarie. Sieci scale-free są odporne na awarie i niezwykle podatne na atak. Sieci wykazujące assortative mixing są bardziej odporne na atak niż sieci z disassortative mixing. Konsekwencje Sieci, które na ogół chcielibyśmy przerwać, takie jak sieci społeczne rozprzestrzeniające chorobę (lub sieci terrorystów), mają pozytywną korelację wielkości sąsiadujących węzłów, a tym samym są bardziej odporne na ataki i izolowanie węzłów posiadających najwięcej kontaktów. Jednocześnie sieci, które chcielibyśmy chronić, na przykład sieci technologiczne takie jak Internet, mają korelację negatywną i są na takie ataki niezwykle podatne. 67 68 Dyfuzja informacji Teoria perkolacji Dwa istotne w epidemiologii i teorii perkolacji parametry to podatność na chorobę (susceptibility), czyli prawdopodobieństwo, że jednostka wystawiona na chorobę zarazi się nią i przekazywalność (transmissibility) - prawdopodobieństwo, że kontakt pomiędzy chorym a jednostką podatną na zarażenie zakończy się zarażeniem tej drugiej. Rozprzestrzenianie się informacji może zachodzić niezwykle szybko: Bardzo krótkie ścieżki istnieją także w sieciach komunikacji krótkookresowej. Obieg informacji w sieciach, w których odległości są nieduże jest bardzo przyśpieszony. Istnienie wielkiego komponentu w sieci relacji świadczy o możliwości bardzo powszechnego rozprzestrzenienia się informacji. Jego występowanie w sieci krótkookresowej komunikacji oznacza, że to rozpowszechnienie informacji może nastąpić niezwykle szybko. 69 7 Wpływ społeczny Występowanie wielkiego komponentu w sieciach mocnych i długotrwałych relacji oznacza, że możliwe jest nie tylko rozprzestrzenianie informacji, ale również upowszechnianie norm, poglądów i opinii, a więc procesy mające charakter wpływu społecznego. Rozprzestrzenianie się idei wymaga równowagi pomiędzy zamkniętością grupy a połączeniami pomiędzy grupami ochrona przed zmianą zdania umożliwienie rozprzestrzeniania idei 7 Mała, zamknięta grupa może dobrze utrzymywać swoje odrębne poglądy, jednak ma bardzo małą szansę na ich upowszechnienie. Większa otwarta społeczność jest na ogół dużo bardziej odporna na przyjęcie jakiejś jednej obowiązującej normy, ale z drugiej strony jej wprowadzenie może łatwo doprowadzić do jej bardzo szybkiego rozpowszechnienia się również poza tą społeczność. 72