Coś z niczego? czyli czego możemy się dowiedzieć o sieciach społecznych na podstawie danych sondażowych

Podobne dokumenty
Stanisław Cichocki Natalia Nehrebecka. Wykład 7

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Prawdopodobieństwo i statystyka

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 3 - model statystyczny, podstawowe zadania statystyki matematycznej

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Wnioskowanie bayesowskie

Mikroekonometria 12. Mikołaj Czajkowski Wiktor Budziński

Monte Carlo, bootstrap, jacknife

Metody probabilistyczne

Matematyka z el. statystyki, # 6 /Geodezja i kartografia II/

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych

Liczba godzin Punkty ECTS Sposób zaliczenia. ćwiczenia 16 zaliczenie z oceną

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Testowanie hipotez statystycznych. Wprowadzenie

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Rozkłady statystyk z próby

STATYSTYKA INDUKCYJNA. O sondażach i nie tylko

Wykład 5 Estymatory nieobciążone z jednostajnie minimalną war

STATYSTYKA MATEMATYCZNA

STATYSTYKA MATEMATYCZNA WYKŁAD 4. Testowanie hipotez Estymacja parametrów

Rozkłady statystyk z próby. Statystyka

Pobieranie prób i rozkład z próby

Metoda reprezentacyjna

Wnioskowanie statystyczne. Statystyka w 5

Jeśli powyższy opis nie jest zrozumiały należy powtórzyć zagadnienie standaryzacji zanim przejdzie się dalej!

STATYSTYKA

W4 Eksperyment niezawodnościowy

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

Metody Statystyczne. Metody Statystyczne.

Stanisław Cichocki. Natalia Nehrebecka

Spacery losowe generowanie realizacji procesu losowego

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Zastosowanie modelu regresji logistycznej w ocenie ryzyka ubezpieczeniowego. Łukasz Kończyk WMS AGH

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Oszacowanie i rozkład t

Testowanie hipotez statystycznych

METODY STATYSTYCZNE W BIOLOGII

Zmienne losowe, statystyki próbkowe. Wrocław, 2 marca 2015

STATYSTYKA wykład 5-6

STATYSTYKA MAŁYCH OBSZARÓW I. WPROWADZENIE

Wykład 1 Zmienne losowe, statystyki próbkowe - powtórzenie materiału

1. Pokaż, że estymator MNW parametru β ma postać β = nieobciążony. Znajdź estymator parametru σ 2.

Wykład 4. Plan: 1. Aproksymacja rozkładu dwumianowego rozkładem normalnym. 2. Rozkłady próbkowe. 3. Centralne twierdzenie graniczne

Estymacja parametrów rozkładu cechy

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Mikroekonometria 6. Mikołaj Czajkowski Wiktor Budziński

Natalia Nehrebecka Stanisław Cichocki. Wykład 10

Metoda największej wiarogodności

MATEMATYKA Z ELEMENTAMI STATYSTYKI LABORATORIUM KOMPUTEROWE DLA II ROKU KIERUNKU ZARZĄDZANIE I INŻYNIERIA PRODUKCJI ZESTAWY ZADAŃ

Uogolnione modele liniowe

LABORATORIUM Populacja Generalna (PG) 2. Próba (P n ) 3. Kryterium 3σ 4. Błąd Średniej Arytmetycznej 5. Estymatory 6. Teoria Estymacji (cz.

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

Weryfikacja hipotez statystycznych

O ŚREDNIEJ ARYTMETYCZNEJ I MEDIANIE

Przykład 2. Na podstawie książki J. Kowal: Metody statystyczne w badaniach sondażowych rynku

Ekonometryczne modele nieliniowe

Wykład 3 Momenty zmiennych losowych.

Wykład 3 Momenty zmiennych losowych.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI ROZKŁAD STATYSTYK Z PRÓBY

Zadania ze statystyki cz.8. Zadanie 1.

Metody probabilistyczne

Modelowanie sieci złożonych

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Metoda Monte Carlo. Jerzy Mycielski. grudzien Jerzy Mycielski () Metoda Monte Carlo grudzien / 10

Wykład 9 Wnioskowanie o średnich

Praktyczne aspekty statycznej estymacji stanu pracy elektroenergetycznych sieci dystrybucyjnych w warunkach krajowych

Analiza wariancji. dr Janusz Górczyński

Zróżnicowanie poziomu ubóstwa w Polsce z uwzględnieniem płci

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Badanie postaw i opinii mieszkańców Jaworzna na temat przyłączenia do Związku Metropolitalnego

... i statystyka testowa przyjmuje wartość..., zatem ODRZUCAMY /NIE MA POD- STAW DO ODRZUCENIA HIPOTEZY H 0 (właściwe podkreślić).

Kontekstowy model oceny efektywności nauczania dla pierwszego etapu edukacyjnego

Dokładne i graniczne rozkłady statystyk z próby

Mikroekonometria 9. Mikołaj Czajkowski Wiktor Budziński

Testowanie hipotez cz. I

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Wykład 10 Estymacja przedziałowa - przedziały ufności dla średn

SYSTEMATYCZNOŚĆ BRAKÓW DANYCH W BADANIACH SONDAŻOWYCH. Jakub Rutkowski

Statystyka matematyczna

O ŚREDNIEJ STATYSTYCZNEJ

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

6.4 Podstawowe metody statystyczne

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Biostatystyka, # 3 /Weterynaria I/

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Analiza niepewności pomiarów

Testowanie hipotez statystycznych.

Transkrypt:

Coś z niczego? czyli czego możemy się dowiedzieć o sieciach społecznych na podstawie danych sondażowych Michał Bojanowski Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego Uniwersytet Warszawski Jabłonna, 28 września 2016

Problem Badania sieci społecznych opierają się zazwyczaj na 1. badaniu wyczerpującym (census sieciowy, trudne, drogie) 2. badanie sieci ego-centrycznych (losowa próba węzłów, mniej trudne, tańsze) Czy, kiedy i z jakim skutkiem jesteśmy w stanie (1) zastąpić (2)? W dalszej części Zbieranie danych: census a sieci-egocentryczne ERGM, w wielkim skrócie, dla kompletnych danych sieciowych ERGM dla danych ego-centrycznych symulacja ERGM dla danych ego-centrycznych ilustracja na podstawie danych ogólnopolskich (robocza)

Sieci społeczne? węzły relacje atrybuty węzłów atrybuty relacji

Zbieranie danych sieciowych Badanie wyczerpujące: posiadamy informacje o wszystkich węzłach i łączących ich relacjach. Schemat egocentryczny: bazujemy na (losowej) próbie aktorów i raportowanych przez nich informacjach o ich bezpośrednim otoczeniu sieciowym. Schemat podążania za relacjami (link-tracing): Szeroki zbiór metod typu kuli śniegowej.

Z kim chciałbyś się bawić?

? Dlaczego sieć wygląda tak, jak wygląda? Odwzajemnianie Zróżnicowanie dzieci ze względu na popularność (relacje przychodzące) Zróżnicowanie dzieci ze względu na towarzyskość (relacje wychodzące) Homofilia / segregacja: dzieci chcą się bawić z innymi tej samej płci Przechodniość

Exponential-family Random Graph Models Model probabilistyczny Rozkład prawdopodobieństwa na zbiorze wszystkich grafów o zadanej liczbie wierzchołków P(Y = y) = exp θg(y) k(θ) Gdzie: P(Y = y) prawdopodobieństwo zaobserowowania grafu y g(y) wektor statystyk sieciowych, np. liczba relacji, liczba relacji odwzajemnionych, przechodnie tryplety itd. θ wektor parametrów k(θ) stała normalizująca aby prawdopodobieństwa sumowały się do 1. Statystyki g(y) związane z częstością występowania różnego rodzaju (małych) konfiguracji relacji i/lub atrybutów węzłów i relacji

Postać logit P( Y ij = 1 y c ij) log = logit( Y ij = 1 y c ) = δ( ) ( P( = 0 ) ) ij θ y ij Y ij y c ij Gdzie: P( Y ij = 1 y c ij) warunkowe prawdopodobieństwo, że i i j pozostają w relacji przy warunku, że reszta grafu (dopełnienie) pozostaje niezmieniona. y c ij dopełnienie diady ij wszystkie diady oprócz y ij δ( y ij ) zmiana wartości statystyki sieciowej g na skutek zmiany stanu relacji y ij δ( y ij ) = g( y + ij ) g( y ij )

Przykłady statystyk sieciowych ( g(y) ) Gęstość (liczba relacji) ij y ij Efekty związany z atrybutami węzłów (grupowe różnice w średniej liczbie relacji) Efekt związany z atrybutami diad (np. homofilia) Stopień (degree) Liczba trójkątów i<j<h y ij y ih y jh

Przykładowy model Estimate Std. Error p-value Liczba relacji -2.963 1.507 0.050 Dziewczynki (towarzyskość) 0.750 0.402 0.063 Dziewczynki (popularność) 0.167 0.411 0.686 Płeć (homofilia) 2.481 0.445 0.000 Status (towarzyskość) 0.197 0.303 0.517 Status (popularność) 0.016 0.313 0.959 Status (homofilia) 0.286 0.308 0.354 IQ (towarzyskość) -0.002 0.012 0.866 IQ (popularność) -0.012 0.011 0.289 Przechodniość 0.916 0.464 0.049 Widzimy m.in.: Dziewczynki są bardziej towarzyskie od chłopców Homofilia ze względu na płeć: relacje pomiędzy dziećmi tej samej płci są razy bardziej prawdopodobne niż relacje pomiędzy dziećmi różnych płci. e 2.481 Znajomy znajomego jest moim znajomym Zbyt mało danych by powiedzieć coś konkretnego o roli pozostałych czynników. = 11.953

Schemat egocentryczny

ERGM na podstawie danych egocentrycznych Założenia: Losowa próba ego-sieci Alters nie są jednoznacznie identyfikowalni: abtrahujemy od sytuacji w której alter może też być ego, albo ta sama osoba jest alterem dwóch ego. Próba ego-sieci jest infinityzymalną frakcją populacji Powyższe założenia ograniczają rodzaj statystyk sieciowych, które możemy użyć w ERGM Liczba relacji, efekty atrybutów węzłów i relacji, stopień = tak Przechodniość i inne triadowe = nie (chyba, że pytamy ego o relacje alter-alter) Ego-statystyki wymagają przeskalowania np. liczba relacji w ego sieciach jest dwukrotnie wyższa niż w badaniu wyczerpującym, bo każda relacja jest raportowana dwa razy (przez oba połączone węzły) itp.

Symulacja Na ile dobrze można oszacować parametry na podstawie danych egocentrycznych? Konstrukcja: Badamy dzieci w klasie (dane IBE powyżej) Wielkości prób jako frakcja populacji: 0.3, 0.45, 0.6, 0.75, 0.9 Dla każdej wielkości próby 100 różnych prób, razem 500 sieci ( 5 100) W każdej próbie szacujemy model z efektami: Pytania: liczba relacji homofilia ze względu na płeć Na ile szacunki będą zgodne z wynikami modelu na danych pełnych? Jak szacunki zależą od wielkości próby?

Zróżnicowanie wyników pomiędzy próbami

w zależności od wielkości próby

Obserwacje Wyniki z ego-sieci są obciążone Próbkujemy węzły by dowiedzieć się o relacjach Duża homofilia ze względu na płeć Oszacowania są zgodne (consistent) - im większa próba, tym bliżej prawdziwej wartości Znaczna wariancja z próby

Ogólnopolski sondaż sieci personalnych Dane Projekt Ludzie w sieciach: Wpływ kontekstu społecznego na jednostkę i jego rola w kształtowaniu struktury społeczeństwa (kier. Bogdan W. Mach, NCN HS6/00526). Ogólnopolska próba PESEL Generator imion Wykorzystane zmienne o ego i alter: wiek, płec, wykształcenie Model ERGM z efektami głównymi oraz homofilii dla płci, wieku oraz wykształcenia.

Model (wyniki) Estimate Std. Error p-value Offset -7.367 0.000 0.000 Liczba relacji 3.561 0.538 0.000 Płeć (homofilia) -1.455 0.042 0.000 Płeć (mężczyźni) -0.242 0.044 0.000 Wykształcenie (homofilia) 1.105 0.048 0.000 Wykształcenie (zawodowe) -0.201 0.093 0.030 Wykształcenie (średnie) -0.170 0.096 0.077 Wykształcenie (wyższe) -0.039 0.109 0.720 Wiek (18-29) -1.341 0.242 0.000 Wiek (30-39) -1.326 0.234 0.000 Wiek (40-49) -1.347 0.243 0.000 Wiek (50-59) -1.468 0.238 0.000 Wiek (60-69) -1.421 0.250 0.000 Wiek (70<) -1.008 0.261 0.000 Wiek (homofilia) 1.767 0.049 0.000

Model (spostrzeżenia) Mężczyźni średnio wymieniają mniej osób Heterofilia ze względu na płeć (!?) Homofilia ze względu na wykształcenie Liczba znajomych wydaje się maleć z wiekiem Homofilia ze względu na wiek

Sieć (płeć)

Sieć (wykształcenie)

Podsumowanie Dane ego-centryczne zawierają bogate informacje na temat struktury sieci jako całości Informacja ta oraz ERGM-y mogą posłużyć do Problemy: Literatura Oszacowania modelu dla sieci jako całości Symulacyjne generowanie sieci posiadających własności zgodne z obserwowanymi w ego-sieciach Badanie procesów zachodzących w sieciach na danych symulacyjnych Specyfikacja modeli ograniczona do efektów/statystyk dostępnych w danych ego-centrycznych Estymatory wydają się być obciążone (przynajmniej w przypadku homofilii) Estymatory mają znaczącą wariancję Krivitsky, P. N., Handcock, M. S., & Morris, M. (2011). Adjusting for network size and composition effects in Exponential-family Random Graph Models. Statistical methodology, 8(4), 319-339. Krivitsky, P. N., & Morris, M. (2015). Inference for Social Network Models from Egocentrically- Sampled Data, with Application to Understanding Persistent Racial Disparities in HIV Prevalence in the US. Working paper 05-15, University of Wollongong.

Dziękuję! Michał Bojanowski m.bojanowski@uw.edu.pl