Wybrane aspekty wykrywania wspólnot w grafie

Podobne dokumenty
Algorytmy analizy skupień / Sławomir Wierzchoń, Mieczysław Kłopotek. wyd. 1, 1. dodr. (PWN). Warszawa, Spis treści

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Wstęp do sieci neuronowych, wykład 11 Łańcuchy Markova

Hierarchiczna analiza skupień

Plan wykładu. Przykład. Przykład 3/19/2011. Przykład zagadnienia transportowego. Optymalizacja w procesach biznesowych Wykład 2 DECYZJA?

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

Graf. Definicja marca / 1

Spacery losowe generowanie realizacji procesu losowego

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Matematyka dyskretna. Andrzej Łachwa, UJ, /14

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

TEORIA GRAFÓW I SIECI

Zaawansowane metody numeryczne

Skalowanie wielowymiarowe idea

Podstawowe własności grafów. Wykład 3. Własności grafów

Struktury danych i złożoność obliczeniowa Wykład 7. Prof. dr hab. inż. Jan Magott

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Zagadnienie transportowe

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Algorytmy metaheurystyczne Wykład 6. Piotr Syga

Matematyczne Podstawy Informatyki

Grafy Alberta-Barabasiego

SPÓJNOŚĆ. ,...v k. }, E={v 1. v k. i v k. ,...,v k-1. }. Wierzchołki v 1. v 2. to końce ścieżki.

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

TEORETYCZNE PODSTAWY INFORMATYKI

Algebra grafów. dr hab. Piotr Fronczak

Matematyka dyskretna. Andrzej Łachwa, UJ, B/14

Wstęp do sieci neuronowych, wykład 12 Łańcuchy Markowa

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Biostatystyka, # 3 /Weterynaria I/

VII. Elementy teorii stabilności. Funkcja Lapunowa. 1. Stabilność w sensie Lapunowa.

Postać Jordana macierzy

Wstęp do Techniki Cyfrowej... Teoria automatów

Indukcja matematyczna. Zasada minimum. Zastosowania.

Optymalizacja ciągła

Układy równań i nierówności liniowych

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Digraf. 13 maja 2017

Matematyczne Podstawy Informatyki

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Akwizycja i przetwarzanie sygnałów cyfrowych

Przestrzeń unitarna. Jacek Kłopotowski. 23 października Katedra Matematyki i Ekonomii Matematycznej SGH

Modelowanie sieci złożonych

Zad. 1 Zad. 2 Zad. 3 Zad. 4 Zad. 5 SUMA

Indukowane Reguły Decyzyjne I. Wykład 3

Algorytmy równoległe. Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2010

G. Wybrane elementy teorii grafów

a) 7 b) 19 c) 21 d) 34

Teoria grafów dla małolatów. Andrzej Przemysław Urbański Instytut Informatyki Politechnika Poznańska

Matematyka dyskretna. Andrzej Łachwa, UJ, /15

Procesy stochastyczne WYKŁAD 2-3. Łańcuchy Markowa. Łańcuchy Markowa to procesy "bez pamięci" w których czas i stany są zbiorami dyskretnymi.

Drzewa. Jeżeli graf G jest lasem, który ma n wierzchołków i k składowych, to G ma n k krawędzi. Własności drzew

Formy kwadratowe. Mirosław Sobolewski. Wydział Matematyki, Informatyki i Mechaniki UW. 14. wykład z algebry liniowej Warszawa, styczeń 2017

Kolorowanie wierzchołków

Wykład 10 Skalowanie wielowymiarowe

Grafy i sieci wybrane zagadnienia wykład 3: modele służące porównywaniu sieci

Stosowana Analiza Regresji

Formy kwadratowe. Rozdział 10

Układy stochastyczne

Przegląd metod optymalizacji wielowymiarowej. Funkcja testowa. Funkcja testowa. Notes. Notes. Notes. Notes. Tomasz M. Gwizdałła

Zmienne zależne i niezależne

Prawdopodobieństwo i statystyka

Problemy optymalizacyjne - zastosowania

Algorytmy grafowe. Wykład 1 Podstawy teorii grafów Reprezentacje grafów. Tomasz Tyksiński CDV

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Zbiory wypukłe i stożki

Algorytmy stochastyczne, wykład 08 Sieci bayesowskie

Algorytmy mrówkowe. H. Bednarz. Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Inteligentne systemy informatyczne

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Algorytmy mrówkowe w dynamicznych problemach transportowych

Matematyka dyskretna. Andrzej Łachwa, UJ, /14

Zadanie transportowe i problem komiwojażera. Tadeusz Trzaskalik

Wstęp do sieci neuronowych, wykład 12 Wykorzystanie sieci rekurencyjnych w optymalizacji grafowej

Grafy i Zastosowania. 9: Digrafy (grafy skierowane) c Marcin Sydow

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Elementy modelowania matematycznego

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Liga zadaniowa Seria I, 2014/2015, Piotr Nayar, Marta Strzelecka

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

Procesy Markowa zawdzięczają swoją nazwę ich twórcy Andriejowi Markowowi, który po raz pierwszy opisał problem w 1906 roku.

SPOTKANIE 9: Metody redukcji wymiarów

Rozwiązania zadań testowych. a n, że a 1 = 5 oraz a n = 100. Podać sumy następujących n=1

Prawdopodobieństwo i statystyka

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Techniki optymalizacji

Relacje. opracował Maciej Grzesiak. 17 października 2011

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Metody teorii gier. ALP520 - Wykład z Algorytmów Probabilistycznych p.2

PROGRAMOWANIE KWADRATOWE

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

Statystyka algebraiczna

Metody sztucznej inteligencji Zadanie 3: (1) klasteryzacja samoorganizująca się mapa Kohonena, (2) aproksymacja sieć RBF.

Matematyka dyskretna

Zadania egzaminacyjne

TEORIA GRAFÓW I SIECI

KURS MATEMATYKA DYSKRETNA

0 + 0 = 0, = 1, = 1, = 0.

Prawa potęgowe w grafach przepływu informacji dla geometrycznych sieci neuronowych

Klasyfikacja w oparciu o metrykę budowaną poprzez dystrybuanty empiryczne na przestrzeni wzorców uczących

Transkrypt:

Wybrane aspekty wykrywania wspólnot w grafie Mieczysław Kłopotek Instytut Podstaw Informatyki Polskiej Akademii Nauk VI Spotkania Polskiej Grupy Badawczej Systemów Uczących Się Częstochowa, 14 kwietnia 2016

Wybrane aspekty wykrywania wspólnot w grafie Mieczysław Kłopotek Instytut Podstaw Informatyki Polskiej Akademii Nauk VI Spotkania Polskiej Grupy Badawczej Systemów Uczących Się Częstochowa, 14 kwietnia 2016

Agenda 1 Czym są wspólnoty - wspólnoty i grafy 2 Wymagania na funkcję oceny jakości skupień jako formalne wymaganie wobec algorytmów 3 Jakość skupień w praktyce 4 Algorytmy 5 Podsumowanie

Agenda 1 Czym są wspólnoty - wspólnoty i grafy Definicje Co reprezentuje graf 2 Wymagania na funkcję oceny jakości skupień jako formalne wymaganie wobec algorytmów 3 Jakość skupień w praktyce 4 Algorytmy 5 Podsumowanie

Wspólnota Wspólnota Skupienie w grafie sieci społecznej, generalnie w grafie. Graf G = (V, E, L, l) V - zbiór wierzchołków, E V V, - zbiór krawędzi L R - zbiór etykiet, l : E L - funkcja etykietująca krawędzie Zakładamy grafy nieskierowane, czyli (u, v) E implikuje (v, u) E Analiza skupień (dla grafów) Taki podział zbioru wierzchołków na (zwykle) rozłączne podzbiory, by elementy tego samego zbioru były podobne, a różnych zbiorów niepodobne. Formalnie algorytm analizy skupień A to funkcja A : G 2 2V taka, że jeśli A(G) = C, to C C = V i C 1 C 2 dla C 1, C 2 C, C 1 C 2.

Co reprezentuje graf Grafy (w tym empiryczne) Sieci komunikacyjne, transportowe Sieci społeczne Rozmaitości niskowymiarowe w przestrzeniach wysokowymiarowych Graf za każdym razem jest abstrakcją wymaga zdefiniowania odwzorowania

Co reprezentują etykiety krawędzi grafu Odległości Pseudoodległości Niepodobieństwa Podobieństwa Algorytmy analizy skupień w grafach zwykle operują na podobieństwie potrzebna konwersja

Agenda 1 Czym są wspólnoty - wspólnoty i grafy 2 Wymagania na funkcję oceny jakości skupień jako formalne wymaganie wobec algorytmów Teoria oceny jakości skupień 3 Jakość skupień w praktyce 4 Algorytmy 5 Podsumowanie

Wymagania na funkcję oceny jakości skupień, wg vanlaarhoven:2014 Funkcja oceny jakości podziału Funkcja Q oceny jakości podziału grafu G odwzorowuje jego podziały C na zbiór liczb rzeczywistych R. Własności funkcji oceny jakości podziału: CDN. jeśli f jerst funkcją izomorficznie przekszrtałcającą zbiór V w sam siebie, to Q(G, C) = Q(f (G), f (C)). (niezmienniczość ze wzgledu na permutację) jeśli graf G α to graf G, w którym wszystkie wagi krawędzi pomnożono przez stałą α > 0, to jeśli dla podziałów C 1, C 2 zachodzi Q(G, C 1 ) Q(G, C 2 ), to Q(G α, C 1 ) Q(G α, C 2 ) (niezmienniczość ze wzgledu na skalę) Dla dowolnego zbioru V i jego nietrywialnego podziału C istnieje taki graf G = (V, E, L, i ), że Q(G, C ) = arg max C Q(G, C) (bogactwo)

Wymagania na funkcję oceny jakości skupień, wg vanlaarhoven:2014 Własności funkcji oceny jakości podziału, c.d.: małe zmiany w wartości funkcji podobieństwa l prowadzą do małych zmian wartości funkcji Q (ciąglość) Dla dwóch grafów G 1 = (V, E, L, l 1 ) i G 2 = (V, E, L, l 2 ) oraz podziału C takich, że l 1 ((u, v)) l 2 ((u, v)) dla u, v z tego samego skupienia i l 1 ((u, v)) l 2 ((u, v)) dla u, v z różnych skupień Q(G 1, C) Q(G 2, C) (spójna poprawa) Dla trzech rozłącznych zbiorów V, V 1, V 2 niech C 1 będzie podziałem V 1, niech C 2 będzie podziałem V 2, niech C, C będą podziałami V. Niech będą dane grafy G 1 = (V V 1, E 1, L, l 1 ) i G 2 = (V V 2, E 2, L, l 2 ) takie, że E 1, l 1 E 2, l 2 są tożsame nad zbiorem V, to jeśli Q(G 1, C C 1 ) Q(G 1, C C 1 ), to także Q(G 2, C C 2 ) Q(G 2, C C 2 ) (lokalność, uogólnienie bezskalowości rozdzielczości)

Agenda 1 Czym są wspólnoty - wspólnoty i grafy 2 Wymagania na funkcję oceny jakości skupień jako formalne wymaganie wobec algorytmów 3 Jakość skupień w praktyce Rozcięcie grafu, jego koszt Lokalna jakość wspólnoty Globalna jakość wspólnoty 4 Algorytmy 5 Podsumowanie

Rozcięcie grafu Zakłada się tabelaryzację funkcji l w postaci macierzy podobieństwa S: l(i, j) = s ij. Parę {C, C}, gdzie C V i C = V \C nazwiemy rozcięciem grafu. koszt tego rozcięcia to cut(c, C) = R(C, C) = vi C v j C s ij (1)

Warianty realnych funkcji oceny jakości skupień w oparciu o koszt rozcięcia Mcut(C 1,..., C k )) = Ncut(C 1,..., C k )) = Rcut(C 1,..., C k )) = k cut(c i, C i ) (2) i =1 k i =1 cut(c i, C i ) volc i (3) k cut(c i, C i ) i =1 MinMaxcut(C 1,..., C k ) = C i k cut(c i, C i ) i =1 assoc(c i ) Mcut - (nienormalizowana) funkcja kosztu rozcięcia. Ncut, Rcut oraz MinMaxcut to normalizowana, ilorazowa, oraz min-maxowa funkcja kosztu rozcięcia. assoc(z) = s ij = volz cut(z, Z) (6) v i,v j Z (4) (5)

Logiczne warianty lokalne jakości wspólnoty silna wspólnota: dla każdego członka wspólnoty suma podobieństw do innych elementów wspólnoty wyższa niż suma podobieństw do nieczłonków słaba wspólnota: suma podobieństw wszystkich członków wspólnoty do innych elementów wspólnoty wyższa niż suma ich podobieństw do nieczłonków

Podobieństwo członków wspólnoty jako miara jakości wspólnoty suma kwadratów różnic podobieństw parami członków wspólnoty do wszystkich elementów V. korelacja Pearsona podobieństw parami członków wspólnoty do wszystkich elementów V. współczynnik Jaccarda (wspólność otoczeń wierzchołków) liczba wszystkich ścieżek łączących elementy

Modularność Newmana (odstawanie od losowego przydziału krawędzi) jako miara jakości podziału na wspólnoty gdzie and Q(S, C) = 1 2s m m i =1 j=1 s i = (s ij s i s j 2s m j=1,j i )δ(c(i ), C(j)) (7) s ij (8) 2s = m s i = i =1 m m s ij (9) i =1 j=1,j i

Agenda 1 Czym są wspólnoty - wspólnoty i grafy 2 Wymagania na funkcję oceny jakości skupień jako formalne wymaganie wobec algorytmów 3 Jakość skupień w praktyce 4 Algorytmy Metody bazujące na odległości/niepodobieństwie Metody bazujące na podobieństwie Metody błądzenia losowego Metody optymalizsacji modularności Metody wąskiego gardła 5 Podsumowanie

k-medoids Oparty o niepodobieństwa centrami skupień mogą być tylko elementy zbioru PAM, CLARA, CLARANS

Ala-jądrowe podejście Oparty o niepodobieństwa Macierz odległości D winna być dodatnio(pół)określona Liczymy jej rozkład na wektory własne V ΛV T, gdzie V to tablica wektorów własnych, a Λ to macierz diagonalna wartości własnych (które są nieujemne). Macierz V Λ traktujemy jako macierz danych i grupujemy metodą k-means Zamiast całej macierzy V Λ można użyć podzbiór wektorów własnych z wartościami własnymi największymi. Liczą się skupienia, zaś centra skupień są bez merytorycznego znaczenia

k-means oparty na wektorach własnych macierzy podobieństwa Oparty o macierz podobieństwa S, i jej podsumowanie D macierz diagonalna, z elementami będącymi sumami wierszy S. przybliżanie normalizowanych przecięć liczymy macierz Laplasjanu L = D S lub normalizowanego Laplasjanu L = D 1L Liczymy własności i wektory własne L lub L i konstruujemy tablicę z k wektorów własnych odpowiadających k najmniejszym wartościom własnym Stosujemy k-means na tej macierzy Przybliża się w ten sposób nienormalizowane/normalizowane rozcięcie na k podgrafów. Wektor Fiedlera Do podziału na dwie grupy używa się wektora odpowiadającego 2giej najmniejszej (pierwszej pozytywnej wartości dla grafów spójnych) wartości własnej. Jedna grupa dla dodatnich druga ujemnych wartości tego wektora

Metody błądzenia losowego Oparty o macierz prawdopodobieństwa przejścia (ala-pagerank) Rozpływanie PageRanku z wybranego miejsca obszar rozpłynięcia skupieniem ograniczona liczba kroków rozpływania, z preferencją tzw. leniwego PageRanku Nibble oraz PageRank-Nibble inny wariant : MCL - gwałtowne chodzenie uniwersalnego globalnego wędrowca (start równomierny) jeszcze inny wariant: męczące się rozchodzenie się począwszy od kilku inicjalnych centrów i przypisywanie do zwycięskiego centrum

Metody optymalizacji modularności algorytm Louvain każdy wierzchołek grafu początkowo własnym skupieniem jak długo się da, przesuwamy wierzchołki ze skupienia do skupienia, o ile (maksymalnie) podwyższają modularność. Gdy aktualne wierzchołki nie dają podwyższenia modularności, jednostkami przesyłanymi (superwęzłami) stają się aktualne skupienia i tak postępujemy jak poprzednio. Algorytm jest zgrubny. Wiele modyfikacji, np. przesuwające tylko węzły, które sąsiadują ze skupieniami

Metody wąskiego gardła informacyjnego Przybliżenie koncepcji kosztu rozcięcia Wzajemna informacja zmiennej X i Y I (X ; Y ) = p(x, y) log p(x,y) x y 2 p(x)p(y). analiza skupień postrzegana jako metoda kompresji danych tak aby reprezentacja skupienia ˆX mogła być użyta zamiast pierwotnych danych czyli choć wzajemna informacja I ( ˆX, Y ) I (X ; Y ), to strata winna być akceptowalna. Stąd minimalizacja: L[p(ˆx x)] = I ( ˆX, X ) βi ( ˆX, Y ) (10) gdzie β to parametr użytkownika. Tu p(x, y) jest dobierane tak: zakładamy rozkład brzegowy p(x), natomiast p(y x) jest prawdopodobieństwem dotarcia do wierzchołka y startując z x w t krokach w błądzeniu losowym. HAK: gdy t zmierza do nieskończoności w grafie spójnym zmierzamy do rozkładu stacjonarnego, i y nie zależy od x. WYJŚCIE: wędrowanie z męczeniem się? Czy t można zastąpić racjonalnie przez prędkość męczenia?

Agenda 1 Czym są wspólnoty - wspólnoty i grafy 2 Wymagania na funkcję oceny jakości skupień jako formalne wymaganie wobec algorytmów 3 Jakość skupień w praktyce 4 Algorytmy 5 Podsumowanie Wyzwania Nieśmiała propozycja rozwiązań

Wyzwania Brak jednorodnej koncepcji wspólnoty czy choćby skupienia Wielość miar oceny jakości skupień / wspólnot brak studium, kiedy są one praktycznie równoważne (w tym z powodu braku odwzorowania podobieństwo/odmienność) Wielość algorytmów (potęgowana przez ich mieszaniny), niedoskonale optymalizujących te miary brak studium, co tak naprawdę dostarczają te algorytmy (dla jakiego rodzaju skupień mają one sens) Brak studium, kiedy algorytmy te dostarczą równoważnych wyników Rozdźwiek między teoretycznymi własnościami algorytmów a realnie stosowanymi algorytmami Brak koncepcji i benchmarków dla porównania algorytmów w przypadkach relewantnych praktycznie Brak koncepcji próbkowania grafu w zadaniach klasteryzacji

Nieśmiała propozycja Kryterium oceny jakości 1: Koszt i zyski fizycznej klasteryzacji obiektów Kryterium oceny jakości 2: Koszt, konieczność i zyski fizycznej reklasteryzacji obiektów w wypadku przewidywalnych zmian własności (połączeń) obiektów Kryterium oceny jakości 3: wyuczalność ekonomicznej w powyższym sensie klasteryzacji z próbki Idea próbkowania poprzez męczącego się losowego wędrowca.

Dziękuję Dziękuję za uwagę. Uwagi, pytania, komentarze???