Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

Michał Kozielski Łukasz Warchał Instytut Informatyki, Politechnika Śląska

Algorytm DBSCAN Algorytm OPTICS Analiza gęstego sąsiedztwa w grafie Wstępne eksperymenty Podsumowanie

Algorytm DBSCAN Analiza gęstości danych Wyznaczenie grup o dowolnym kształcie Wskazanie obiektów danych nie należących do żadnej grupy (szum)

Algorytm DBSCAN M. Ester, H. P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases with noise. Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD 96), pages 226 231, 1996.

Algorytm DBSCAN Parametry wejściowe Promień ε określający sąsiedztwo Liczba obiektów danych m stanowiąca o gęstości sąsiedztwa

Algorytm DBSCAN 1. for każdy obiekt o nie należący do żadnej grupy 2. wyznacz sąsiedztwo(o,ε) 3. if sąsiedztwo(o,ε) < m 4. o szum 5. else 6. utwórz grupę z sąsiedztwa o 7. for każdy obiekt p należący do gęstego sąsiedztwa 8. wyznacz sąsiedztwo(p,ε) 9. if sąsiedztwo(p,ε) >= m 10. for każdy obiekt należący do gęstego sąsiedztwa 11. if obiekt nie należy do grupy 12. dodaj obiekt do grupy 13. if obiekt nie jest szumem 14. dodaj obiekt do analizowanego dalej gęstego sąsiedztwa

Algorytm DBSCAN 1. for każdy obiekt o nie należący do żadnej grupy 2. wyznacz sąsiedztwo(o,ε) 3. if sąsiedztwo(o,ε) < m 4. o szum 5. else

Algorytm DBSCAN 5. else 6. utwórz grupę z sąsiedztwa o

Algorytm DBSCAN 5. else 6. utwórz grupę z sąsiedztwa o 7. for każdy obiekt p należący do gęstego sąsiedztwa 8. wyznacz sąsiedztwo(p,ε)

Algorytm DBSCAN 9. if sąsiedztwo(p,ε) >= m 10. for każdy obiekt należący do gęstego sąsiedztwa 11. if obiekt nie należy do grupy 12. dodaj obiekt do grupy

Algorytm DBSCAN 13. if obiekt nie jest szumem 14. dodaj obiekt do analizowanego dalej gęstego sąsiedztwa

Algorytm DBSCAN M. Ester, H. P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases with noise. Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD 96), pages 226 231, 1996.

Algorytm DBSCAN

Algorytm OPTICS

Algorytm DBSCAN Podsumowanie Parametry wejściowe Promień ε określający sąsiedztwo Liczba obiektów danych m stanowiąca o gęstości sąsiedztwa Wynik grupowania Podział na grupy Grupa zawierająca szum Złożoność O(n logn)

Definicja gęstego sąsiedztwa w grafie Wysoki stopień węzła Wysoka wartość współczynnika grupowania dla węzła dla krawędzi Duża liczba powiązanych trójkątów

Przegląd istniejących rozwiązań Falkowski T., Barth A., Spiliopoulou M. DENGRAPH: A Density-based Community Detection Algorithm, IEEE/WIC/ACM International Conference on Web Intelligence, 2008, pp. 112 115 Zastosowanie DBSCAN do analizy grafu Odległość węzłów definiowana poprzez intensywność relacji

Przegląd istniejących rozwiązań Bródka, P.; Musial, K.; Kazienko, P.; A Method for Group Extraction in Complex Social Networks, CCIS Vol. 111, 2010, pp. 238-247 Zastosowanie operacji union i intersect wykorzystywanych także w analizie gęstości danych o wielu reprezentacjach Wykorzystanie współczynnika grupowania

Przegląd istniejących rozwiązań Günnemann S., Boden B. and Seidl T., DB-CSC: A Density-Based Approach for Subspace Clustering in Graphs with Feature Vectors. LNCS, Vol. 6911, 2011, pp. 565-580 Analiza grafu i jego reprezentacji w podprzestrzeniach atrybutów Zastosowanie operacji union i intersect wykorzystywanych także w analizie gęstości danych o wielu reprezentacjach

DBSCAN dla grafu Modyfikacja algorytmu Rozszerzanie grupy na podstawie struktury Macierz odległości Wyznaczenie odległości na podstawie struktury

Algorytm Girvan-Newman

Algorytm Clasuet et al.

Analiza ewolucji społeczności Adaptacja metody IncrementalDBSCAN Identyfikacja społeczności opisanych w dziedzinie atrybutów Modyfikacja DB-CSC

Ankerst M., Breunig M., Kriegel H.P., Sander J.: OPTICS: ordering points to identify the clustering structure, SIGMOD Rec., 1999, Vol. 28, No 2, pp. 49-60. M. Ester, H. P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases with noise. Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD 96), pages 226 231, 1996.