Michał Kozielski Łukasz Warchał Instytut Informatyki, Politechnika Śląska
Algorytm DBSCAN Algorytm OPTICS Analiza gęstego sąsiedztwa w grafie Wstępne eksperymenty Podsumowanie
Algorytm DBSCAN Analiza gęstości danych Wyznaczenie grup o dowolnym kształcie Wskazanie obiektów danych nie należących do żadnej grupy (szum)
Algorytm DBSCAN M. Ester, H. P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases with noise. Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD 96), pages 226 231, 1996.
Algorytm DBSCAN Parametry wejściowe Promień ε określający sąsiedztwo Liczba obiektów danych m stanowiąca o gęstości sąsiedztwa
Algorytm DBSCAN 1. for każdy obiekt o nie należący do żadnej grupy 2. wyznacz sąsiedztwo(o,ε) 3. if sąsiedztwo(o,ε) < m 4. o szum 5. else 6. utwórz grupę z sąsiedztwa o 7. for każdy obiekt p należący do gęstego sąsiedztwa 8. wyznacz sąsiedztwo(p,ε) 9. if sąsiedztwo(p,ε) >= m 10. for każdy obiekt należący do gęstego sąsiedztwa 11. if obiekt nie należy do grupy 12. dodaj obiekt do grupy 13. if obiekt nie jest szumem 14. dodaj obiekt do analizowanego dalej gęstego sąsiedztwa
Algorytm DBSCAN 1. for każdy obiekt o nie należący do żadnej grupy 2. wyznacz sąsiedztwo(o,ε) 3. if sąsiedztwo(o,ε) < m 4. o szum 5. else
Algorytm DBSCAN 1. for każdy obiekt o nie należący do żadnej grupy 2. wyznacz sąsiedztwo(o,ε) 3. if sąsiedztwo(o,ε) < m 4. o szum 5. else
Algorytm DBSCAN 1. for każdy obiekt o nie należący do żadnej grupy 2. wyznacz sąsiedztwo(o,ε) 3. if sąsiedztwo(o,ε) < m 4. o szum 5. else
Algorytm DBSCAN 5. else 6. utwórz grupę z sąsiedztwa o
Algorytm DBSCAN 5. else 6. utwórz grupę z sąsiedztwa o 7. for każdy obiekt p należący do gęstego sąsiedztwa 8. wyznacz sąsiedztwo(p,ε)
Algorytm DBSCAN 9. if sąsiedztwo(p,ε) >= m 10. for każdy obiekt należący do gęstego sąsiedztwa 11. if obiekt nie należy do grupy 12. dodaj obiekt do grupy
Algorytm DBSCAN 9. if sąsiedztwo(p,ε) >= m 10. for każdy obiekt należący do gęstego sąsiedztwa 11. if obiekt nie należy do grupy 12. dodaj obiekt do grupy
Algorytm DBSCAN 13. if obiekt nie jest szumem 14. dodaj obiekt do analizowanego dalej gęstego sąsiedztwa
Algorytm DBSCAN 13. if obiekt nie jest szumem 14. dodaj obiekt do analizowanego dalej gęstego sąsiedztwa
Algorytm DBSCAN M. Ester, H. P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases with noise. Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD 96), pages 226 231, 1996.
Algorytm DBSCAN M. Ester, H. P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases with noise. Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD 96), pages 226 231, 1996.
Algorytm DBSCAN
Algorytm DBSCAN
Algorytm DBSCAN
Algorytm DBSCAN
Algorytm DBSCAN
Algorytm DBSCAN
Algorytm OPTICS
Algorytm OPTICS
Algorytm DBSCAN Podsumowanie Parametry wejściowe Promień ε określający sąsiedztwo Liczba obiektów danych m stanowiąca o gęstości sąsiedztwa Wynik grupowania Podział na grupy Grupa zawierająca szum Złożoność O(n logn)
Definicja gęstego sąsiedztwa w grafie Wysoki stopień węzła Wysoka wartość współczynnika grupowania dla węzła dla krawędzi Duża liczba powiązanych trójkątów
Przegląd istniejących rozwiązań Falkowski T., Barth A., Spiliopoulou M. DENGRAPH: A Density-based Community Detection Algorithm, IEEE/WIC/ACM International Conference on Web Intelligence, 2008, pp. 112 115 Zastosowanie DBSCAN do analizy grafu Odległość węzłów definiowana poprzez intensywność relacji
Przegląd istniejących rozwiązań Bródka, P.; Musial, K.; Kazienko, P.; A Method for Group Extraction in Complex Social Networks, CCIS Vol. 111, 2010, pp. 238-247 Zastosowanie operacji union i intersect wykorzystywanych także w analizie gęstości danych o wielu reprezentacjach Wykorzystanie współczynnika grupowania
Przegląd istniejących rozwiązań Günnemann S., Boden B. and Seidl T., DB-CSC: A Density-Based Approach for Subspace Clustering in Graphs with Feature Vectors. LNCS, Vol. 6911, 2011, pp. 565-580 Analiza grafu i jego reprezentacji w podprzestrzeniach atrybutów Zastosowanie operacji union i intersect wykorzystywanych także w analizie gęstości danych o wielu reprezentacjach
DBSCAN dla grafu Modyfikacja algorytmu Rozszerzanie grupy na podstawie struktury Macierz odległości Wyznaczenie odległości na podstawie struktury
Algorytm Girvan-Newman
Algorytm Clasuet et al.
Analiza ewolucji społeczności Adaptacja metody IncrementalDBSCAN Identyfikacja społeczności opisanych w dziedzinie atrybutów Modyfikacja DB-CSC
Ankerst M., Breunig M., Kriegel H.P., Sander J.: OPTICS: ordering points to identify the clustering structure, SIGMOD Rec., 1999, Vol. 28, No 2, pp. 49-60. M. Ester, H. P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases with noise. Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD 96), pages 226 231, 1996.