Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

Podobne dokumenty
CLUSTERING II. Efektywne metody grupowania danych

GĘSTOŚCIOWA METODA GRUPOWANIA I WIZUALIZACJI DANYCH ZŁOŻONYCH

Analiza skupień. Idea

DBSCAN segmentacja danych punktowych oraz rastrowych w środowisku wolnodostępnego oprogramowania R

Badania w sieciach złożonych

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Przegląd darmowego oprogramowania do analizy dużych zbiorów danych

WYBÓR ALGORYTMU GRUPOWANIA A EFEKTYWNOŚĆ WYSZUKIWANIA DOKUMENTÓW

LEMRG algorytm generowania pokoleń reguł decyzji dla baz danych z dużą liczbą atrybutów

Rozpoznawanie: Klasteryzacja zbioru ofert sprzedaży mieszkania.

Grafowy model bazy danych na przykładzie GOOD

Zastosowanie sztucznej inteligencji w testowaniu oprogramowania

Implementacja wybranych algorytmów eksploracji danych na Oracle 10g

Metoda klasteryzacji i segmentacji mikrozwapnień w celu redukcji wskazań fałszywych przy komputerowym wspomaganiu mammografii

TEORIA GRAFÓW I SIECI

Porównanie algorytmów wyszukiwania najkrótszych ścieżek międz. grafu. Daniel Golubiewski. 22 listopada Instytut Informatyki

Planowanie przejazdu przez zbiór punktów. zadania zrobotyzowanej inspekcji

STUDIA INFORMATICA 2011 Volume 32 Number 2A (96)

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Optymalizacja reguł decyzyjnych względem pokrycia

STUDIA INFORMATICA 2014 Volume 35 Number 2 (116)

Krzysztof Kutt Sprawozdanie 2: Modeling knowledge with Resource Description Framework (RDF)

Przestrzeń algorytmów klastrowania

Algorytm dyskretnego PSO z przeszukiwaniem lokalnym w problemie dynamicznej wersji TSP

Symulacje geometrycznych sieci neuronowych w środowisku rozproszonym

Informatyka w szkole - algorytm Dijkstry dla każdego. Krzysztof Diks Instytut Informatyki, Uniwersytet Warszawski

Grafy Alberta-Barabasiego

Zastosowania metod odkrywania wiedzy do diagnostyki maszyn i procesów

METODY REPREZENTACJI DANYCH ZŁOŻONYCH

Harmonogramowanie przedsięwzięć

Analiza konstrukcji zawierających wskaźniki. Piotr Błaszyński

Centralność w sieciach społecznych. Radosław Michalski Social Network Group - kwiecień 2009

Sztuczna inteligencja : Algorytm KNN

ANALIZA GRUP W SERWISACH SPOŁECZNOŚCIOWYCH 1

Podstawy programowania. Wykład 7 Tablice wielowymiarowe, SOA, AOS, itp. Krzysztof Banaś Podstawy programowania 1

Znajdowanie skojarzeń na maszynie równoległej

Wprowadzenie do technologii informacyjnej.

Wykład 8. Drzewo rozpinające (minimum spanning tree)

Równowaga Heidera symulacje mitozy społecznej

Analiza Skupień - Grupowanie Zaawansowana Eksploracja Danych

Sprawozdanie do zadania numer 2

Porównanie wydajności CUDA i OpenCL na przykładzie równoległego algorytmu wyznaczania wartości funkcji celu dla problemu gniazdowego

Próba formalizacji doboru parametrów generalizacji miejscowości dla opracowań w skalach przeglądowych

Grafy i Zastosowania. 5: Drzewa Rozpinające. c Marcin Sydow. Drzewa rozpinające. Cykle i rozcięcia fundamentalne. Zastosowania

Sieci Społeczne i Analiza Sieci. P. Kazienko and K. Musial Instytut Informatyki Stosowanej, Politechnika Wrocławska Wrocław, 25 Października 2007

Model relacyjny. Wykład II

PROBLEM ROZMIESZCZENIA MASZYN LICZĄCYCH W DUŻYCH SYSTEMACH PRZEMYSŁOWYCH AUTOMATYCZNIE STEROWANYCH

Siedem cudów informatyki czyli o algorytmach zdumiewajacych

Reprezentacje grafów nieskierowanych Reprezentacje grafów skierowanych. Wykład 2. Reprezentacja komputerowa grafów

Detekcja punktów zainteresowania

Wstęp do Informatyki i Programowania (kierunek matematyka stosowana)

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

Informatyka I. Wykład 3. Sterowanie wykonaniem programu. Instrukcje warunkowe Instrukcje pętli. Dr inż. Andrzej Czerepicki

Budowa modeli klasyfikacyjnych o skośnych warunkach

Praca dyplomowa magisterska

Jarosław Kuchta Jakość Systemów Informatycznych Jakość Oprogramowania. Pomiary w inżynierii oprogramowania

Synteza i eksploracja danych sekwencyjnych

Sortowanie topologiczne skierowanych grafów acyklicznych

Informatyka I. Klasy i obiekty. Podstawy programowania obiektowego. dr inż. Andrzej Czerepicki. Politechnika Warszawska Wydział Transportu 2018

Elementy analizy obrazu. W04

Modelowanie sieci złożonych

Algorytmy i Struktury Danych.

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Algorytmy równoległe. Rafał Walkowiak Politechnika Poznańska Studia inżynierskie Informatyka 2010

E: Rekonstrukcja ewolucji. Algorytmy filogenetyczne

Język programowania komputerów kwantowych oparty o model macierzy gęstości

sieci społecznych metodą analizy - future work...

WSTĘP I TAKSONOMIA METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING. Adrian Horzyk. Akademia Górniczo-Hutnicza

Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami

Przykłady grafów. Graf prosty, to graf bez pętli i bez krawędzi wielokrotnych.

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych

(Raport cząstkowy z prac realizowanych w ramach projektu pt. Inteligentne metody analizy szans i zagrożeń w procesie kształcenia)

4.3 Grupowanie według podobieństwa

SZTUCZNA INTELIGENCJA

BIBLIOTEKA PROGRAMU R - BIOPS. Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat

Adrian Horzyk

3 grudnia Sieć Semantyczna

Model relacyjny. Wykład II

Plan Prezentacji Wprowadzenie Telefonia IP a bezpieczeństwo istotne usługi ochrony informacji i komunikacji w sieci Klasyczna architektura bezpieczeńs

Algorytm grupowania oparty o łańcuch reguł dyskryminacyjnych

Analiza stanów gry na potrzeby UCT w DVRP

Programowanie dynamiczne

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

WYKŁAD 3. Przykłady zmian w obrazie po zastosowaniu Uniwersalnego Operatora Punktowego

Zastosowanie algorytmu DBSCAN do grupowania danych rozproszonych

Rozwiązywanie problemów metodą przeszukiwania

PARTYCJONOWANIE GRAFÓW A OPTYMALIZACJA WYKONANIA ZBIORU ZAPYTAŃ EKSPLORACYJNYCH

Grafem nazywamy strukturę G = (V, E): V zbiór węzłów lub wierzchołków, Grafy dzielimy na grafy skierowane i nieskierowane:

Ogólne wiadomości o grafach

Algorytmy Komunikacyjne dla Trójwymiarowych Sieci Opartych na Plastrze Miodu. Ireneusz Szcześniak. Politechnika Śląska 20 czerwca 2002 r.

Algorytmy heurystyczne w UCB dla DVRP

ANALIZA ZASOBÓW INTERNETOWYCH NA PODSTAWIE STRUKTURY POŁĄCZEŃ

Data Warehouse Physical Design: Part III

Detekcja motywów w złożonych strukturach sieciowych perspektywy zastosowań Krzysztof Juszczyszyn

Analiza Algorytmów 2018/2019 (zadania na laboratorium)

Algorytmy redukcji danych w uczeniu maszynowym i eksploracji danych. Dr inŝ. Ireneusz Czarnowski Akademia Morska w Gdyni

Wykrywanie istotnych i nieistotnych fragmentów stron WWW

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Wstęp do Sztucznej Inteligencji

Transkrypt:

Michał Kozielski Łukasz Warchał Instytut Informatyki, Politechnika Śląska

Algorytm DBSCAN Algorytm OPTICS Analiza gęstego sąsiedztwa w grafie Wstępne eksperymenty Podsumowanie

Algorytm DBSCAN Analiza gęstości danych Wyznaczenie grup o dowolnym kształcie Wskazanie obiektów danych nie należących do żadnej grupy (szum)

Algorytm DBSCAN M. Ester, H. P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases with noise. Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD 96), pages 226 231, 1996.

Algorytm DBSCAN Parametry wejściowe Promień ε określający sąsiedztwo Liczba obiektów danych m stanowiąca o gęstości sąsiedztwa

Algorytm DBSCAN 1. for każdy obiekt o nie należący do żadnej grupy 2. wyznacz sąsiedztwo(o,ε) 3. if sąsiedztwo(o,ε) < m 4. o szum 5. else 6. utwórz grupę z sąsiedztwa o 7. for każdy obiekt p należący do gęstego sąsiedztwa 8. wyznacz sąsiedztwo(p,ε) 9. if sąsiedztwo(p,ε) >= m 10. for każdy obiekt należący do gęstego sąsiedztwa 11. if obiekt nie należy do grupy 12. dodaj obiekt do grupy 13. if obiekt nie jest szumem 14. dodaj obiekt do analizowanego dalej gęstego sąsiedztwa

Algorytm DBSCAN 1. for każdy obiekt o nie należący do żadnej grupy 2. wyznacz sąsiedztwo(o,ε) 3. if sąsiedztwo(o,ε) < m 4. o szum 5. else

Algorytm DBSCAN 1. for każdy obiekt o nie należący do żadnej grupy 2. wyznacz sąsiedztwo(o,ε) 3. if sąsiedztwo(o,ε) < m 4. o szum 5. else

Algorytm DBSCAN 1. for każdy obiekt o nie należący do żadnej grupy 2. wyznacz sąsiedztwo(o,ε) 3. if sąsiedztwo(o,ε) < m 4. o szum 5. else

Algorytm DBSCAN 5. else 6. utwórz grupę z sąsiedztwa o

Algorytm DBSCAN 5. else 6. utwórz grupę z sąsiedztwa o 7. for każdy obiekt p należący do gęstego sąsiedztwa 8. wyznacz sąsiedztwo(p,ε)

Algorytm DBSCAN 9. if sąsiedztwo(p,ε) >= m 10. for każdy obiekt należący do gęstego sąsiedztwa 11. if obiekt nie należy do grupy 12. dodaj obiekt do grupy

Algorytm DBSCAN 9. if sąsiedztwo(p,ε) >= m 10. for każdy obiekt należący do gęstego sąsiedztwa 11. if obiekt nie należy do grupy 12. dodaj obiekt do grupy

Algorytm DBSCAN 13. if obiekt nie jest szumem 14. dodaj obiekt do analizowanego dalej gęstego sąsiedztwa

Algorytm DBSCAN 13. if obiekt nie jest szumem 14. dodaj obiekt do analizowanego dalej gęstego sąsiedztwa

Algorytm DBSCAN M. Ester, H. P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases with noise. Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD 96), pages 226 231, 1996.

Algorytm DBSCAN M. Ester, H. P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases with noise. Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD 96), pages 226 231, 1996.

Algorytm DBSCAN

Algorytm DBSCAN

Algorytm DBSCAN

Algorytm DBSCAN

Algorytm DBSCAN

Algorytm DBSCAN

Algorytm OPTICS

Algorytm OPTICS

Algorytm DBSCAN Podsumowanie Parametry wejściowe Promień ε określający sąsiedztwo Liczba obiektów danych m stanowiąca o gęstości sąsiedztwa Wynik grupowania Podział na grupy Grupa zawierająca szum Złożoność O(n logn)

Definicja gęstego sąsiedztwa w grafie Wysoki stopień węzła Wysoka wartość współczynnika grupowania dla węzła dla krawędzi Duża liczba powiązanych trójkątów

Przegląd istniejących rozwiązań Falkowski T., Barth A., Spiliopoulou M. DENGRAPH: A Density-based Community Detection Algorithm, IEEE/WIC/ACM International Conference on Web Intelligence, 2008, pp. 112 115 Zastosowanie DBSCAN do analizy grafu Odległość węzłów definiowana poprzez intensywność relacji

Przegląd istniejących rozwiązań Bródka, P.; Musial, K.; Kazienko, P.; A Method for Group Extraction in Complex Social Networks, CCIS Vol. 111, 2010, pp. 238-247 Zastosowanie operacji union i intersect wykorzystywanych także w analizie gęstości danych o wielu reprezentacjach Wykorzystanie współczynnika grupowania

Przegląd istniejących rozwiązań Günnemann S., Boden B. and Seidl T., DB-CSC: A Density-Based Approach for Subspace Clustering in Graphs with Feature Vectors. LNCS, Vol. 6911, 2011, pp. 565-580 Analiza grafu i jego reprezentacji w podprzestrzeniach atrybutów Zastosowanie operacji union i intersect wykorzystywanych także w analizie gęstości danych o wielu reprezentacjach

DBSCAN dla grafu Modyfikacja algorytmu Rozszerzanie grupy na podstawie struktury Macierz odległości Wyznaczenie odległości na podstawie struktury

Algorytm Girvan-Newman

Algorytm Clasuet et al.

Analiza ewolucji społeczności Adaptacja metody IncrementalDBSCAN Identyfikacja społeczności opisanych w dziedzinie atrybutów Modyfikacja DB-CSC

Ankerst M., Breunig M., Kriegel H.P., Sander J.: OPTICS: ordering points to identify the clustering structure, SIGMOD Rec., 1999, Vol. 28, No 2, pp. 49-60. M. Ester, H. P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases with noise. Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD 96), pages 226 231, 1996.