Analiza Skupień - Grupowanie Zaawansowana Eksploracja Danych

Podobne dokumenty
Analiza Skupień - Grupowanie Zaawansowana Eksploracja Danych. JERZY STEFANOWSKI Inst. Informatyki PP Wersja dla TPD 2009

CLUSTERING II. Efektywne metody grupowania danych

Analiza Skupień - Grupowanie Zaawansowana Eksploracja Danych

Zagadnienie klasyfikacji (dyskryminacji)

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Analiza Skupień - Grupowanie Zaawansowana Eksploracja Danych

Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska

CLUSTERING. Metody grupowania danych

Analiza skupień. Idea

Plan wykładów. Co to jest analiza skupień i grupowanie Zastosowania Podział algorytmów Szczegóły:

DBSCAN segmentacja danych punktowych oraz rastrowych w środowisku wolnodostępnego oprogramowania R

Wprowadzenie do technologii informacyjnej.

Podstawy grupowania danych w programie RapidMiner Michał Bereta

Systemy uczące się Lab 4

Opis efektów kształcenia dla modułu zajęć

dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Grupowanie. Iteracyjno-optymalizacyjne metody grupowania Algorytm k-średnich Algorytm k-medoidów. Eksploracja danych. Grupowanie wykład 2

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

SAS wybrane elementy. DATA MINING Część III. Seweryn Kowalski 2006

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

Analiza Skupień Cluster analysis

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

Hierarchiczna analiza skupień

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Analiza danych. TEMATYKA PRZEDMIOTU

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.

4.3 Grupowanie według podobieństwa

Analiza i wizualizacja danych Data analysis and visualization

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Analiza danych i data mining.

Wykrywanie nietypowości w danych rzeczywistych

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Czym jest analiza skupień?

Przykład Rezygnacja z usług operatora

Zalew danych skąd się biorą dane? są generowane przez banki, ubezpieczalnie, sieci handlowe, dane eksperymentalne, Web, tekst, e_handel

Implementacja wybranych algorytmów eksploracji danych na Oracle 10g

Monitorowanie sytuacji drogowej w oparciu o dane z sieci GSM. promotor: dr hab. inż. Andrzej Jaszkiewicz

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Ewelina Dziura Krzysztof Maryański

Sylabus modułu kształcenia na studiach wyższych. Nazwa Wydziału. Nazwa jednostki prowadzącej moduł Nazwa modułu kształcenia.

SYLABUS. Dotyczy cyklu kształcenia Realizacja w roku akademickim 2016/2017. Wydział Matematyczno - Przyrodniczy

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Analiza skupień. Idea

Optymalizacja ciągła

Opis efektów kształcenia dla modułu zajęć

Algorytm indukcji klasyfikatora za pomocą EA z automatycznym przełączaniem ukierunkowań

Data Mining Wykład 4. Plan wykładu

4.1. Wprowadzenie Podstawowe definicje Algorytm określania wartości parametrów w regresji logistycznej...74

Inżynieria danych I stopień Praktyczny Studia stacjonarne Wszystkie specjalności Katedra Inżynierii Produkcji Dr Małgorzata Lucińska

Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

Rok akademicki: 2017/2018 Kod: JIS AD-s Punkty ECTS: 5. Kierunek: Informatyka Stosowana Specjalność: Modelowanie i analiza danych

TEORETYCZNE PODSTAWY INFORMATYKI

Agnieszka Nowak Brzezińska


Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

STATYSTYKA I DOŚWIADCZALNICTWO

Techniki grupowania danych w środowisku Matlab

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Metody zbiorów przybliżonych w uczeniu się podobieństwa z wielowymiarowych zbiorów danych

Kurs Chemometrii Poznań 28 listopad 2006

Metoda generowania typowych scenariuszy awaryjnych w zakładach dużego i zwiększonego ryzyka - ExSysAWZ

Agnieszka Nowak Brzezińska Wykład III

Algorytmy metaheurystyczne Wykład 11. Piotr Syga

GĘSTOŚCIOWA METODA GRUPOWANIA I WIZUALIZACJI DANYCH ZŁOŻONYCH

CLUSTERING METODY GRUPOWANIA DANYCH

Agnieszka Nowak Brzezińska Wykład III

Kryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji

Adrian Horzyk

Sortowanie. Bartman Jacek Algorytmy i struktury

Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów

PODSTAWY BAZ DANYCH. 19. Perspektywy baz danych. 2009/2010 Notatki do wykładu "Podstawy baz danych"

1. Grupowanie Algorytmy grupowania:

5. Wprowadzenie do prawdopodobieństwa Wprowadzenie Wyniki i zdarzenia Różne podejścia do prawdopodobieństwa Zdarzenia wzajemnie wykluczające się i

A Zadanie

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Algorytmy i bazy danych (wykład obowiązkowy dla wszystkich)

WYBÓR ALGORYTMU GRUPOWANIA A EFEKTYWNOŚĆ WYSZUKIWANIA DOKUMENTÓW

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych

Text mining w programie RapidMiner Michał Bereta

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Dopasowywanie modelu do danych

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Algorytm grupowania danych typu kwantyzacji wektorów

Sieci Kohonena Grupowanie

Widzenie komputerowe (computer vision)

< K (2) = ( Adams, John ), P (2) = adres bloku 2 > < K (1) = ( Aaron, Ed ), P (1) = adres bloku 1 >

Eksploracja danych - wykład II

StatSoft profesjonalny partner w zakresie analizy danych

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

opis sprzęgło alternatora zastosowanie: OPEL opis sprzęgło alternatora zastosowanie: FORD opis sprzęgło alternatora zastosowanie: FORD opis

Algorytmy równoległe: ocena efektywności prostych algorytmów dla systemów wielokomputerowych

Transkrypt:

Analiza Skupień - Grupowanie Zaawansowana Eksploracja Danych JERZY STEFANOWSKI Inst. Informatyki PP Wersja dla TPD 2013 Część II

Organizacja wykładu Przypomnienie wyboru liczby skupień Studium przypadku użycia Rozszerzenia dla analizy danych o większych rozmiarach. Podsumowanie

Referencje do literatury (przykładowe) Koronacki J. Statystyczne systemy uczące się, WNT 2005. Pociecha J., Podolec B., Sokołowski A., Zając K. Metody taksonomiczne w badaniach społeczno-ekonomicznych. PWN, Warszawa 1988, Stąpor K. Automatyczna klasyfikacja obiektów Akademicka Oficyna Wydawnicza EXIT, Warszawa 2005. Hand, Mannila, Smyth, Eksploracja danych, WNT 2005. Larose D: Odkrywania wiedzy z danych, PWN 2006. T.Morzy: Eksploracja danych, PWN 2013. Kucharczyk J. Algorytmy analizy skupień w języku ALGOL 60 PWN Warszawa, 1982, Materiały szkoleniowe firmy Statsoft. Inne polecane przez. wykładowcę

Jak wybrać liczbę skupień?

Przykłady Analiza skupień w Statsoft -Statistica

Analiza Skupień Statistica; więcej na www.statsoft.com. Przykład analizy danych o parametrach samochodów

Wrażliwość na dobór metod łączenia skupień Diagram dla 22 przyp. Pojedyncze wiązanie Odległości euklidesowe ACURA AUDI RCEDES RYSLER DODGE VW HONDA ONTIAC SAAB VOLVO NISSAN BMW MITSUB. BUICK OLDS MAZDA OYOTA RVETTE FORD RSCHE ISUZU EAGLE 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 Odległość wiąz. ACURA OLDS CHRYSLER DODGE VW HONDA PONTIAC NISSAN MITSUB. AUDI MERCEDES BMW SAAB VOLVO BUICK MAZDA TOYOTA FORD CORVETTE PORSCHE EAGLE ISUZU Diagram dla 22 przyp. Metoda Warda Odległości euklidesowe 0 1 2 3 4 5 6 7 8

Przykłady użycia metody Warda ACURA OLDS RYSLER DODGE VW HONDA ONTIAC NISSAN MITSUB. AUDI CEDES BMW SAAB VOLVO BUICK MAZDA OYOTA FORD RVETTE RSCHE EAGLE ISUZU Diagram dla 22 przyp. Metoda Warda Odległości euklidesowe 0 1 2 3 4 5 6 7 8 9 Odległość wiąz. Cars data Diagram dla 22 przyp. Metoda Warda 1-r Pearsona ACURA NISSAN HONDA MITSUB. OLDS ISUZU VOLVO BUICK CHRYSLER PONTIAC DODGE VW FORD AUDI MERCEDES BMW CORVETTE PORSCHE EAGLE MAZDA TOYOTA SAAB 0 1 2 3 4 5 6 7

Dendrogram for Single Linkage ACURA AUDI MERCEDES CHRYSLER DODGE VW HONDA PONTIAC SAAB VOLVO NISSAN BMW MITSUB. BUICK OLDS MAZDA TOYOTA CORVETTE FORD PORSCHE ISUZU EAGLE Diagram dla 22 przyp. Pojedyncze wiązanie Odległości euklidesowe 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 Odległość wiąz.

Opis tworzenia dendrogramu Łączenie obiektów w kolejnych krokach

Analiza procesu łączenia Wykres kolankowy a cut point ( kolanko / knee) 5,0 Wykres odległości wiązania względem etapów wiązania Odległości euklidesowe 4,5 4,0 3,5 Odległość wiązan 3,0 2,5 2,0 1,5 1,0 0,5 0,0 0 2 4 6 8 10 12 14 16 18 20 22 Wiązania Odległ. Etap

Analiza Skupień optymalizacja k-średnich

Wsparcie do charakterystyki skupień 2,0 Wykres średnich każdego skupienia 1,5 1,0 0,5 0,0-0,5-1,0-1,5-2,0 CENA PRZYSP HAMOWAN WSK_TRZY ZUŻYCIE Zmienne Skup Nr 1 Skup Nr 2 Skup Nr 3 Skup Nr 4

Wizualizacja centroidów

Inne narzędzia Analiza skupień wweka

WEKA zakładka Clustering Stopniowy przyrost implementacji k-means EM Cobweb X-means FarthestFirst DbScann Oraz nowe Możliwości prostej wizualizacji i ew. porównania przydziałów do wzorcowej klasyfikacji jeśli jest dostepna w pliku arff

Przykład 1. Bank data in WEKA Prosty przykład sample of customers of the bank Bank data (bank-data.cvs -> bank.arff) Pre-processing wykonany na wersji cvs 600 klientów opisanych przez 11 atrybutó id,age,sex,region,income,married,children,car,save_act,current_act,mortgage,pep ID12101,48,FEMALE,INNER_CITY,17546.0,NO,1,NO,NO,NO,NO,YES ID12102,40,MALE,TOWN,30085.1,YES,3,YES,NO,YES,YES,NO ID12103,51,FEMALE,INNER_CITY,16575.4,YES,0,YES,YES,YES,NO,NO ID12104,23,FEMALE,TOWN,20375.4,YES,3,NO,NO,YES,NO,NO ID12105,57,FEMALE,RURAL,50576.3,YES,0,NO,YES,NO,NO,NO... Skorzystaj z k-means

Charakterystyka danych

Simple k-means Dobór parametrów

Clustering results Jak analizować okno z wynikami

Okno wynikowe Co można odnaleźć Jak opisano centra skupień?

Gdzie jest przydział do skupień?

Ocena jakości skupień

Dwa różne spojrzenia Wewnętrzne (ocena tylko charakterystyki skupień) Brak dodatkowych źródeł informacji, np. zbioru odniesienia etykiet Miary oceny oparte na danych (internal measures) Zewnętrzne Benchmarking on existing labels Porównanie skupień z tzw. ground-truth categories / partitions Ocena ekspercka

Czy można poszukiwać pojedynczej miary Pewne trudne rady

Ocena jakości skupień Miary oceny oparte na danych (internal measures) Oparte na odległościach lub Duże podobieństwo obiektów wewnątrz skupienia (Compactness) Same skupienia dość odległe (Isolation) Intra-cluster distances are minimized Inter-cluster distances are maximized

Typowe miary zmienności skupień Intuicja zmienność wewnątrz-skupieniowa wc(c) i zmienność między-skupieniowa bc(c) Można definiować różnymi sposobami Wykorzystaj średni obiekt w skupieniu r k (centroids) Wtedy, np. = K Ck k = 1 = j< k K wc( C) d( x, r x bc( C) d( r, r ) 1 Zamiast bc odległość od globalnego centrum danych (interclass distance) id = d( rj, rglob) C j Preferencja dla zwartych, jednorodnych skupień dość odległych od centrum danych j k ) k r k = n 1 k x Ck x

Inne kryteria wewnętrznej jakości skupień Compactness determining the weakest connection within the cluster, i.e., the largest distance between two objects Ri and Rk within the cluster. Isolation determining the strongest connection of a cluster to another cluster, i.e., the smallest distance between a cluster centroid and another cluster centroid. Object positioning the quality of clustering is determined by the extent to which each object Rj has been correctly positioned in given clusters

Dodatkowe zewnętrzne informacje Dysponujemy referencyjnymi etykietami

Odniesienie do zewnętrznego podziału Dostępne referencyjne etykiety (manually labeled data) Ekspert etykietuje w zależności od własności danych Istnieją benchmarki TREC, Reuterds, itp.. Tryb sem-supervised Różne podejścia: Accuracy of clustering: Percentage of pairs of tuples in the same cluster that share common label (etykiety w skupieniach) Faworyzujemy małe czyste skupienia Czy powinniśmy mieć zgodność liczby skupień i etykiet

Ogólne zasady Homogeneity - Jednorodności Każde skupienie zawiera przykłady z jak najmniejszej liczby etykiet klas Idealnie tylko jedna klasa Completeness Każda klasy reprezentowana w możliwe najmniejszej liczbie skupień Typowe miary Purity F-miara

Purity najprostsza miara

Subiektywizm eksperta Możliwe różne punkty widzenia

Ocena grupowania Inna niż w przypadku uczenia nadzorowanego (predykcji wartości) Poprawność grupowania zależna od oceny obserwatora / analityka Różne metody AS są skuteczne przy różnych rodzajach skupień i założeniach, co do danych: Co rozumie się przez skupienie, jaki ma kształt, dobór miary odległości sferyczne vs. inne Dla pewnych metod i zastosowań: Miary zmienności wewnątrz i między skupieniowych Idea zbiorów kategorii odniesienia (np. TREC)

Grupowanie Dużych Repozytoriów Skalowalność (przykłady lecz także High dimensionality ) Uwzględnianie złożonych typów danych Konstruowanie dowolnych kształtów skupień Wspomaganie parametryzacji (jak dobrać k, parametry DBSCAN, itp.) Odporność na szum i obserwacje nietypowe Grupowanie przyrostowe Przetwarzanie strumieni danych Concept drift

Problemy i wyzwania Znaczący postęp w zakresie skalowalnych algorytmów: Partitioning: k-means, k-medoids, PAM, CLARANS Hierarchical: BIRCH, CURE Density-based: DBSCAN, CLIQUE, OPTICS Grid-based: STING, WaveCluster. Model-based: Autoclass, Denclue, Cobweb. Obecne techniki ciągle nie spełniają wystarczająco dobrze stawianych wymagań. Otwarte problemy i wyzwania badawcze; zwłaszcza dla nietypowych i złożonych danych.

etody hierarchiczne dla dużych zbiorów danych Niektóre z ograniczeń metod aglomeracyjnych: słaba skalowalność: złożoność czasowa przynajmniej O(n 2 ), gdzie n jest liczbą obiektów, krytyczne znaczenie decyzji o wyborze punktu połączenia kolejnych skupień w trakcie budowania drzewa hierarchii, algorytmy nie zmieniają, ani nie poprawiają, wcześniej podjętych decyzji. Rozwinięcia algorytmów hierarchicznych oraz ich integracja z metodami gęstościowymi: BIRCH (1996): użycie drzew CF-tree, uczenie przyrostowe i stopniowa poprawa jakości pod-skupień. CURE (1998): wybór losowy odpowiednio rozproszonych punktów, wstępne grupowanie z określeniem ich punktów reprezentatywnych, łączenie grup w nowe skupienia wraz z przesuwaniem punktów reprezentatywnych w stronę środków tworzonego skupienia zgodnie z shrinking factor α ; eliminacja wpływu outliners.

BIRCH ang. Balanced Iterative Reducing and Clustering using Hierarchies Zhang et al. (1996) Wykorzystuje hierarchiczne drzewo CF (Clustering Feature) Działanie algorytmu: Faza 1: przyrostowo przeczytaj raz DB w celu zbudowania w pamięci początkowej struktury drzewa CF (rodzaj wielopoziomowej kompresji danych zachowującej wewnętrzną strukturę zgrupowań danych). Faza 2: zastosuj wybrany (inny) algorytm skupień dla lepszego pogrupowania obiektów w liściach drzewa CF. Dobra skalowalność: znajduje zadawalające grupowanie po jednokrotnym przeczytaniu bazy danych i ulepsza je wykorzystując niedużo dodatkowych operacji odczytu DB. Ograniczenia: zaproponowany dla danych liczbowych, wrażliwość wyników na kolejność prezentacji przykładów.

CF Tree B = 7 L = 6 CF 1 CF 2 Root child 1 child 2 child 3 child 6 CF 3 CF 6 CF 1 CF 2 Non-leaf node child 1 child 2 child 3 child 5 CF 3 CF 5 Leaf node Leaf node prev CF 1 CF 2 CF 6 next prev CF 1 CF 2 CF 4 next

Metody gęstościowe Podstawowe metody wykorzystują miary odległości między obiektami Inne metody wykorzystują pojęcie gęstości (ang. density) lokalne sąsiedztwo punktu/skupienia, a także gęsto połączonych punktów Właściwości metod gęstościowych: Wykrywanie skupień o dowolnych kształtach (niesferycznych) Odporność na szum informacyjny Jednokrotne przeglądanie DB Potrzebna parametryzacja oceny gęstości i warunków zatrzymania Interesujące algorytmy: DBSCAN: Ester, et al. (KDD 96) OPTICS: Ankerst, et al (SIGMOD 99). DENCLUE: Hinneburg & D. Keim (KDD 98) CLIQUE: Agrawal, et al. (SIGMOD 98)

Modelowanie dowolnych kształtów

DBSCAN: Algorytm gęstościowy DBSCAN: Density Based Spatial Clustering of Applications with Noise. Wykorzystuje pojęcie density-based cluster : Skupienie będące maksymalnym zbiorem punktów gęsto połączonych density-connected points. Poszukuje się zgrupowań odpowiednio gęsto (blisko siebie) położonych obiektów (dense regions/clusters) odzielonych od siebie obszarami o niskiej gęstości ( noise ) Możliwość wykrywania skupień o dowolnym kształcie w obecności szumu informacyjnego (noise)

DBSCAN: Podstawowe pojęcia Parametry: Eps: Maksymalny promień sąsiedztwa MinPts: minimalna liczba punktów (obiektów) w Eps-sąsiedztwie badanego punktu N Eps (p): {punkt q należy do D dist(p,q) <= Eps} Directly density-reachable: A point p is directly densityreachable from a point q wrt. Eps, MinPts if 1) p belongs to N Eps (q) 2) core point condition: N Eps (q) >= MinPts q p MinPts = 5 Eps = 1 cm

DBSCAN: Podstawowe pojęcia (II) Density-reachable: A point p is density-reachable from a point q wrt. Eps, MinPts if there is a chain of points p 1,, p n, p 1 = q, p n = p such that p i+1 is directly density-reachable from p i q p 1 p Density-connected A point p is density-connected to a point q wrt. Eps, MinPts if there is a point o such that both, p and q are density-reachable from o wrt. Eps and MinPts. p o q

DBSCAN: General Ideas Outlier Border Core Eps = 1cm MinPts = 5

DBSCAN: Zarys algorytmu Wybierz punkt startowy p Odnajdź wszystkie punkty do gęstościowego osiągnięcia z p (density-reachable from p wrt Eps and MinPts). Jeśli p jest rdzeniem (core point), utwórz skupienie. Jeśli p jest punktem granicznym (border point) i żadne punkty nie są z niego gęstościowo osiągalne, DBSCAN wybiera następny punkt z bazy danych Proces jest konytuowany dopóki żaden nowy punkt nie może być dodany to dowolnego skupienia. Złożoność: O(nlog n) w przypadku użycia specjalnego spatial index, w przeciwnym razie O(n 2 ).

Clustering in Data Mining szukaj więcej!

Analiza skupień - podsumowanie Liczne i ważne zastosowanie praktyczne analizy skupień (AS). AS używana samodzielnie w zgłębianiu danych, lub jako jedno z narzędzi podczas wstępnego przetwarzania w procesie KDD. Jakość skupień i działanie wielu algorytmów związane są określeniem miary odległości obiektów. Podstawowe klasy metod: hierarchiczne, podziałowo/optymalizacyjne, gęstościowe, grid-based, wykorzystujące modele matematyczne (np. probabilistyczne lub neuronowe) Ważne zagadnienie to także wykrywanie obiektów nietypowych (outliers discovery).

Może pytanie lub komentarze?