Eksploracja danych. Grupowanie danych

Podobne dokumenty
Kier. MTR Programowanie w MATLABie Laboratorium Ćw. 12

Parametry zmiennej losowej

SYSTEMY UCZĄCE SIĘ WYKŁAD 5. LINIOWE METODY KLASYFIKACJI. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

STATYSTYKA. Zmienna losowa skokowa i jej rozkład

Ćw. 5. Wyznaczanie współczynnika sprężystości przy pomocy wahadła sprężynowego

Prawdopodobieństwo i statystyka r.

N ( µ, σ ). Wyznacz estymatory parametrów µ i. Y które są niezależnymi zmiennymi losowymi.

Fizyka 1- Mechanika. Wykład 7 16.XI Zygmunt Szefliński Środowiskowe Laboratorium Ciężkich Jonów

Dr Krzysztof Piontek. Metody taksonomiczne Klasyfikacja i porządkowanie

DRGANIA MECHANICZNE. materiały uzupełniające do ćwiczeń. Wydział Samochodów i Maszyn Roboczych studia inżynierskie

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

= σ σ. 5. CML Capital Market Line, Rynkowa Linia Kapitału

Definicje ogólne

Nieliniowe zadanie optymalizacji bez ograniczeń numeryczne metody iteracyjne optymalizacji

Podstawy rachunku prawdopodobieństwa (przypomnienie)

2 PRAKTYCZNA REALIZACJA PRZEMIANY ADIABATYCZNEJ. 2.1 Wprowadzenie

Algorytm wyznaczania krotności diagnostycznej struktury opiniowania diagnostycznego typu PMC 1

Diagonalizacja macierzy kwadratowej

F - wypadkowa sił działających na cząstkę.

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

EFEKTYWNA STOPA PROCENTOWA O RÓWNOWAŻNA STPOPA PROCENTOWA

Markowa. ZałoŜenia schematu Gaussa-

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

MODEL ROZMYTY WYBORU SAMOCHODU W NAJWYŻSZYM STOPNIU SPEŁNIAJĄCEGO PREFERENCJE KLIENTA

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

punktów ciała w dowolnej fazie deformacji. W chwili początkowej, tuż przed przyłożeniem obciążenia, mamy oczywiście (1)

RÓWNOLEGŁY ALGORYTM NEURO-TABU DLA PROBLEMU GNIAZDOWEGO SZEREGOWANIA ZADAŃ

PERMUTACJE Permutacją zbioru n-elementowego X nazywamy dowolną wzajemnie jednoznaczną funkcję f : X X X

Wrocław 2003 STATECZNOŚĆ. STATYKA 2 - projekt 1 zadanie 2

PROBLEMATYKA DOBORU MIARY ODLEGŁOŚCI W KLASYFIKACJI SPEKTRALNEJ DANYCH SYMBOLICZNYCH

WYKŁAD 5 METODY OPTYMALIZACJI NIELINIOWEJ BEZ OGRANICZEŃ

Równania rekurencyjne

JEDNOWYMIAROWA ZMIENNA LOSOWA

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

Metody Numeryczne 2017/2018

Zaawansowane metody numeryczne

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

Prawdopodobieństwo i statystyka

Podstawowe techniki zliczania obiektów kombinatorycznych. Szufladkowa zasada Dirichleta, Zasada włączeń i wyłączeń.

SZTUCZNA INTELIGENCJA

Wybrane rozkłady zmiennych losowych i ich charakterystyki

Reprezentacje grup symetrii. g s


p Z(G). (G : Z({x i })),

max Wydział Elektroniki studia I st. Elektronika III r. EZI Technika optymalizacji Dr inż. Ewa Szlachcic

BADANIE WYBRANYCH PROCEDUR I STRATEGII EKSPLOATACYJNYCH

Lista 6. Kamil Matuszewski 26 listopada 2015

Ćwiczenie 10. Metody eksploracji danych

Warunek równowagi bryły sztywnej: Znikanie sumy sił przyłożonych i sumy momentów sił przyłożonych.

Badania sondażowe. Braki danych Konstrukcja wag. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

IN YNIERIA BEZPIECZE STWA LABORATORIUM NR 6

Laboratorium ochrony danych

Modele wieloczynnikowe. Modele wieloczynnikowe. Modele wieloczynnikowe ogólne. α β β β ε. Analiza i Zarządzanie Portfelem cz. 4.

JEDNOWYMIAROWA ZMIENNA LOSOWA

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

WikiWS For Business Sharks

Odtworzenie wywodu metodą wstępującą (bottom up)

Matematyka dyskretna. Wykład 2: Kombinatoryka. Gniewomir Sarbicki

WYZNACZENIE ROZKŁADU TEMPERATUR STANU USTALONEGO W MODELU 2D PRZY UŻYCIU PROGRMU EXCEL

Konspekt projektu. Problem komiwojażera w aspekcie sieci neuronowych

exp jest proporcjonalne do czynnika Boltzmanna exp(-e kbt (szerokość przerwy energetycznej między pasmami) g /k B

Prawdopodobieństwo geometryczne

2. Szybka transformata Fouriera

Zadanie 1. Udowodnij, że CAUS PRAM. Załóżmy przetwarzanie przyczynowo spójne. Dla każdego obrazu historii hv i zachodzi zatem:

Proces decyzyjny: 1. Sformułuj jasno problem decyzyjny. 2. Wylicz wszystkie możliwe decyzje. 3. Zidentyfikuj wszystkie możliwe stany natury.

Układ termodynamiczny

PRZYKŁADOWE TEMATY ZADAŃ PROJEKTOWYCH

Analiza Matematyczna Ćwiczenia. J. de Lucas

Proces narodzin i śmierci

A i A j lub A j A i. Operator γ : 2 X 2 X jest ciągły gdy

Zastosowanie procedur modelowania ekonometrycznego w procesach programowania i oceny efektywności inwestycji w elektroenergetyce

LABORATORIUM TECHNIKI CIEPLNEJ INSTYTUTU TECHNIKI CIEPLNEJ WYDZIAŁ INŻYNIERII ŚRODOWISKA I ENERGETYKI POLITECHNIKI ŚLĄSKIEJ

PROBLEMY BADANIA NIEZAWODNOŚCI SIŁOWNI TRANSPORTOWYCH OBIEKTÓW OCEANOTECHNICZNYCH

ZASTOSOWANIE ALGORYTMÓW ROJOWYCH DO OPTYMALIZACJI PARAMETRÓW W MODELACH UKŁADÓW REGULACJI

ĆWICZENIE 1 BADANIE WYBRANYCH PROCEDUR I STRATEGII EKSPLOATACYJNYCH

Ćw. 5. Badanie ruchu wahadła sprężynowego sprawdzenie wzoru na okres drgań

Józef Maria Hoene-Wroński jako wizjoner i reformator matematyki

t t t t T 2 Interpretacja: Przeciętna wartość zmiennej objaśnianej różni się od wartości teoretycznej średnio o

Plan wykładu. Sztuczne sieci neuronowe. Problem dwuklasowy (N=1) Problem klasyfikacji. Wykład 4-5: Ocena jakości sieci neuronowej Sieci RBF

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

MODYFIKACJA KOSZTOWA ALGORYTMU JOHNSONA DO SZEREGOWANIA ZADAŃ BUDOWLANYCH

Funkcje i charakterystyki zmiennych losowych

Statystyka. Zmienne losowe

Kwantyzacja skalarna. Plan 1. Definicja 2. Kwantyzacja równomierna 3. Niedopasowanie, adaptacja 4. Kwantyzacja nierównomierna

Określanie mocy cylindra C w zaleŝności od ostrości wzroku V 0 Ostrość wzroku V 0 7/5 6/5 5/5 4/5 3/5 2/5 Moc cylindra C 0,5 0,75 1,0 1,25 1,5 > 2

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

MODELOWANIE PREFERENCJI UśYTKOWNIKA W SYSTEMIE WSPOMAGANIA DECYZJI

EKSTREMA FUNKCJI EKSTREMA FUNKCJI JEDNEJ ZMIENNEJ. Tw. Weierstrassa Każda funkcja ciągła na przedziale domkniętym ma wartość najmniejszą i największą.

obliczenie różnicy kwadratów odległości punktów po i przed odkształceniem - różniczka zupełna u i, j =1, 2, 3

Nowoczesne technk nformatyczne - Ćwczene 2: PERCEPTRON str. 2 Potencjał membranowy u wyznaczany jest klasyczne: gdze: w waga -tego wejśca neuronu b ba

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

5. OPTYMALIZACJA GRAFOWO-SIECIOWA

σ-ciało zdarzeń Niech Ω będzie niepustym zbiorem zdarzeń elementarnych, a zbiór F rodziną podzbiorów zbioru Ω spełniającą warunki: jeśli A F, to A F;

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

RACHUNEK PRAWDOPODOBIEŃSTWA WYKŁAD 5.

I. Elementy analizy matematycznej

Metody Lagrange a i Hamiltona w Mechanice

Transkrypt:

Esploracja danych grupowane danych Potr Lpńs Grupowane danych Cele grupowana danych jest podzał reordów danych na grupy, ta aby eleenty z tej saej grupy były do sebe podobne, a z różnych grup od sebe różne. Zazwyczaj ne wadoo czeu odpowadają utworzone grupy (ja je nterpretować erytoryczne). Wadoo jedna, ja je precyzyjne zdefnować. Wadoo też, że są statystyczne neprzypadowe. Potr Lpńs, Wyład z esploracj danych

Grupowane danych ech D = {x, x 2,, x } będze zbore danych złożony z obserwacj x, x 2,, x. ażda obserwacja x opsana jest przez d cech x, x 2,, x d. Grupowane danych polega na znalezenu eleentowej partycj C = {C, C 2,, C } zboru D (tzn. para rozłącznych zborów C, C 2,, C tach, że C C 2 C = D) asyalzującej pewną arę jaośc grupowana danych F(C). czasa dopuszcza sę, że netóre zbory C są puste lczba jest zazwyczaj ustalona (paraetr algorytu grupowana) w pratyce często wyonuje sę la grupowań z różny lczba wybera najlepsze z nch Potr Lpńs, Wyład z esploracj danych ryteru oceny jaośc grupowana danych Ja zdefnować arę jaośc grupowana? Chcey, żeby ażde dwa eleenty należące do tej saej grupy były do sebe podobne, zaś ażde dwa eleenty należące do dwóch różnych grup były do sebe nepodobne. Przyjjy, że potrafy oreślć: pewną arę podobeństwa ρ(x, y) erząca podobeństwo ędzy obserwacja x y pewną arę odległośc d(x, y) erzącą odległość ędzy obserwacja x y zazwyczaj podobeństwo jest ujene sorelowane z odległoścą, na przyład d(x, y) = / ρ(x, y) Możlwe są różne podejśca do erzena jaośc grupowana, tóre prowadzą do różnych algorytów oraz różnych wynów grupowana tych saych danych. W onretnej sytuacj wybór podejśca pownen zależeć od charaterysty analzowanych danych oraz onretnych potrzeb onretnych oczewań analtya danych. Potr Lpńs, Wyład z esploracj danych 2

ryteru oceny jaośc grupowana danych Podejśce : Dla ażdej grupy C ożey zerzyćśredne podobeństwo eleentów w tej grupe WCS ( C ) = ρ( x, y) ( C ) C x C y C x y Dla ażdych dwóch grup C C l ożey zerzyćśredne podobeństwo eleentów tych grup BCS( C, Cl ) = ρ( x, y) C Cl x C y C l Całowta jaość grupowana C oże być oreślona jao F( C) = = < l Podobne defncje ożna oreślć w oparcu o funcję odległośc. Podejśce to jest nepratyczne ze względu na złożoność oblczenową. WCS( C ) BCS( C, C ) l Potr Lpńs, Wyład z esploracj danych ryteru oceny jaośc grupowana danych Podejśce 2: Dla ażdej grupy C ożey wyznaczyć jej centru r oreślone jao środe cężośc puntów tej grupy r = x C x Możey oreślć odchylene wewnątrzsupenowe grupowana C jao WCD( C) = WCD( C ) = d( x, r ) = C = x C Możey oreślć odchylene ędzysupenowe grupowana C jao BCD( C) = d( r, r ) < l Całowta jaość grupowana C oże być oreślona jao obnacja WCD(C) BCD(C), na przyład F(C) = BCD(C) / WCD(C). l Potr Lpńs, Wyład z esploracj danych 3

ryteru oceny jaośc grupowana danych Podejśce 2': Jeśl wszyste atrybuty są nueryczne, tzn. ażda obserwacja x R d, a ara odległośc d to wadrat odległośc euldesowej, to podejśce 2 upraszcza sę. Dla ażdej grupy C ożey oreślć acerz owarancj (neunorowaną) eleentów grupy W = ( x r )( x r ) x C wówczas odchylene wewnątrzsupenowe WCD(C ) to ślad tej acerzy (sua eleentów przeątnej acerzy) WCD( C ) = tr( W ) zate gdze WCD( C) = WCD( C ) = tr( W ) = = W = = W = tr( W) Wnose: Jeśl tr(w) jest ałe, to WCD(C) jest ałe, odwrotne. Pownno sę węc dążyć do grupowana z ały warancja eleentów wewnątrz grup. Potr Lpńs, Wyład z esploracj danych ryteru oceny jaośc grupowana danych Podejśce 2': Podobne, ożna oreślć acerz B B = = ( r ˆ)( µ r ˆ) µ C gdze µ to estyowana wartośćśredna wszystch puntów danych z D. Potr Lpńs, Wyład z esploracj danych 4

ryteru oceny jaośc grupowana danych Podejśce 2': Popularne funcje oceny jaośc grupowana danych operają sę na acerzach W B,.n. tr(w) det(w) tr(bw - ) Wadą ary tr(w) jest zależność od sal poszczególnych zennych. Zenając bowe jednostę jednej ze zennych (np. c na ) ożey otrzyać nną struturę grupowana. Mara tr(w) zazwyczaj prowadz do ulstych ształtów grup, często dość zwartych równolcznych. Mara det(w) ne a zależnośc sal, węc wyrywa też grupy elptyczne. Preferuje równeż grupy równolczne. Mara tr(bw - ) preferuje grupy równolczne o podobnych ształtach. Często tworzy grupy współlnowe. Potr Lpńs, Wyład z esploracj danych Podstawowe algoryty grupowana danych Różne ary jaośc grupowana danych prowadzą do różnych algorytów grupowana. Algoryty wyrywające grupy defnowane w oparcu o centra grup: algoryt -eans algoryt oparty na algoryte EM Algoryty wyrywające grupy defnowane w oparcu o gęstość grup: DBScan Algoryty grupowana herarchcznego Potr Lpńs, Wyład z esploracj danych 5

Algoryt -eans ech D = {x, x 2,, x } będze zbore danych złożony z obserwacj x, x 2,, x. ech będze lczbą grup, tóre należy utworzyć. ażda grupa C reprezentowana jest przez punt r zwany centru grupy. ażdy wetor danych jest przypsywany do grupy, tórej centru jest u najblższe. w przypadu równych odległośc od lu centrów, decyduje ustalona olejność rozpatrywana grup lub przypsane jest losowe Zadane polega na znalezenu eleentowej partycj C = {C, C 2,, C } zboru D (tzn. para rozłącznych zborów C, C 2,, C tach, że C C 2 C = D) nalzującej funcję ryteru F( C) = = x C x r Jedny z algorytów rozwązujących ta proble jest algoryt - eans. 2 Potr Lpńs, Wyład z esploracj danych Algoryt -eans Mnalzacja funcj ryteru oże przebegać w dwóch roach powtarzanych teracyjne: F( C) = = x C x r znając wetory r, wyznaczyć optyalne przypsane wetorów danych do grup jest to oczywste: ażdy wetor danych pownen być przypsany do grupy reprezentowanej przez najblższy u wetor r znając przypsane wetorów danych do grup, wyznaczyć wetory r to jest nej oczywste ożna użyć.n. analzy ateatycznej rozwązane jest ustawene wetorów r w środach geoetrycznych zboru puntów tworzących grupę 2 Potr Lpńs, Wyład z esploracj danych 6

Algoryt -eans Algoryt -eans FOR =, 2,, r = losowo wybrany punt z D WHILE są zany w grupach C FOR =, 2,, C = {x D : d(x, r ) < d(x, r l ) dla ażdego l =, 2,,, l } FOR =, 2,, r = środe cężośc C Potr Lpńs, Wyład z esploracj danych Algoryt -eans a wyn dzałana algorytu -eans bardzo wpływa początowe położene centrów grup. Algoryt -eans tworzy podzał przestrzen danych na obszary Voronoya. Algoryt -eans ne będze poprawne grupował danych o neregularnych ształtach grup,.n.. Potr Lpńs, Wyład z esploracj danych 7

Rozszerzena algorytu -eans Popularnych jest wele odyfacj algorytu -eans: algoryt -eans nazywa sę czase Hard C-Means (HCM) algoryt Fuzzy C-Means (FCM) algoryt Possblstc C-Means (PCM) algoryt Gustafsona-essela algoryt Fuzzy Maxu Lelhood Estaton (FMLE) Potr Lpńs, Wyład z esploracj danych Defncja odległośc w grupowanu danych Mara odległośc w przestrzen danych d(x, y) erząca odległość ędzy wetora danych x y a luczowe znaczene dla grupowana. Odległość euldesowa d( x, y) = ( x j y j ) d j= 2 = ( x y) ( x y) ne zawsze jest najlepszy wybore. Odległość Mnowsego to uogólnene odległośc euldesowej d r d( x, y) = r x j y j j= gdze r jest pewną stałą. dla r = 2 otrzyujey odległość euldesową dla r = otrzyujey odległość Manhattan odległość Manhattan dla bnarnych wetorów danych to po prostu odległość Hanga (lczba btów na tórych różną sę dwa wetory bnarne). Potr Lpńs, Wyład z esploracj danych 8

Defncja odległośc w grupowanu danych Częsty problee jest neodporność algorytów grupowana na salowane poszczególnych wyarów na przyład zana jednoste jednego z atrybutów z na oże prowadzć do zupełne nnych wynów algorytu grupowana Można tego unnąć wprowadzając ważene wyarów w defncj odległośc. na przyład ważona odległość euldesowa to d( x, y) = a j ( x d j= j y ) = ( x y) A( x y) gdze a, a 2,, a d to wag olejnych wyarów (pewne stałe), zaś A to acerz dagonalna z wartośca a, a 2,, a d na przeątnej. Ważene wyarów ożna rozszerzyć dopuszczając, aby acerz A ne była dagonalna. Jeśl A = R -, gdze R to acerz owarancj zboru danych D, tzn. R = ( x x)( x x) to otrzyana odległość jest zwana odległoścą Mahalanobsa. j 2 Potr Lpńs, Wyład z esploracj danych Hard C-Means (HCM) Algoryt -eans ożna zapsać trochę naczej. Macerzą przynależnośc wetora danych do grupy nazyway acerz M rozaru x o eleentach spełnającą dla ażdego =, 2,.., oraz =, 2,, dla ażdego =, 2,, dla ażdego =, 2,.., 0 = < {0,} Macerząśrodów grup nazyway acerz R rozaru d x, tórej olejne oluny to wetory r, r 2,, r. Algoryt -eans ożna węc zapsać przy użycu acerzy M oraz R. = < Potr Lpńs, Wyład z esploracj danych 9

Hard C-Means (HCM) HCM ro 0: oluny r, r 2,, r acerzy R ncjowane są losowo HCM ro : dla ażdego =, 2,,, dla ażdego =, 2,, =, jeśl dla ażdego l zachodz d(x, r ) < d(x, r l ) UWAGA: Jeśl dla pewnego wetora danych nalna odległość jest realzowana przez węcej nż jeden środe grupy, to należy wybrać jeden z tych środów grup losowo bądź w nny ustalony sposób. = 0, w przecwny przypadu HCM ro 2: dla ażdego =, 2,, HCM ro 3: r = powtarzaj ro 2 dopó grupowane ne ustablzuje sę (acerze M R ne będą sę zenać) Potr Lpńs, Wyład z esploracj danych x Fuzzy C-Means (FCM) Algoryt Fuzzy C-Means (FCM) używa rozytej przynależnośc wetora danych do grupy (pozwala przypsać ten sa obet do lu różnych grup z odpowedn stopna przynależnośc). Macerzą rozytej przynależnośc wetora danych do grupy nazyway acerz M rozaru x o eleentach spełnającą dla ażdego =, 2,.., oraz =, 2,, dla ażdego =, 2,, dla ażdego =, 2,.., 0 = < [0,] = Algoryt FCM nalzuje ryteru ( to stała zwana stopne rozyca) ( M, R) = d ( x, r ) < = F Potr Lpńs, Wyład z esploracj danych 0

Fuzzy C-Means (FCM) FCM ro : dla ażdego =, 2,,, dla ażdego =, 2,, FCM ro 2: = dla ażdego =, 2,, reszta algorytu ja w HCM r 2 (, ) d x r = (, ) l d x rl = x Potr Lpńs, Wyład z esploracj danych Possblstc C-Means (PCM) Algoryt Possblstc C-Means (PCM) używa posyblstycznej przynależnośc wetora danych do grupy (pozwala przypsać ten sa obet do lu różnych grup z odpowedn stopna przynależnośc neoneczne suujący sę do ). Macerzą posyblstycznej przynależnośc wetora danych do grupy nazyway acerz M rozaru x o eleentach spełnającą dla ażdego =, 2,.., oraz =, 2,, [0,] dla ażdego =, 2,,, stneje =, 2,,, tae że > 0 dla ażdego =, 2,.., 0 < Algoryt PCM nalzuje ryteru ( to stała zwana stopne rozyca, a η, η 2,, η to pewne współczynn dodatne) = < F( M, R) = d( x, r ) + η = Potr Lpńs, Wyład z esploracj danych ( )

Possblstc C-Means (PCM) PCM ro : dla ażdego =, 2,,, dla ażdego =, 2,, PCM ro 2: dla ażdego =, 2,, reszta algorytu ja w HCM 2 (, ) d x = + r η = r x Potr Lpńs, Wyład z esploracj danych Possblstc C-Means (PCM) Współczynn η, η 2,, η oreślają ta zwaną szeroość rozładu posyblstycznego. Współczynn te: ogą być stałe (paraetry algorytu) ogą być zenne (w czase dzałana algorytu) η = d( x, r ) Potr Lpńs, Wyład z esploracj danych 2

Algoryt Gustafsona-essela (G) We wszystch oawanych dotąd algorytach ara odległośc w przestrzen danych us zostać z góry oreślona. Algoryt Gustafsona-essela (G) to odyfacja algorytu FCM, w tórej wprowadza sę różne ary odległośc dla różnych grup: dla =, 2,,, odległość ędzy wetora danych x y należący do C to ( x, y) ( x y) A ( x y) d = gdze A to acerz rozaru d x d różna dla różnych grup. Algoryt G nalzuje ryteru ( to stała zwana stopne rozyca) F( M, R) = d ( x, r ) = Macerze A uszą być w pewen sposób "ogranczone", na przyład przez wyuszene det A = ρ, dla pewnych stałych ρ, bo naczej nalzacja będze prowadzć do acerzy o bardzo ałych eleentach. Potr Lpńs, Wyład z esploracj danych Algoryt Gustafsona-essela (G) G ro : dla ażdego =, 2,,, lczyy tzw. rozytą acerz owarancj dla ażdego =, 2,,, dla ażdego =, 2,,, reszta algorytu ja w HCM x = F ( r )( x r ) d( x, r ) = ( x r ) [( ρ det( F )) = G ro 2: dla ażdego =, 2,, = r Potr Lpńs, Wyład z esploracj danych x d( x, r ) j= d( x, rj ) / d F ]( x r ) 3

Algoryt DBScan Algoryt -eans tworzy podzał przestrzen danych na obszary Voronoya. e będze węc poprawne grupował danych o neregularnych ształtach. Algoryt DBScan dzała na nnej zasadze. Jest to przyład algorytu grupowana opartego na gęstośc. Potr Lpńs, Wyład z esploracj danych Algoryt DBScan Przez sąsedztwo wetora danych x rozuey zbór {y D : d(x, y) < ε}, gdze wartość ε jest paraetre algorytu DBScan. Sąsedztwo wetora danych x jest gęste, jeśl zawera co najnej wetorów danych, gdze wartość jest paraetre algorytu DBScan. Rdzeń to wetor danych, tórego sąsedztwo jest gęste. Punt brzegowy to wetor danych, tórego sąsedztwo ne jest gęste. Potr Lpńs, Wyład z esploracj danych 4

Algoryt DBScan Wetor danych y jest bezpośredno osągalny z wetora danych x, jeśl: y należy do sąsedztwa x, sąsedztwo x jest gęste. Wetor danych y jest osągalny z wetora danych x, jeśl stneje cąg wetorów danych x, x 2,, x n, ta że x = x, x n = y oraz x jest bezpośredno osągalny z x -, dla ażdego = 2, 3,, n. Wetory danych x y są połączone, jeśl stneje wetor danych z, ta że x y są osągalne z z. Grupa to asyalny zbór puntów połączonych. DBScan: wyberz dowolny nerozpatrzony jeszcze wetor danych x oznacz x jao już rozpatrzony C := zbór wszystch wetorów danych osągalnych z x jeśl x jest rdzene, to uznaj C za grupę oznacz wszyste eleenty C jao już rozpatrzone powtarzaj powyższe ro aż wszyste wetory danych zostaną rozpatrzone Potr Lpńs, Wyład z esploracj danych 5