Eksploracja danych. Grupowanie danych

Esploracja danych grupowane danych Potr Lpńs Grupowane danych Cele grupowana danych jest podzał reordów danych na grupy, ta aby eleenty z tej saej grupy były do sebe podobne, a z różnych grup od sebe różne. Zazwyczaj ne wadoo czeu odpowadają utworzone grupy (ja je nterpretować erytoryczne). Wadoo jedna, ja je precyzyjne zdefnować. Wadoo też, że są statystyczne neprzypadowe. Potr Lpńs, Wyład z esploracj danych

Grupowane danych ech D = {x, x 2,, x } będze zbore danych złożony z obserwacj x, x 2,, x. ażda obserwacja x opsana jest przez d cech x, x 2,, x d. Grupowane danych polega na znalezenu eleentowej partycj C = {C, C 2,, C } zboru D (tzn. para rozłącznych zborów C, C 2,, C tach, że C C 2 C = D) asyalzującej pewną arę jaośc grupowana danych F(C). czasa dopuszcza sę, że netóre zbory C są puste lczba jest zazwyczaj ustalona (paraetr algorytu grupowana) w pratyce często wyonuje sę la grupowań z różny lczba wybera najlepsze z nch Potr Lpńs, Wyład z esploracj danych ryteru oceny jaośc grupowana danych Ja zdefnować arę jaośc grupowana? Chcey, żeby ażde dwa eleenty należące do tej saej grupy były do sebe podobne, zaś ażde dwa eleenty należące do dwóch różnych grup były do sebe nepodobne. Przyjjy, że potrafy oreślć: pewną arę podobeństwa ρ(x, y) erząca podobeństwo ędzy obserwacja x y pewną arę odległośc d(x, y) erzącą odległość ędzy obserwacja x y zazwyczaj podobeństwo jest ujene sorelowane z odległoścą, na przyład d(x, y) = / ρ(x, y) Możlwe są różne podejśca do erzena jaośc grupowana, tóre prowadzą do różnych algorytów oraz różnych wynów grupowana tych saych danych. W onretnej sytuacj wybór podejśca pownen zależeć od charaterysty analzowanych danych oraz onretnych potrzeb onretnych oczewań analtya danych. Potr Lpńs, Wyład z esploracj danych 2

ryteru oceny jaośc grupowana danych Podejśce : Dla ażdej grupy C ożey zerzyćśredne podobeństwo eleentów w tej grupe WCS ( C ) = ρ( x, y) ( C ) C x C y C x y Dla ażdych dwóch grup C C l ożey zerzyćśredne podobeństwo eleentów tych grup BCS( C, Cl ) = ρ( x, y) C Cl x C y C l Całowta jaość grupowana C oże być oreślona jao F( C) = = < l Podobne defncje ożna oreślć w oparcu o funcję odległośc. Podejśce to jest nepratyczne ze względu na złożoność oblczenową. WCS( C ) BCS( C, C ) l Potr Lpńs, Wyład z esploracj danych ryteru oceny jaośc grupowana danych Podejśce 2: Dla ażdej grupy C ożey wyznaczyć jej centru r oreślone jao środe cężośc puntów tej grupy r = x C x Możey oreślć odchylene wewnątrzsupenowe grupowana C jao WCD( C) = WCD( C ) = d( x, r ) = C = x C Możey oreślć odchylene ędzysupenowe grupowana C jao BCD( C) = d( r, r ) < l Całowta jaość grupowana C oże być oreślona jao obnacja WCD(C) BCD(C), na przyład F(C) = BCD(C) / WCD(C). l Potr Lpńs, Wyład z esploracj danych 3

ryteru oceny jaośc grupowana danych Podejśce 2': Jeśl wszyste atrybuty są nueryczne, tzn. ażda obserwacja x R d, a ara odległośc d to wadrat odległośc euldesowej, to podejśce 2 upraszcza sę. Dla ażdej grupy C ożey oreślć acerz owarancj (neunorowaną) eleentów grupy W = ( x r )( x r ) x C wówczas odchylene wewnątrzsupenowe WCD(C ) to ślad tej acerzy (sua eleentów przeątnej acerzy) WCD( C ) = tr( W ) zate gdze WCD( C) = WCD( C ) = tr( W ) = = W = = W = tr( W) Wnose: Jeśl tr(w) jest ałe, to WCD(C) jest ałe, odwrotne. Pownno sę węc dążyć do grupowana z ały warancja eleentów wewnątrz grup. Potr Lpńs, Wyład z esploracj danych ryteru oceny jaośc grupowana danych Podejśce 2': Podobne, ożna oreślć acerz B B = = ( r ˆ)( µ r ˆ) µ C gdze µ to estyowana wartośćśredna wszystch puntów danych z D. Potr Lpńs, Wyład z esploracj danych 4

ryteru oceny jaośc grupowana danych Podejśce 2': Popularne funcje oceny jaośc grupowana danych operają sę na acerzach W B,.n. tr(w) det(w) tr(bw - ) Wadą ary tr(w) jest zależność od sal poszczególnych zennych. Zenając bowe jednostę jednej ze zennych (np. c na ) ożey otrzyać nną struturę grupowana. Mara tr(w) zazwyczaj prowadz do ulstych ształtów grup, często dość zwartych równolcznych. Mara det(w) ne a zależnośc sal, węc wyrywa też grupy elptyczne. Preferuje równeż grupy równolczne. Mara tr(bw - ) preferuje grupy równolczne o podobnych ształtach. Często tworzy grupy współlnowe. Potr Lpńs, Wyład z esploracj danych Podstawowe algoryty grupowana danych Różne ary jaośc grupowana danych prowadzą do różnych algorytów grupowana. Algoryty wyrywające grupy defnowane w oparcu o centra grup: algoryt -eans algoryt oparty na algoryte EM Algoryty wyrywające grupy defnowane w oparcu o gęstość grup: DBScan Algoryty grupowana herarchcznego Potr Lpńs, Wyład z esploracj danych 5

Algoryt -eans ech D = {x, x 2,, x } będze zbore danych złożony z obserwacj x, x 2,, x. ech będze lczbą grup, tóre należy utworzyć. ażda grupa C reprezentowana jest przez punt r zwany centru grupy. ażdy wetor danych jest przypsywany do grupy, tórej centru jest u najblższe. w przypadu równych odległośc od lu centrów, decyduje ustalona olejność rozpatrywana grup lub przypsane jest losowe Zadane polega na znalezenu eleentowej partycj C = {C, C 2,, C } zboru D (tzn. para rozłącznych zborów C, C 2,, C tach, że C C 2 C = D) nalzującej funcję ryteru F( C) = = x C x r Jedny z algorytów rozwązujących ta proble jest algoryt - eans. 2 Potr Lpńs, Wyład z esploracj danych Algoryt -eans Mnalzacja funcj ryteru oże przebegać w dwóch roach powtarzanych teracyjne: F( C) = = x C x r znając wetory r, wyznaczyć optyalne przypsane wetorów danych do grup jest to oczywste: ażdy wetor danych pownen być przypsany do grupy reprezentowanej przez najblższy u wetor r znając przypsane wetorów danych do grup, wyznaczyć wetory r to jest nej oczywste ożna użyć.n. analzy ateatycznej rozwązane jest ustawene wetorów r w środach geoetrycznych zboru puntów tworzących grupę 2 Potr Lpńs, Wyład z esploracj danych 6

Algoryt -eans Algoryt -eans FOR =, 2,, r = losowo wybrany punt z D WHILE są zany w grupach C FOR =, 2,, C = {x D : d(x, r ) < d(x, r l ) dla ażdego l =, 2,,, l } FOR =, 2,, r = środe cężośc C Potr Lpńs, Wyład z esploracj danych Algoryt -eans a wyn dzałana algorytu -eans bardzo wpływa początowe położene centrów grup. Algoryt -eans tworzy podzał przestrzen danych na obszary Voronoya. Algoryt -eans ne będze poprawne grupował danych o neregularnych ształtach grup,.n.. Potr Lpńs, Wyład z esploracj danych 7

Rozszerzena algorytu -eans Popularnych jest wele odyfacj algorytu -eans: algoryt -eans nazywa sę czase Hard C-Means (HCM) algoryt Fuzzy C-Means (FCM) algoryt Possblstc C-Means (PCM) algoryt Gustafsona-essela algoryt Fuzzy Maxu Lelhood Estaton (FMLE) Potr Lpńs, Wyład z esploracj danych Defncja odległośc w grupowanu danych Mara odległośc w przestrzen danych d(x, y) erząca odległość ędzy wetora danych x y a luczowe znaczene dla grupowana. Odległość euldesowa d( x, y) = ( x j y j ) d j= 2 = ( x y) ( x y) ne zawsze jest najlepszy wybore. Odległość Mnowsego to uogólnene odległośc euldesowej d r d( x, y) = r x j y j j= gdze r jest pewną stałą. dla r = 2 otrzyujey odległość euldesową dla r = otrzyujey odległość Manhattan odległość Manhattan dla bnarnych wetorów danych to po prostu odległość Hanga (lczba btów na tórych różną sę dwa wetory bnarne). Potr Lpńs, Wyład z esploracj danych 8

Defncja odległośc w grupowanu danych Częsty problee jest neodporność algorytów grupowana na salowane poszczególnych wyarów na przyład zana jednoste jednego z atrybutów z na oże prowadzć do zupełne nnych wynów algorytu grupowana Można tego unnąć wprowadzając ważene wyarów w defncj odległośc. na przyład ważona odległość euldesowa to d( x, y) = a j ( x d j= j y ) = ( x y) A( x y) gdze a, a 2,, a d to wag olejnych wyarów (pewne stałe), zaś A to acerz dagonalna z wartośca a, a 2,, a d na przeątnej. Ważene wyarów ożna rozszerzyć dopuszczając, aby acerz A ne była dagonalna. Jeśl A = R -, gdze R to acerz owarancj zboru danych D, tzn. R = ( x x)( x x) to otrzyana odległość jest zwana odległoścą Mahalanobsa. j 2 Potr Lpńs, Wyład z esploracj danych Hard C-Means (HCM) Algoryt -eans ożna zapsać trochę naczej. Macerzą przynależnośc wetora danych do grupy nazyway acerz M rozaru x o eleentach spełnającą dla ażdego =, 2,.., oraz =, 2,, dla ażdego =, 2,, dla ażdego =, 2,.., 0 = < {0,} Macerząśrodów grup nazyway acerz R rozaru d x, tórej olejne oluny to wetory r, r 2,, r. Algoryt -eans ożna węc zapsać przy użycu acerzy M oraz R. = < Potr Lpńs, Wyład z esploracj danych 9

Hard C-Means (HCM) HCM ro 0: oluny r, r 2,, r acerzy R ncjowane są losowo HCM ro : dla ażdego =, 2,,, dla ażdego =, 2,, =, jeśl dla ażdego l zachodz d(x, r ) < d(x, r l ) UWAGA: Jeśl dla pewnego wetora danych nalna odległość jest realzowana przez węcej nż jeden środe grupy, to należy wybrać jeden z tych środów grup losowo bądź w nny ustalony sposób. = 0, w przecwny przypadu HCM ro 2: dla ażdego =, 2,, HCM ro 3: r = powtarzaj ro 2 dopó grupowane ne ustablzuje sę (acerze M R ne będą sę zenać) Potr Lpńs, Wyład z esploracj danych x Fuzzy C-Means (FCM) Algoryt Fuzzy C-Means (FCM) używa rozytej przynależnośc wetora danych do grupy (pozwala przypsać ten sa obet do lu różnych grup z odpowedn stopna przynależnośc). Macerzą rozytej przynależnośc wetora danych do grupy nazyway acerz M rozaru x o eleentach spełnającą dla ażdego =, 2,.., oraz =, 2,, dla ażdego =, 2,, dla ażdego =, 2,.., 0 = < [0,] = Algoryt FCM nalzuje ryteru ( to stała zwana stopne rozyca) ( M, R) = d ( x, r ) < = F Potr Lpńs, Wyład z esploracj danych 0

Fuzzy C-Means (FCM) FCM ro : dla ażdego =, 2,,, dla ażdego =, 2,, FCM ro 2: = dla ażdego =, 2,, reszta algorytu ja w HCM r 2 (, ) d x r = (, ) l d x rl = x Potr Lpńs, Wyład z esploracj danych Possblstc C-Means (PCM) Algoryt Possblstc C-Means (PCM) używa posyblstycznej przynależnośc wetora danych do grupy (pozwala przypsać ten sa obet do lu różnych grup z odpowedn stopna przynależnośc neoneczne suujący sę do ). Macerzą posyblstycznej przynależnośc wetora danych do grupy nazyway acerz M rozaru x o eleentach spełnającą dla ażdego =, 2,.., oraz =, 2,, [0,] dla ażdego =, 2,,, stneje =, 2,,, tae że > 0 dla ażdego =, 2,.., 0 < Algoryt PCM nalzuje ryteru ( to stała zwana stopne rozyca, a η, η 2,, η to pewne współczynn dodatne) = < F( M, R) = d( x, r ) + η = Potr Lpńs, Wyład z esploracj danych ( )

Possblstc C-Means (PCM) PCM ro : dla ażdego =, 2,,, dla ażdego =, 2,, PCM ro 2: dla ażdego =, 2,, reszta algorytu ja w HCM 2 (, ) d x = + r η = r x Potr Lpńs, Wyład z esploracj danych Possblstc C-Means (PCM) Współczynn η, η 2,, η oreślają ta zwaną szeroość rozładu posyblstycznego. Współczynn te: ogą być stałe (paraetry algorytu) ogą być zenne (w czase dzałana algorytu) η = d( x, r ) Potr Lpńs, Wyład z esploracj danych 2

Algoryt Gustafsona-essela (G) We wszystch oawanych dotąd algorytach ara odległośc w przestrzen danych us zostać z góry oreślona. Algoryt Gustafsona-essela (G) to odyfacja algorytu FCM, w tórej wprowadza sę różne ary odległośc dla różnych grup: dla =, 2,,, odległość ędzy wetora danych x y należący do C to ( x, y) ( x y) A ( x y) d = gdze A to acerz rozaru d x d różna dla różnych grup. Algoryt G nalzuje ryteru ( to stała zwana stopne rozyca) F( M, R) = d ( x, r ) = Macerze A uszą być w pewen sposób "ogranczone", na przyład przez wyuszene det A = ρ, dla pewnych stałych ρ, bo naczej nalzacja będze prowadzć do acerzy o bardzo ałych eleentach. Potr Lpńs, Wyład z esploracj danych Algoryt Gustafsona-essela (G) G ro : dla ażdego =, 2,,, lczyy tzw. rozytą acerz owarancj dla ażdego =, 2,,, dla ażdego =, 2,,, reszta algorytu ja w HCM x = F ( r )( x r ) d( x, r ) = ( x r ) [( ρ det( F )) = G ro 2: dla ażdego =, 2,, = r Potr Lpńs, Wyład z esploracj danych x d( x, r ) j= d( x, rj ) / d F ]( x r ) 3

Algoryt DBScan Algoryt -eans tworzy podzał przestrzen danych na obszary Voronoya. e będze węc poprawne grupował danych o neregularnych ształtach. Algoryt DBScan dzała na nnej zasadze. Jest to przyład algorytu grupowana opartego na gęstośc. Potr Lpńs, Wyład z esploracj danych Algoryt DBScan Przez sąsedztwo wetora danych x rozuey zbór {y D : d(x, y) < ε}, gdze wartość ε jest paraetre algorytu DBScan. Sąsedztwo wetora danych x jest gęste, jeśl zawera co najnej wetorów danych, gdze wartość jest paraetre algorytu DBScan. Rdzeń to wetor danych, tórego sąsedztwo jest gęste. Punt brzegowy to wetor danych, tórego sąsedztwo ne jest gęste. Potr Lpńs, Wyład z esploracj danych 4

Algoryt DBScan Wetor danych y jest bezpośredno osągalny z wetora danych x, jeśl: y należy do sąsedztwa x, sąsedztwo x jest gęste. Wetor danych y jest osągalny z wetora danych x, jeśl stneje cąg wetorów danych x, x 2,, x n, ta że x = x, x n = y oraz x jest bezpośredno osągalny z x -, dla ażdego = 2, 3,, n. Wetory danych x y są połączone, jeśl stneje wetor danych z, ta że x y są osągalne z z. Grupa to asyalny zbór puntów połączonych. DBScan: wyberz dowolny nerozpatrzony jeszcze wetor danych x oznacz x jao już rozpatrzony C := zbór wszystch wetorów danych osągalnych z x jeśl x jest rdzene, to uznaj C za grupę oznacz wszyste eleenty C jao już rozpatrzone powtarzaj powyższe ro aż wszyste wetory danych zostaną rozpatrzone Potr Lpńs, Wyład z esploracj danych 5