PODZIAŁ DANYCH NA KLASY Definicja Dana jest macierz danych X. Podziałem P macierzy na las(lasyfiacją) nazywamy przyporządowanieindesomwierszymacierzyrozłącznychzbiorówi 1,I,...,I,taich, Ŝe j1 I j 1,,...,n.WierszX i naleŝydoj-tejlasy,jeślii I j.niechn j #I j. Wtedy j1 n j n Wiersze macierzy danych moŝna przestawiać. Dla prostoty uporządujmy je ta, Ŝe pierwszychn 1 wierszyzajmąelementynaleŝącedopierwszejlasy,olejnychn wierszyzajmąelementynaleŝącedodrugiejlasy,...,ostatnichn wierszyzajmą elementy naleŝące do -tej lasy: X 1 X X... X gdzie X j T T X n1 n...n j1 1 T T,X n1 n...n j1,...,x n1 n...n j1 n j jestpodmacierząwymiarun j p,zawierającądane,naleŝącedoj-tejlasy. Oznaczmyprzezg j środecięŝościj-tejlasy:g j gx j,orazprzezg PXmacierz środów cięŝości las podziału; g 1 n 1 G PX g n... g n Lemat 1 gg PX p j g j gx g, j1 p j n j n gg PX 1 n G PX T 1 n 1 n g 1 n 1 g n... g n 1 n 1 n n j g j, j1 g 1 n j1 X i 1 n n j g j ii j j1 1
Twierdzenie 1[Huygensa dla podziału] JX p j JX j JG PX j1 J WP J MP FuncjeJ WPi J MPnazywająsiębezwładnościąwewnątrzlasową(J WP)i bezwładnościąmiędzylasową(j MP)podziałuP. JX 1 n n i1 Teza wynia z toŝsamości: X i g 1 n j1 ii j X i g 1 n X i g j g j g X i g j,g j g j1 ii j ii j X i g j,g j g ii j X i g j,g j g 0,g j g 0, ii j X i g j n j JX j, 1 n j1 ii j g j g JG PX. Wniose 1 J MP p j g j g j1 Zadaniem naszym będzie dobry podział(lasyfiacja) danych X na las. MoŜliwe są dwa sposoby doonania taiego podziału: lasyfiacjaznauczycielem,zwanadysryminacją, lasyfiacjabeznauczyciela(grupowanie,analizasupień) Klasyfiacja z nauczycielem słada się z dwóch faz: uczenia i dysryminacji. W fazie uczenia zadany jest podział na las(podział wzorcowy). Na jego podstawie wytwarza się funcję dysryminacyjną. Funcja dysryminacyjna przypisuje aŝdemu nowemu wetorowi numer lasy do tórej on naleŝy. Dobra funcja dysryminacyjna ustala to przyporządowanie z moŝliwie najmniejszym błędem. Przyładem lasyfiacji z nauczycielem jest diagnostya medyczna. W fazie uczenia wypracowuje się metody diagnozy na podstawie znanych przypadów róŝnych chorób (podział wzorcowy). Learz stosując swoją wiedzę(funcję dysryminacyjną) stara się postawić dobrą diagnozę(ustala przyporządowanie objawów do choroby z moŝliwie najmniejszym błędem) W lasyfiacji bez nauczyciela nie mamy podziału wzorcowego. W tym przypadu naleŝy wytworzyć lasy ta, aby elementy naleŝące do jednej lasy były do siebie podobne, a elementy z róŝnych las były ja najbardziej do siebie niepodobne. Przyładem lasyfiacji bez nauczyciela jest lasyfiacja, zaproponowana przez Linneusza(1707-1778), w tórej do jednej lasy przypisał zwierzęta o podobnej
budowie zewnętrznej. Grupowanie W lasyfiacji bez nauczyciela elementy naleŝące do jednej lasy mają być do siebie podobne, a elementy z róŝnych las- ja najbardziej do siebie niepodobne. MiarąpodobieństwawlasiejmoŜebyćbezwładnośćtejlasyJX j.immniejsza ta liczba, tym bardziej podobne do siebie są elementy lasy. Podział P jest dobry gdy średnia bezwładność we wszystich lasach jest mała, czyli gdy bezwładność wewnątrzlasowaj WPjestmała. Miarą niepodobieństwa(odległości) między lasami moŝe być bezwładność międzylasowaj MP.ImonawięszatymbardziejodległesąodsiebieśrodicięŜości las. Dobregrupowanietotaie,gdziebezwładnośćJ WPjestmałaaJ MP-duŜa.Z twierdzenia 1 wynia, Ŝe te waruni są równowaŝne. Przyład 1 Porównajmy dwa podziały zbioru X 1 1 3 3 3 3 5 PodziałP:I 1 1,,I 3,,5,6. gx 1 T 1.5,1.5,JX 1 1 0.5 0.5 0.5, gx T 3.75,3.0,JX 1 0.56 1.56 0.06.56 1.18, J WP 1 0.5 1.18 0.95 6 PodziałQ:I 1 5,6,I 1,,3,. gx 1 T.5,.5,JX 1 1 0.5 0.5 0.5, gx T.5,.5,JX 1 3.81 0.31 0.81.81 1.9, J WQ 1 0.5 1.9 1.6 6 PodziałPjestlepszyodpodziałuQ,gdyŜJ WP J WQ. Podziały P i Q moŝna porównać, obliczając bezwładność międzylasową(jest ona prostsza do obliczenia): Dla podziału P gx T 3,.5 J MP 6 gx 1 gx 6 gx gx 6 1.5 1 6 0.75 0.5 1.6 Dla podziału Q 3
J MP 6 gx 1 gx 6 gx gx 6 1.5 0 6 0.75 0 1.1 PodziałPjestlepszyodpodziałuQ,gdyŜJ MP J MQ Sprawdzając wszystie 63 moŝliwe podziały na dwie lasy moŝna wyznaczyć najlepszypodział. W ogólnym przypadu wybór najlepszego podziału przez sprawdzanie wszystich moŝliwych przypadów wymaga gigantycznej liczby obliczeń. Jeden z moŝliwych sposobów, pozwalających uzysać dobry, ale nie zawsze optymalny podział jest algorytm pochłaniajacy, wyorzystujący podział na omóri Woronoja. Definicja PodziałdanychXnaomóriWoronojaocentrachc 1,c,...,c jestrozbiciemxnalasy I 1,I,...,I : I j i:x i c j X i c r,r 1,,...,,i I 1,I,...I j1 Komóri Woronoja sładają się z puntów najbliŝszych centrom. Punty leŝące w tej samej odległości od ilu centrów naleŝą do omóri o najniŝszym numerze(umowa). Twierdzenie NiechPbędziepodziałemWoronojanaomóriocentrachc 1,c,...,c.NiechQ będziepodziałemworonojanaomóriocentrachgx 1,gX,...,gX.PodziałQ jestniegorszyodpodziałup. Dowód NiechPbędziepodziałemnalasyI 1,I,...,I,Qpodziałemnalasy L 1,L,...,L,Y r podmacierząxowierszach,tórychnumerynaleŝądol r. Oznaczmy Mamy: J WP 1 n j1 n j #X j,m r #Y r n j JX j 1 n n j d X j,gx j n j j1 1 n X i gx j j1 ii j Ostatnią sumę, dla ustalonego j, moŝna zapisać: ii j X i gx j r1 ii j L r X i gx j X i gx j ii j L j r1 r1 ii rlj r jx i gx j ii j L r r jx i gx j r1 ii rlj r1 r jx i gx j ii j L r r jx i gx j m j d Y j,gx j m j r j X i gx j X i gx j r1 ii j L r ii rlj
Ale z twierdzenia Huygensa-Pitagorasa d Y j,gy j m j d Y r,gx j m j Stąd X i gx j m j d Y j,gy j mj ii j Sumując po wszystich j otrzymamy J WP J WQ 1 n j1 r1 r j X i gx j X i gx j ii j L r ii rlj r j X i gx j X i gx j r1 ii j L r ii rlj Korzystając z symetrii indesów j i r moŝna zapisać: j1 j1 j1 r j X i gx j X i gx j r1 ii j L r ii rlj r j X i gx j X i gx r r1 ii j L r ii j Lr r1 ii j L r r j X i gx j X i gx r gdyi I j L r towierszx i zostanieprzeniesionyzlasyjwpodzialepdolasyrw podziale Q, co oznacza Ŝe Wyniaztego,Ŝe awięc j1 r1 coończydowód. lemattw3przyład X i gx r X i gx j ii j L r r j X i gx j X i gx r 0 J WP J WQ 5