INDEKS WYBORU LICZBY SKUPIE W ZBIORZE DANYCH

Transkrypt

1 PRZEGLD STATYSTYCZNY R. LXI ZESZYT JERZY KORZENIEWSKI INDEKS WYBORU LICZBY SKUPIE W ZBIORZE DANYCH 1. WSTP Wyznaczenie liczby skupie (klas), na które naley podzieli zbiór obiektów jest jednym z etapów analizy skupie warunkujcym jako podziau. Wikszo indeksów wyznaczajcych liczb skupie ma charakter optymalizacyjny, tj. dla ustalonej metody grupowania obiektów zbioru wyznaczana jest najlepsza (sporód liczb od 1 do np. 15) liczba skupie. Wród najczciej stosowanych wymieni naley indeksy: Bakera-Huberta, Caliskiego Harabasza, Dunna, Daviesa-Bouldina, Hartigana, Huberta-Levine a, Krzanowskiego-Lai, indeks sylwetkowy, indeks Gap. Odrbn grup tworz indeksy opracowane tylko pod ktem metod aglomeracyjnych np. Mojeny (1977). Dla metod aglomeracyjnych, Sokoowski (1992) wyrónia a pi rónych grup indeksów liczby skupie. Efektywno wymienionych i innych indeksów badana bya przez wielu autorów m.in. Milligan, Cooper (1985), Migda-Najman, Najman (2005, 2006), Korzeniewski (2005). Wybór waciwych indeksów sucych do oceny liczby skupie oraz samej liczby skupie nie jest atwy. W badaniu Milligana, Cooper (1985) najlepszym indeksem okazaa si miara Caliskiego-Harabasza (1974). Badanie Milligana miao jednak miejsce prawie 30 lat temu. Od tego czasu zaproponowano kilka nowych miar, które, zdaniem ich twórców, nie ustpuj temu indeksowi. Przykadem póniej skonstruowanego indeksu, który w badaniu autorów okaza si lepszym od m.in. indeksu Caliskiego-Harabasza i Krzanowskiego-Lai, moe by indeks Gap (Tibshirani i inni, 2001). Te dwa indeksy tj. Gap oraz Calinski-Harabasz, bd punktem odniesienia, z którym zostanie porównana efektywno nowego indeksu zaproponowanego w dalszej czci artykuu. Warto indeksu Caliskiego-Harabasza dla liczby skupie równej k dana jest wzorem: CH k tr B k k 1 (1) Wk n k tr gdzie B k macierz kowariancji midzygrupowych, W k macierz kowariancji wewntrzgrupowych, n liczba obiektów w zbiorze. Za wybran liczb skupie naley uzna liczb k, która daje maksymaln warto wyraenia (1). Jak wida ze

2 170 Jerzy Korzeniewski wzoru (1), nie mona przy pomocy tego indeksu rozstrzygn czy zbiór danych naley w ogóle dzieli na jakie skupienia, gdy k musi by wiksze od 1. Warto indeksu Gap dla liczby skupie równej k jest wyznaczana przy pomocy wyraenia: Gap k 1 trw trw (2) B b gdzie W kb macierz kowariancji wewntrzgrupowych wtedy, gdy kada zmienna oryginalna zastpiona zostaa zmienn wygenerowan (w b-tym powtórzeniu) z rozkadu jednostajnego nad odcinkiem, który jest rozstpem próby zmiennej oryginalnej; B liczba powtórze generowania zmiennych jednostajnych. Za wybran liczb skupie naley uzna najmniejsz liczb k która spenia warunek: kb k k Gapk 1 sk 1 Gap (3) gdzie sk sdk 11/ B, gdzie sd k oznacza odchylenie standardowe B wartoci trw kb. Zamiast rozkadu jednostajnego mona zastosowa inn technik szacowania zlogarytmowanego ladu macierzy kowariancji zmiennych nietworzcych struktury skupie wykorzystujc ksztat rozkadu brzegowego poszczególnych zmiennych oryginalnych. Jak wida z konstrukcji indeksu moe on by uywany równie do zbadania czy zbiór danych naley dzieli na jakiekolwiek skupienia, gdy k moe by równe 1. W eksperymencie symulacyjnym przyjto B = 100 powtórze. 2. FORMUA NOWEGO INDEKSU Nowy indeks oparty jest na wielostopniowym dzieleniu zbioru danych (bd czci zbioru) na dwa skupienia i zachowywaniu tego podziau, gdy jest on wystarczajco dobry tzn. oba skupienia s wyranie rozdzielone. Jako metoda podziau na kadym etapie algorytmu stosowana bdzie metoda k-rednich (k=2 lub k=3), ze stukrotnym losowym wyborem punktów startowych, ale moliwe jest uycie dowolnej innej metody grupowania danych. Idea nowego indeksu jest prosta. Wyobramy sobie, e dzielimy zbiór danych na dwa skupienia, w nastpnym kroku kade z nich na dalsze dwa itd. Postpujc w ten sposób powinnimy otrzyma poprawn liczb skupie wyranie separowanych miedzy sob jeli tylko bdziemy dysponowali dobr miar jakoci podziau na dwa skupienia. Miara taka okreli kiedy proces podziau bdzie naleao przerwa. Konieczne wydaje si równie przyjcie zaoenia o minimalnej liczebnoci jednego skupienia.

3 Indeks wyboru liczby skupie w zbiorze danych 171 W celu rozstrzygnicia czy dwa skupienia s wystarczajco dobrze separowane zdeniujmy nastpujc miar jakoci podziau. Zaómy, e ustalony podzbiór zbioru danych podzielony zosta w podziale pierwotnym na dwa skupienia S 1 oraz S 2. Rozwa- amy teraz nowy podzbiór skadajcy si z mniejszego liczebnociowo z tych dwóch skupie oraz z 1/3 wikszego skupienia. Nowy podzbiór dzielimy ponownie na dwa skupienia i miar jakoci podziau (pierwotnego) jest skorygowany indeks Randa (por. np. Gatnar, Walesiak, 2004) zgodnoci podziau pierwotnego z podziaem ponownym. Miar t oznaczymy symbolem R(S 1, S 2 ). Interpretacja graczna przedstawiona jest na rys. 1. Dla zbioru obiektów po prawej stronie (dwa skupienia) warto miary powinna by wysoka (bliska 1), za dla zbioru niemajcego wyranej struktury skupie warto miary powinna by niska (bliska 0), jeli bowiem nie ma adnej struktury skupie, to nie ma powodu po temu by podzbiór zosta podzielony w tym samym miejscu. Oczywicie, indeks Randa ocenia zgodno podziau pierwotnego z ponownym tylko na podzbiorze skadajcym si z obiektów mniejszego skupienia i 1/3 wikszego skupienia. Jeeli ustalonym podzbiorem, na którym dokonywano podzia pierwotny by cay zbiór obiektów, to warto R(S 1, S 2 ) jest ostateczn miar jakoci podziau. Rysunek 1. Ilustracja graczna miary R(S 1, S 2 ) ródo: opracowanie wasne. Dla zbioru obiektów po prawej stronie zgodno podziau podzbioru zoonego z kóek i czarnych kwadratów z podziaem caego zbioru powinna by wysoka. Jeeli jednak oprócz skupie S 1 oraz S 2 byy jeszcze jakie inne skupienia (podzbiory) caego zbioru danych, to warto R(S 1, S 2 ) nie moe by miar ostateczn, bo moe zdarzy si, e jedno ze skupie S 1 lub S 2 (lub oba) jest blisko pozostaej czci zbioru danych (lub którego z pozostaych skupie). Liczb R(S 1, S 2 ) mona przyj jako miar jakoci podziau dopiero gdy przynajmniej jedno ze skupie S 1 lub S 2 ma tak sam lub wysz miar jakoci podziau na dwa skupienia ze wszystkimi pozostaymi skupieniami. Wobec tego ostateczn miar jakoci podziau ustalonego podzbioru zbioru obiektów na 2 skupienia, przy zaoeniu, e oprócz ustalonego podzbioru istnieje jeszcze k-2 innych skupie (o numerach 3, 4,, k), niech bdzie warto:

4 172 Jerzy Korzeniewski R S S k RS S ; RS S RS S j j. (4) i 1 j k j k 1 1 j1 j Przykadowo, pierwsze minimum w wewntrznym nawiasie klamrowym ma wyoni najsilniejszy zwizek skupienia S 1 z jakim sporód skupie S 3 S 4,,S k. Analogiczne jest znaczenie drugiego minimum w wewntrznym nawiasie klamrowym. Po wybraniu z tych dwóch wartoci miar zwizków z pozostaymi skupieniami wartoci wikszej (i co za tym idzie skupienia S 1 lub S 2 ), porównujemy t warto z wartoci miary R(S 1, S 2 ) wybierajc mniejsz z tych dwóch wartoci. W uzupenieniu wzoru (4) naley doda, e jeeli k=2 czyli, gdy w pierwszym kroku dzielimy cay zbiór obiektów, to R(S 1, S 2,k) = R(S 1, S 2 ). Miar podobn do miary (4) zastosowano w pracy Korzeniewski (2012) do identykacji zmiennych tworzcych struktur skupie. Miara ta spisuje si najsabiej gdy w zbiorze danych istniej tylko dwa skupienia. W takich przypadkach efektywno miary (4) nieco poprawia wielokrotne jej obliczenie dla zbiorów danych podobnych do oryginalnego zbioru, na przykad, zbiorów, które powstaj poprzez zastpienie kadego oryginalnego obiektu obiektem lecym blisko oryginalnego. Takie zbiory mona generowa, na przykad, wedug wzoru: x ' v x v r (5) gdzie v numer zmiennej, x' v nowa warto (na zmiennej v) zastpujca oryginaln warto x v, r liczba wylosowana z odcinka [0;1] (niezalenie dla kadej zmiennej v i kadego obiektu). Po unitaryzacji zerowanej (por. opis eksperymentu) wszystkie wartoci kadej zmiennej v le na odcinku [0;1] wic formu (5) mona uzna za generowanie losowe obserwacji lecej blisko obserwacji oryginalnej. Z bada symulacyjnych opisanych w pracy Korzeniewski (2012) wynika, e wielokrotne generowanie zbiorów podobnych do oryginalnego niekiedy poprawia efektywno miary (4) dziki temu, e niweluje niekorzystny rozkad wartoci cech w obszarach granicznych pomidzy dwoma skupieniami. Dziaanie algorytmu nie bdzie silnie uzalenione od tego jak zmieni si zbiór danych pod wpywem transformacji (5), poniewa transformacja ta zostanie powtórzona wielokrotnie i z wielu powtórze bdzie wybierany wynik dominujcy. Dokadniej rzecz ujmujc, algorytm zostanie zastosowany do kadego z 20 zbiorów danych po transformacji (5) i za ostateczn liczb skupie uznamy liczb wystpujc najczciej w cigu otrzymanych 20 kandydatek. Ten sposób postpowania wprowadza pewn losowo do algorytmu, ale zauwamy, e losowo istnieje w samej metodzie k-rednich, gdy obiekty startowe wybierane s losowo. W celu wykorzystania miary (4) do ustalania liczby skupie naley zaproponowa algorytm wielostopniowego dzielenia zbioru danych na dwa skupienia, gdy

5 Indeks wyboru liczby skupie w zbiorze danych 173 kolejno dzielenia poszczególnych skupie na ewentualne dwa lub trzy mniejsze (sposób przeszukiwania zbioru) ma znaczenie dla ostatecznego wyniku. Progiem dla miary (4), od którego akceptujemy podzia jednego skupienia na dwa skupienia bdzie warto 0,4. Ta liczba zostaa ustalona metod poszukiwa empirycznych w pracy Korzeniewski (2012) w celu identykacji zmiennych tworzcych struktur skupie. Warto progowa 0,4 daa dobre wyniki dla struktur skupie generowanych z mieszanin rozkadów normalnych. Zaproponujmy nastpujcy algorytm wielostopniowego dzielenia zbioru danych na dwa skupienia. Krok 1. Poó K=1 tj. cay zbiór obiektów potraktuj jako jedno skupienie. Krok 2. Kade skupienie o numerze k, k=1,2,,k podziel na dwa skupienia i oznacz symbolem m k warto miary (4) dla tego podziau jeeli liczebnoci obu mniejszych skupie s równe co najmniej 5% liczebnoci zbioru obiektów. Jeeli cho jedno ze skupie ma mniejsz liczebno, to przyjmij m k = 0. Krok 3. Sporód liczb m k wybierz najwiksz odpowiadajc skupieniu k 0 i jeli jest ona wiksza od 0,4 to zwiksz liczb K skupie o 1 zastpujc skupienie k 0 dwoma mniejszymi, na które zostao ono podzielone. Id do kroku 2. Jeli najwiksza sporód liczb m k jest mniejsza od 0,4 to id do kroku 4. Krok 4. Pojedynczo, dla kadego ze skupie o numerze k, k=1,2,,k przeprowad nastpujc procedur. Podziel skupienie na dwa skupienia A k oraz B k (podzia wstpny, po którym bdzie K+1 skupie), a nastpnie, kade z tych dwóch skupie na kolejne dwa skupienia (podzia drugi, po którym bdzie K+3 skupie). Jeeli liczebnoci obu skupie z podziau drugiego s równe co najmniej 5% liczebnoci zbioru obiektów, to znajd warto miary (4) dla podziaów drugich obu skupie A k oraz B k. Jeeli liczebno choby jednego z dwóch skupie drugiego podziau jest nisza od 5% liczebnoci zbioru obiektów, to poó warto miary (4) równ 0. Sporód dwóch wartoci miary (4) (jednej dla skupienia A k drugiej dla B k ) wybierz wiksz wyodrbniajc skupienie k ' (k) (z drugiego podziau) i oznacz j symbolem m k. Sporód liczb m k dla k=1,2,,k, wybierz najwiksz odpowiadajc skupieniu k 0. Jeli warto ta jest wiksza od 0,4 to zmie podzia obu skupie A k0 oraz B k0 dzielc je na skupienie k ' (k 0 ) oraz skupienie skadajce si z drugiego skupienia z podziau pierwszego (tego sporód A k0, B k0 które miao mniejsz warto miary (4)) i drugiego, rónego od k ' (k 0 ), skupienia z podziau drugiego odnonego skupienia. Poó K+2 jako liczb skupie. Id do kroku 2. Jeli najwiksza sporód liczb m k jest mniejsza od 0,4 to id do kroku 5 zachowujc taki podzia caego zbioru obiektów na K skupie jaki by na pocztku kroku 4. Krok 5. Pojedynczo, dla kadego ze skupie o numerze k, k=1,2,,k przeprowad analogiczn procedur do tej z kroku 4 dzielc kade skupienie w podziale wstpnym na trzy skupienia. Jeli które z tych trzech skupie da si podzieli na dwa skupienia speniajc te same kryteria co w kroku 4, to id do kroku 2. Jeli nie, to id do kroku 6 zachowujc taki podzia caego zbioru obiektów na K skupie jaki by na pocztku kroku 5.

6 174 Jerzy Korzeniewski Krok 6. Aktualn biec liczb K skupie uznaj za ostateczn. Wygeneruj nowy zbiór danych zgodnie z formu (5) i id do kroku 1. Krok 7. Powtórz 20 razy kroki 1 6. Sporód 20 liczb kandydatek na liczb skupie wybierz liczb dominujc. Jeli nie ma liczby dominujcej, to jeszcze raz wygeneruj zbiór danych zgodnie z formu (5), powtórz kroki 1 6 otrzymujc kandydatk numer 21 i wybierz t sporód kilku najczciej powtarzajcych si wartoci w cigu 20 liczb, która jest najblisza kandydatce numer 21. Naley zwróci uwag na to, e wystpujce w kroku 4 i kroku 5 podziay pierwsze na dwa lub trzy skupienia s podziaami tymczasowymi i nie oceniamy ich przy pomocy miary (4). Natomiast kade ze skupie powstaych w wyniku podziau tymczasowego próbujemy dzieli dalej na dwa skupienia i dopiero te podziay s oceniane i z nich wybierany jest najlepszy. Podziay tymczasowe s z powrotem scalane, za wyjtkiem skupienia k ' (k 0 ) (jeeli takie zostao wyodrbnione). Wprowadzenie podziaów tymczasowych na dwa lub trzy skupienia jest konieczne, gdy wielostopniowe dzielenie na tylko dwa skupienia nie da dobrych efektów w przypadku struktury skadajcej si z kilku skupie (por. rys. 2). Podzia na dwa skupienia, z których kade bdzie skadao si z kilku mniejszych, moe nie da wartoci miary (4) przekraczajcej próg 0,4. Jeeli za wprowadzimy wstpny, tymczasowy podzia na dwa lub trzy skupienia i kade z nich bdziemy próbowali dzieli na dwa, to jest wiksza szansa na to, e przy pomocy miary (4) wyodrbnimy jakie skupienie wystarczajco dobrze separowane od wszystkich pozostaych. Rysunek 2. Przykad zbioru obiektów skadajcego si z siedmiu skupie, który przy podziale na dwa skupienia moe da nisk warto miary R(S 1, S 2 ) ródo: opracowanie wasne.

7 Indeks wyboru liczby skupie w zbiorze danych EKSPERYMENT BADAWCZY Wszystkie zbiory danych skaday si z obiektów opisanych przez zmienne cige, generowanych przy pomocy algorytmu OCLUS (Steinley i Henson, 2005) jednego z najnowszych ze znanych z literatury sposobów. W algorytmie tym separowalno skupie jest typu acuchowego tzn. na kadym wymiarze jest k-1 par skupie zachodzcych na siebie w takim samym stopniu równym (overlap) 1/T (k liczba skupie, T liczba wymiarów). Ogólny stopie pokrywania si skupie jest iloczynem stopni pokrywania si skupie na poszczególnych wymiarach, czyli overlap T v1 overlap v. (6) Poszczególne skupienia s generowane na kadej wspórzdnej z rozkadów normalnych o jednostkowej wariancji i wartociach rednich zdeterminowanych przez stopie zachodzenia na siebie rozkadów generujcych skupienia oraz przez warto redni rozkadu generujcego pierwsze skupienie. Rozkad normalny generowany by wedug algorytmu Marsaglia-Bray (por. Wieczorkowski, Zieliski, 1997) z generatorem liczb pseudolosowych z jzyka Delphi4. Nastpnie, po wygenerowaniu wszystkich skupie (na kadej wspórzdnej oddzielnie), zostay one w sposób losowy ponumerowane w sposób niezaleny na kadej wspórzdnej. W tabeli 1 podane s odlegoci pomidzy wartociami rednimi kolejnych skupie w zalenoci od stopnia zachodzenia na siebie rozkadów generujcych skupienia oraz liczby zmiennych. Dla overlap=0 przyjto, e wartoci rednie dwóch ssiednich skupie s odlege o 6 odchyle standardowych. Taki sposób generowania struktury skupie powoduje to, e otrzymujemy zbiory, których struktura jest efektem równego udziau wszystkich zmiennych. T cech mona uwaa za wad, wród zbiorów danych empirycznych takiego równouprawnienia cech, na ogó, nie ma. Program do generowania zbiorów danych oraz program realizujcy zaproponowany algorytm napisane zostay samodzielnie w rodowisku jzyka Delphi4. Wszystkie zbiory skaday si z 200 elementów podzielonych na kilka skupie. Poszczególne parametry wygenerowanych zbiorów danych przedstawione s poniej. Parametr pierwszy, liczba skupie moga by równa 2, 3, 4, 6 lub 8. Parametr drugi, liczebnoci skupie, mia trzy warianty: (a) równe liczebnoci wszystkich skupie; (b) 10% obserwacji i (c) 60% obserwacji w jednym skupieniu, a pozostae skupienia w przyblieniu równoliczne. Parametr trzeci, liczba zmiennych, mia trzy warianty: 2, 4 lub 6. Parametr czwarty, stopie pokrywania si skupie, mia pi wariantów 0; 0,1; 0,2; 0,3; 0,4. Parametr pity, sia korelacji wewntrz skupie miaa dwa warianty: (a) macierz kowariancji w kadym skupieniu bya macierz jednostkow; (b) w kadym skupieniu

8 176 Jerzy Korzeniewski bya taka sama macierz kowariancji z jedynkami na przektnej za poza przektn, liczb wylosowan z przedziau [0,3; 0,8]. Razem wszystkie kombinacje wariantów parametrów day liczb 450 zbiorów. Ten zestaw powtórzono 10 razy co dao ostateczn liczb 4500 zbiorów. Tabela 1. Odlegoci pomidzy wartociami rednimi rozkadów normalnych dwóch ssiednich skupie, w zalenoci od stopnia pokrywania si skupie (overlap) oraz liczby T zmiennych opisujcych obiekty Overlap T=2 T=4 T= ,1 2 1,16 0,82 0,2 1,52 0,86 0,60 0,3 1,2 0,66 0,46 0,4 0,96 0,51 0,35 ródo: opracowanie wasne. W eksperymencie symulacyjnym stosowanie jakiejkolwiek normalizacji zmiennych nie jest konieczne, ale normalizacja zazwyczaj wystpuje w analizie skupie zbiorów empirycznych. Wybrana zostaa formua w postaci unitaryzacji zerowanej z dzieleniem przez rozstp cechy, czyli, dla zmiennej o numerze v: x ' v xv x v. (7) x x v v Ta formua ma dobr opini, ponadto po jej zastosowaniu mona atwo wprowadzi niewielkie, lokalne transformacje zbioru danych, takie jak, na przykad, transformacja dana wzorem (5). Indeksy Caliskiego-Harabasza i Gap oceniane byy dla dopuszczalnego zakresu liczby skupie od 1 (lub 2) do OCENA PORÓWNAWCZA EFEKTYWNOCI INDEKSU Wyniki eksperymentu symulacyjnego s przedstawione w tabelach 2 i 3. Nowy indeks spisa si lepiej w przypadku struktur skupie bez korelacji wewntrzklasowej. Taki wynik jest poprawny, gdy zastosowana metoda grupowania k-rednich zwraca gorsze wyniki w przypadku skupie wyduonych. W porównaniu z kon-

9 Indeks wyboru liczby skupie w zbiorze danych 177 kurencj nowy indeks spisa si bardzo dobrze. Z dwóch konkurencyjnych metod znacznie lepiej wypad indeks Caliskiego-Harabasza, indeks Gap okaza si wiele sabszy w kadym przypadku. Nowy indeks traci znacznie wolniej efektywno wraz ze wzrostem stopnia rozmycia skupie czyli spadkiem separowalnoci skupie. W przypadku indeksu Caliskiego-Harabasza jest widoczny ostry wzrost redniego bdu przy wprowadzeniu niewielkiego rozmycia struktury skupie (overlap=0,1), w konsekwencji, redni bd popeniany przez ten indeks jest wysoki. Nowy indeks osign duo lepszy wynik redni od indeksu Caliskiego-Harabasza. Indeks konkurencyjny jest nieznacznie lepszy tylko w przypadku struktur skupie bardzo wyranie separowalnych (overlap=0) przy towarzyszcym temu skorelowaniu wewntrznym skupie. Takie wnioski mona sformuowa analizujc odsetek poprawnie wybranych liczb skupie oraz warto redni popenionego bdu. Przeanalizowane zostao równie rozproszenia tych dwóch miar. Rozproszenie mierzone odchyleniem standardowym miary (odsetka poprawnie wybranych liczb skupie i wartoci bdu) byo dla wszystkich trzech indeksów podobne (w grupach zbiorów z jednakowymi parametrami). Efektywno porównywanych metod w zalenoci od typu struktury skupie Tabela 2. Typ zbioru danych Metoda Odsetek poprawnie znalezionych liczb skupie Odsetek bdów równych 1 Odsetek bdów równych 2 rednia arytmetyczna warto bdu Brak korelacji wewntrz klas Korelacja wewntrz klas Nowy indeks 0,511 0,366 0,086 0,656 Indeks Gap 0,334 0,191 0,130 2,119 Indeks CH 0,477 0,194 0,154 1,299 Nowy indeks 0,413 0,398 0,136 0,845 Indeks Gap 0,330 0,196 0,131 2,120 Indeks CH 0,467 0,213 0,155 1,272 Nowy indeks 0,462 0,382 0,111 0,751 rednio Indeks Gap 0,332 0,193 0,130 2,120 ródo: obliczenia wasne. Indeks CH 0,472 0,203 0,154 1,285

10 178 Jerzy Korzeniewski Tabela 3. rednia arytmetyczna bdu porównywanych metod w zalenoci od stopnia separowalnoci struktury skupie Typ zbioru danych Metoda Overlap równy 0 Overlap równy 0,1 Overlap równy 0,2 Overlap równy 0,3 Overlap równy 0,4 Brak korelacji wewntrz klas Korelacja wewntrz klas Nowy indeks 0,132 0,579 0,746 0,849 0,972 Indeks Gap 1,279 2,157 2,269 2,406 2,485 Indeks CH 0,211 1,143 1,387 1,771 1,983 Nowy indeks 0,373 0,777 0,948 0,999 1,131 Indeks Gap 1,360 2,134 2,303 2,378 2,429 Indeks CH 0,453 1,025 1,372 1,632 1,878 Nowy indeks 0,253 0,678 0,847 0,924 1,052 rednio Indeks Gap 1,319 2,145 2,286 2,392 2,457 ródo: obliczenia wasne. Indeks CH 0,332 1,084 1,379 1,702 1,930 Przedmiotem dalszych bada bdzie efektywno nowego indeksu przy zastosowaniu innej metody grupowania obiektów, mniej wraliwej na nieregularny ksztat skupie. Uniwersytet ódzki LITERATURA Caliski R. B., Harabasz J., (1974), A Dendrite Method for Cluster Analysis, Communications in Statistics, 3, Gatnar E., Walesiak M., (red.), (2004), Metody Statystycznej Analizy Wielowymiarowej w Badaniach Marketingowych, Wydawnictwo AE we Wrocawiu. Korzeniewski J., (2005), Propozycja nowego algorytmu wyznaczajcego liczb skupie, Prace Naukowe AE we Wrocawiu nr 1076, Taksonomia 12, Korzeniewski J., (2012), Metody selekcji zmiennych w analizie skupie. Nowe procedury, Wydawnictwo Uniwersytetu ódzkiego. Migda-Najman K., Najman K. (2005), Analityczne metody ustalania liczby skupie, Prace Naukowe AE we Wrocawiu nr 1076, Taksonomia 12,

11 Indeks wyboru liczby skupie w zbiorze danych 179 Milligan G. W., Cooper M., (1985), An Examination of Procedures for Determining the Number of Clusters in a Data Set, Psychometrika, 2, Mojena R. (1977), Hierarchical Grouping Methods and Stopping Rules: an Evaluation, Computer Journal, 20 (4), Najman K., Migda-Najman K., (2006), Wykorzystanie indeksu Silhouette do ustalania optymalnej liczby skupie, Wiadomoci Statystyczne, 6, Sokoowski A., (1992), Empiryczne testy istotnoci w taksonomii, Zeszyty Naukowe AE w Krakowie, Seria specjalna: Monograe nr 108. Steinley D., Henson R., (2005), OCLUS: An Analytic Method for Generating Clusters with Known Overlap, Journal of Classi cation, 22, Tibshrani R., Walther G., Hastie T., (2001), Estimating the Number of Clusters in a Dataset via the Gap Statistic, Journal of the Royal Statistical Society, 32, Wieczorkowski R., Zieliski R., (1997), Komputerowe generatory liczb losowych, Wydawnictwa Naukowo Techniczne, Warszawa. INDEKS WYBORU LICZBY SKUPIE W ZBIORZE DANYCH Streszczenie W artykule zaproponowany jest nowy indeks wyznaczajcy liczb skupie w zbiorze danych opisanych przez zmienne cige. Indeks oparty jest na wielostopniowym dzieleniu zbioru danych (lub jego czci) na dwa skupienia i sprawdzaniu czy podzia taki naley zachowa czy pomin. Kryterium sprawdzajcym jest indeks Randa przy pomocy którego oceniana jest zgodno podziau pierwotnego na dwa skupienia z podziaem na dwa skupienia zbioru wszego, skadajcego si ze skupienia mniejszego z podziau pierwotnego i 1/3 skupienia wikszego z podziau pierwotnego. Podziay dokonywane s przy pomocy metody k-rednich (dla k=2) z wielokrotnym losowym wyborem punktów startowych. Efektywno nowego indeksu zostaa zbadana w obszernym eksperymencie na kilku tysicach zbiorów danych wygenerowanych w postaci struktur skupie o rónej liczbie zmiennych, skupie, wzgldnej liczebnoci skupie i rónych wariantach skorelowania zmiennych wewntrz skupie. Ponadto, zmienny by równie stopie separowalnoci skupie kontrolowany wedug algorytmu OCLUS. Podstaw oceny efektywnoci byo porównanie z dwoma innymi indeksami liczby skupie, majcymi w literaturze przedmiotu opini jednych z najlepszych sporód dotychczas opracowanych tj. indeksem Caliskiego-Harabasza oraz indeksem Gap. Efektywno zaproponowanego indeksu jest znacznie wysza od obu konkurencyjnych indeksów w przypadkach niezbyt wyranej struktury skupie. Sowa kluczowe: analiza skupie, liczba skupie w zbiorze danych, indeks Caliskiego-Harabasza, indeks Gap INDEX OF THE CHOICE OF THE NUMBER OF CLUSTERS Abstract In the article a new index for determining the number of clusters in a data set is proposed. The index is based on multiple division of the data set (or a part of it) into two clusters and checking if this division should be retained or neglected. The checking criterion is the Rand index by means of which

12 180 Jerzy Korzeniewski the extent to which the primary division and the second division of the narrower subset consisting of the smaller cluster from the primary division and 1/3 of the bigger cluster coincide. The divisions are made by means of the classical k-means (for k=2) with multiple random choice of starting points. The efciency of the new index was examined in a broad experiment on a couple of thousands of data sets generated to possess cluster structures with different number of variables, clusters, cluster densities and different variants of within cluster correlation. Moreover, the cluster overlap controlled according to the OCLUS algorithm was also varied. A basis for efciency assessment was the comparison with two other leading indices i.e. Caliski-Harabasz index and the Gap index. The efciency of the new index proposed is higher than that of the competition when the cluster structure is not very distinct. Keywords: cluster analysis, number of clusters in a data set, Caliski-Harabasz index, Gap index