Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY PB
2 PB 1 Projekt z grupowania danych - Rough k-medoids Liczba osób realizuj cych projekt: 1 osoba 1. Wczytanie danych w formatach ar, tab 2. Wybór atrybutów, które maj zosta uwzgl dnione podczas grupowania 3. Pobranie parametrów algorytmu k-±rednich, w tym: (a) wspóªczynnik rozmyto±ci (b) liczba iteracji, ewentualnie brak zmian w wynikowych ±rodkach klas (c) liczba grup (skupie«, klas) 4. Wypisanie wyników grupowania, przydzielenie do poszczególnych grup 5. Zapisanie wyniku pogrupowania z dodaniem jednego atrybutu (kolumny) okre±laj cej numer grupy poszczególnych obiektów (format ar, tab). 1.1 Nazewnictwo (x 1, x 2,...) - zbiór obiektów, reprezentuj cych dane x i = {x 1 i, x2 i,.., xp i }, gdzie xj i oznacza atrybut o indeksie j obiektu x i. U przestrze«wszystkich obiektów X - podzbiór zbioru wszystkich obiektów U x i - obiekt nale» cy do podzbioru wszystkich obiektów U A - zbiór wszystkich atrybutów, cech, wªa±ciwo±ci a i - atrybut nale» cy do zbioru atrybutów A V ai - zbiór wszystkich warto±ci atrybutu a i (nazywany dziedzin a i ) V (a i ) - zbiór wszystkich warto±ci atrybutu a i (nazywany dziedzin a i ) B - niepusty podzbiór A (B A) LOW (X B ) - dolna aproksymacja X wzgl dem B X B - dolna aproksymacja X wzgl dem B UP P (X B ) - górna aproksymacja X wzgl dem B X B - górna aproksymacja X wzgl dem B AS B - standardowa przestrze«aproksymacyjna AS #,$ - sparametryzowana przestrze«aproksymacyjna R ai (X) - przybli»ono± ze wzdgledu na {a i } Rough aj (a i ) - ±rednia przybli»ono± atrybutu a i wzgl dem atrybutu {a j } MR(a i ) - minimalna przybli»ono± atrybutu a i M M R - minimalna warto± MR wszystkich atrybutów IN D(B) - relacja nierozró»nialno±ci [x i ] IND(B) - klasa równowa»no±ci obiektu x i w relacji IND(B), nazywana tak»e zbiorem elementarnym w B (C 1, C 2,..., C K ) - klasy, skupienia w danym pogrupowaniu danych Card(X) - liczebno± zbioru X X - liczebno± zbioru X P (U) - zbiór pot gowy zbioru U
METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY 3 2 Rough k-medoids Clustering Grupowanie przybli»one wokóª medoidów, zaklada»e ±rodkami klas s konkretne obiekty, reprezentanci klasy. W przeciwi«stwie do algorytmu k-±rednich, gdzie ±rodek klasy mo»e by reprezentowany przez wyliczony ±rodek klasy, który nie reprezentuje konkretnego obiektu. 2.1 Klasyczny algorytm k-medoidów gdzie CP C = CP C(C k ) = K CP C(C k ) (1) k=1 X n C k d(x n, m k ) (2) Algorytm Zwarto± grupowania CP C zostaje wybrana jako kryterium grupowania. W ten sposób algorytm dziaªa nast puj co: 1. Zdeniowa liczb klas K. 2. Losowo wybra K obiektów jako medoidy. 3. Pozostaªe obiekty (nie-medoidy) przypisa do klasy, reprezentowanej przez najbli»szy medoid. 4. Zamieni ka»dy z medoidów z nie-medoidem do chwili, gdy nie ma ju» zmian w zwarto±ci grupowania. 5. Sprawdzi zbie»no± algorytmu, je»eli algorytm nie wykazuje zmian z zwarto±ci pogrupwoania zakonczy dziaªanie, w przeciwym razie przej± do punktu 3. 2.2 Przybli»ony algorytm k-medoidów Dziaªanie algorytmu zostaªo przedstawione w tabeli Algorytm 1. Zbiór danych: X n - n-ty punkt danych oraz X = (X 1,..., X n ) T Medoidy - m k klas C k, k = 1,.., K Odlegªo± obiektu X n od medoidu m k : d(x n, m k ) = X n m k Zwarto± przybli»ona grupowania: gdzie RCP C = Σ K i=1rcp C(C k ) RCP C(C k ) = w l Σ Xn C k d(x n, m k ) + w b Σ Xn C k C k d(x n, m k ) Parametry w l oraz w b okre±laj stopie«w jakim zbiory dolnej aproksymacji oraz brzegu wpªywaj na warto± zwarto±ci przybli»onej grupowania.
4 PB Algorithm 1: Rough k-medoids Clustering Data: Input Data Result: Rough K -medoidd Cluster assignment 1) Wybra losowo pocz tkowe K obiektów jako medoidy: m k, k=1,..,k. Wybrane medoidy nale» do dolnej aproksymacji klas: m k C k. Pozostaªe obiekty s oznaczane jako X m,m = 1,.., (N K). 2) Przypisa pozostaªe (N K) obiektów X m do K prototypów klas w dwustopniowym procesie. W pierwszym kroku obiekt zostaje przypisany do górnej aproksymacji najbli»ej sobie klasy. W drugim kroku, obiekt zostaje przypisany tak»e do innych, wzgl dnie bliskich klas lub zostaje przypisany do dolnej aproksymacji najbli»szej klasy. (a) dla danego obiektu X m okre±l jego najbli»szy medoid m k : d(x m, m k ) = min h=1,...,k d(x m, m h ) Przypisz X m do górnej aproksymacji klasy k: X m C k. (b) okre±l pozostaªe klasy, które równie» znajduj si blisko obiektu X m - które znajduj si nie dalej od obiektu X m ni» d(x m) + ɛ, gdzie ɛ okre±la warto± progow. T = {h : d(x n m h ) d(x n m k ) ɛ h k}. if T 0 (T jest równie» blisko do innych medoidów) then X m C h, h T ; else X m C h ; 3) Obliczy bie» c warto± RCP C current 4) Zamieni ka»dy z medoidów m k z ka»dym z obiektów X m i obliczy RCP C k m, Niech RCP C k0 m 0 = min k, m RCP C k m dla k = 1,..K, m = 1,.., (N K). if RCP C k0 m 0 RCP C current then zamie«medoid m k0 z obiektem X m0 oraz ustaw RCP C current = RCP C k0 m 0 ; Wróc do kroku 2; else ST OP ;
METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY 5