Marcn Pełka Unwersytet Ekonoczny we Wrocławu Podeśce weloodelowe z wykorzystane etody boostng w analze danych sybolcznych Streszczene Cele artykułu est zaprezentowane ożlwośc wykorzystana etody boostng w agregac odel dla danych sybolcznych z zastosowane etody k-nablższych sąsadów ako klasyfkatora bazowego. W artykule przedstawono podstawowe poęca z zakresu analzy danych sybolcznych, etody k-nablższych sąsadów. W częśc epryczne przedstawono zastosowane podeśca weloodelowego dla danych sybolcznych dla kredytów konsupcynych. Słowa kluczowe: analza danych sybolcznych, podeśce weloodelowe, boostng. 1. Wstęp Ideą podeśca weloodelowego est łączene nazywane także agregacą wynków M odel bazowych D 1,, D M w eden odel zagregowany * D, por. [Kuncheva 2004, s. 6-7; Walesak, Gatnar 2009, s. 261; Gatnar 2008, s. 62]. Cele zastosowana podeśca weloodelowego, zaast wykorzystana poedynczego odelu, est zneszene błędu predykc. Oznacza to, że odel połączony est odele bardze dokładny nż akkolwek z poedynczych odel, które wchodzą w ego skład, zob. [ Gatnar 2008, s. 62]. Metoda boostng est drugą obok etody baggng z bardze znanych etod stosowanych w podeścu weloodelowy. Metoda ta została zaproponowana pod nazwą AdaBoost przez Freunda Schapre w 1995 r., zob. [Gatnar 2008, s. 148; Freund, Schapre 1997, s. 119]. Cele artykułu est zaprezentowane ożlwośc zastosowana odyfkac etody boostng w agregac odel dla danych sybolcznych z wykorzystane etody k-nablższych sąsadów ako klasyfkatora bazowego. W częśc epryczne przedstawono wynk badań z wykorzystane zboru kredytów konsupcynych. 2. Dane sybolczne Obekty sybolczne ogą być opsywane przez następuące rodzae zennych sybolcznych [Bock, Dday 2000, s. 2-3]: 1
1) zenne w uęcu klasyczny, t. lorazowe, przedzałowe, porządkowe, nonalne; 2) zenne sybolczne, t. zenne: nterwałowe, których realzacą są przedzały lczbowe rozłączne lub nerozłączne; welowarantowe, gdze realzacą zenne est węce nż eden warant (lczba lub kategora); welowarantowe z waga, gdze realzacą zenne oprócz welu warantów są dodatkowo wag (lub prawdopodobeństwa) dla każdego z warantów zenne dla danego obektu. Nezależne od typu zenne w analze danych sybolcznych ożey eć do czynena ze zenny strukturalny [Bock, Dday 2000, s. 2-3; 33-37]. Do tego typu zennych zalcza sę zenne herarchczne w których a pror ustalone są reguły decyduące o ty, czy dana zenna opsue dany obekt czy ne; zenne taksonoczne w których ustalone są a pror realzace dane zenne; zenne logczne t. take, dla których ustalono a pror reguły logczne lub funkcyne, które decyduą o wartoścach zenne. W analze danych sybolcznych wyróżna sę dwa typy obektów sybolcznych: obekty sybolczne perwszego rzędu obekty rozuane w sense klasyczny (obekty eleentarne), np. konsuent, przedsęborstwo, produkt, pacent czy gospodarstwo doowe, obekty sybolczne drugego rzędu obekty utworzone w wynku agregac zboru obektów sybolcznych perwszego rzędu, np. grupa konsuentów preferuąca określony produkt, regon geografczny (ako wynk agregac podregonów). 3. Idea etody boostng Drugą, obok etody baggng, popularną etodą łączena odel bazowych est etoda boostng, zob. [Gartnar 2008, s. 145-154; Polkar 2006, s. 28-32; Kuncheva 2004, s. 212-222]. Metoda ta realzue w swe konstrukc archtekturę szeregową odel zagregowanych (zob. rys. 1). Oznacza to, że wynk kolenych odel zależą od wynków odel poprzednch. O D 1 D 2... D M D*(O ) Źródło: [Gatnar2008, s. 69]. Rys. 1. Archtektura szeregowa 2
Metoda boostng polega na poprawanu (nacze wzacnanu) dokładnośc predykc odelu zagregowanego D,, * D w rezultace odyfkac kolenych odel bazowych 1 D M, por. [Gatnar 2008, s. 145]. Poprawę dokładnośc predykc uzyskue sę poprzez zastosowane podwónego systeu wag. Perwszy dotyczy obserwac polega na ty, że obserwace, które błędne sklasyfkował -ty odel D, otrzyuą wyższe wag. Drug syste wag polega na przydzelenu każdeu z odel wag proporconalnych do błędu ego predykc. Obserwace są losowane do każdego z M odel bazowych zgodne z przypsany waga, których sua dla obektu us wynosć eden, zob. [Gatnar 2008, s. 145; Kuncheva 2004, s. 216; Polkar 2006, s. 29]. Algoryt etody boostng zostane oówony na przykładze algorytu AdaBoost (nazwa pochodz od Adaptve Boostng) [por. Gatnar 2008, s. 146]. Algoryt ten składa sę z czterech kroków [Gatnar 2008, s. 146; Polkar 2006, s. 29-30; Kuncheva 2004, s. 216]: 1. Ustalene lczby odel bazowych M. 2. Ustalene początkowych wag obserwac ze zboru uczącego U : a) wag ogą być odwrotne proporconalne do lczby obektów w zborze uczący: (1) 1 1,, N w, (1) N b) wag ogą być zależne od potencału opsowego obektów sybolcznych propozycę takego rozwązana zawarł w swoe pracy A. Dudek, zob. [2009, s. 33-40]: gdze: O O, O -ty obekt sybolczny ze zboru uczącego, (1) 1,, N w (2) O E syntetyczny obekt sybolczny opsuący wszystke obekty ze zboru uczącego, potencał obektu sybolcznego lczony zgodne ze wzore [Bock, Dday 2000, s. 176]: P R O, (3) v 1 1,, P nuer zenne sybolczne, 3
v długość przedzału dla zennych nterwałowych, dla zennych welowarantowych lczba eleentów (warantów) -te zenne dla -tego obektu sybolcznego. W częśc epryczne artykułu wykorzystane zostaną zarówno wag zależne od potencału opsowego, ak wag odwrotne proporconalne do lczby obektów. 3. Wykonane dla każdego 1,, M następuących czynnośc: a) wylosowane ze zboru uczącego U do próby uczące U obektów zgodne z rozkłade ch wag, b) zbudowane odelu bazowego D na podstawe próby uczące U oblczene błędu predykc (ako błędu resubstytuc): N ( ) e D ˆ w I D O y, (4) c) eżel e 0 lub e 0, 5 D D 1, należy przerwać dzałane algorytu, d) w przecwny raze oblczana est waga dla odelu bazowego D : D ed, 1 e) zodyfkowane wag obserwac zgodne ze wzore: f) powrót do podpunktu 3a. w ( 1) e (5) ( ) I ( Dˆ ( O ) y ) w N ( ) I ( Dˆ ( Ok ) yk ) k w 1 k 4. Dokonane predykc odelu zagregowanego dla obserwac O za poocą odel bazowych z wykorzystane ważonego głosowana: Dˆ * M 1 O arg ax ln I Dˆ O 1, C. Jak wsponano we wprowadzenu, klasyfkatore bazowy w przykładze epryczny est etoda k-nablższych sąsadów dla danych sybolcznych. Algoryt te etody ożna wyrazć za poocą następuących kroków (zob. [Malerba, D'Aato, Esposto, Monopol 2003; Malerba, Esposto, D Aato, Appce 2004; Malerba, Esposto, D Aato, Appce 2006; Pełka 2010]): 1. Wybór lczby sąsadów branych pod uwagę w dalsze częśc algorytu (k). 2. Oblczene odległośc ędzy obekta sybolczny (ze zboru uczącego testowego). (6) (7) 4
3. Wybór k obektów ze zboru uczącego nablższych -teu obektow ze zboru testowego. 4. Oblczene prawdopodobeństw a posteror przydzelena obektu ze zboru testowego do każde z klas zboru uczącego. Prawdopodobeństwo to oblczane est zgodne ze wzore: J K (8) J K 1 K C K, 1,, J, P O gdze: w C, C, w 1 k k 1 d O, O wag, które są odwrotnoścą odległośc ędzy -ty obekte ze zboru testowego a k-ty sąsade ze zboru uczącego,, 1 C C k eżel klasa, do które należy k-ty sąsad, est taka saa ak klasa, do które przyporządkowuey -ty obekt,, 0 C C k eżel klasa, do które należy k-ty sąsad, est nna nż klasa, do które przyporządkowuey -ty obekt, K lczba sąsadów należących do -te klasy, 1,, J nuer klasy. 4. Przykład epryczny Bank BGŻ SA osągnął w 2004 r. dzesąte esce pod względe suy udzelonych kredytów, a edenaste pod względe funduszy własnych, por. [Adosk 2005, s. 6]. Jednocześne bank ten w rankngu 50 nawększych banków w Polsce został uznany w 2004 r. za drug bank, po BPH SA, w kategor banków unwersalnych, por. [Adosk 2005, s. 22]. Zadłużene z tytułu kredytów konsupcynych według danych na konec 2004 r. stanowło 69% całego bankowego zadłużena gospodarstw doowych, zob. [Penczar n. 2005, s. 19]. W przykładze epryczny wykorzystano dwa zbory danych dotyczący kredytów konsupcynych udzelonych w 2004 r. przez Bank Gospodark Żywnoścowe SA w Kłodzku. Jako etodę doboru próby do badana wybrano dobór nelosowy (wybór kwotowy), zob. [Szreder 2004, s. 53-60]. Kwota w ty przypadku były poszczególne rodzae kredytów konsupcynych udzelone przez BGŻ SA. Oddzał w Kłodzku. Zbór danych 5
zawera 100 obektów podzelonych na dwe klasy (72 decyze o udzelenu kredytu klasa 1, 28 decyz o odrzucenu wnosku kredytowego klasa 2). Obydwe klasy opsue trzynaśce zennych: 1. Średne wpływy na rachunek beżący zenna nterwałowa. 2. Staż pracy kredytoborcy zenna nterwałowa. 3. Czas trwana kredytu w esącach zenna nterwałowa. 4. Dochody kredytoborcy zenna nterwałowa. 5. Wnoskowana kwota kredytu zenna nterwałowa. 6. Hstora kredytowa zenna welowarantowa. 7. Staż klenta w banku BGŻ SA zenna nterwałowa. 8. Wskazane poręczycela zenna welowarantowa. 9. Ocena poręczycela zenna welowarantowa. 10. Inne proponowane zabezpeczena zenna welowarantowa. 11. Ocena klenta w BGŻ SA zenna welowarantowa. 12. Loalność klenta wobec BGŻ SA zenna welowarantowa. 13. Udzelona nforaca o sytuac kredytowe zenna welowarantowa. Zbór danych podzelono na dwa podzbory zbór uczący stanowło 75 obektów, a zbór testowy 25 obektów. Wynk otrzyane przy zastosowanu podeśca weloodelowego boostng z zastosowane wag odwrotne proporconalnych do lczby obektów zestawono w tab. 1. Wynk otrzyane przy zastosowanu wag zależnych od potencału opsowego obektów sybolcznych zestawono w tab. 2. Tabela 1. Wynk oblczeń dla wag odwrotne proporconalnych do lczby obektów. Decyza KNN Źródło: oblczena własne w prograe R. Klasyfkaca rzeczywsta klasa 1 klasa 2 klasa 1 12 2 klasa 2 1 10 Naneszy błąd klasyfkac (12%) otrzyano dla 38 odel bazowych. W ty przypadku błędne sklasyfkowano 3 spośród 25 obektów w zborze testowy. Tabela 2. Wynk oblczeń dla wag zależnych od potencału opsowego obektów Klasyfkaca rzeczywsta klasa 1 klasa 2 Decyza KNN klasa 1 12 0 6
Źródło: oblczena własne w prograe R. klasa 2 1 12 Naneszy błąd klasyfkac (4%) uzyskano dla 26 odel bazowych. W ty przypadku edyne eden obekt (o pozytywne decyz kredytowe) został sklasyfkowany ako obekt, który ne pownen otrzyać kredytu. 5. Podsuowane Metoda boostng oże znaleźć zastosowane w klasyfkac różnych zborów danych sybolcznych. Podeśce weloodelowe analzy danych sybolcznych, podobne ak podeśce weloodelowe dla danych klasycznych, pozwala osągnąć neszy błąd klasyfkac nż zastosowane poedynczego odelu. Na potrzeby badań eprycznych opracowano w prograe R skrypt realzuący algoryt etody boostng z zastosowane etody k-nablższych sąsadów ako klasyfkatora bazowego. W etodze boostng ożna zastosować dwa sposoby ważena obektów sybolcznych zależny od lczby obektów oraz zależny od potencału opsowego. W obydwu przypadkach neco lepsze wynk uzyskano, stosuąc ważene obektów sybolcznych zależne od ch potencału opsowego. Etape dalszych prac będze porównane wynków otrzyywanych przy różnych sposobach ważena obektów sybolcznych oraz porównane etody boostng z nny etoda podeśca weloodelowego (np. baggng). Lteratura Adosk G., Każdeu według potrzeb, Bank 2005, nr 4(150). Bock H.-H., Dday E (red.), Analyss of Sybolc Data. Explanatory Methods for Extractng Statstcal Inforaton fro Coplex Data, Sprnger Verlag, Berln 2000. Dudek A., Tworzene zagregowanych odel dyskrynacynych dla obektów sybolcznych wybrane probley, [w:] J. Pocecha, Współczesne probley statystyk, ekonoetr ateatyk stosowane, Studa Prace Unwersytetu Ekonocznego w Krakowe, Kraków 2009. Freund Y., Schapre R.E., A decson-theoretc generalzaton of on-lne learnng and an applcaton to boostng, Journal of Coputer and Syste Scences 1997, vol. 55, no 1. Gatnar E., Podeśce weloodelowe w zagadnenach dyskrynac regres, Wydawnctwo Naukowe PWN, Warszawa 2008. Kuncheva L.I., Cobnng Pattern Classfers. Methods and Algorths, Wley, New Jersey 2004. 7
Malerba D., D'Aato C., Esposto F., Monopol M., Extendng the K-Nearest Neghbour Classfcaton Algorth to Sybolc Obects, Att del Convegno Interedo della Socetà Italana d Statstca Anals Statstca Multvarata per le scenze econocosocal, le scenze natural e la tecnologa, Napol 2003. Malerba D., Esposto F., D Aato C., Appce A., K-nearest Neghbor Classfcaton for Sybolc Obects, [w:] Sybolc and Spatal Data Analyss: Mnng Coplex Data Structures, P. Brto, M. Norhoe-Frature (red.), Unversty of Psa, Psa 2004. Malerba D., Esposto F., D Aato C., Appce A., Classfcaton of sybolc obects: A lazy learnng approach, Intellgent Data Analyss 2006, vol. 10, no 4. Polkar R., Enseble based systes n decson akng, IEEE Crcuts and Systes Magazne 2006, vol. 6, no 3. Pełka M., K-nearest neghbour classfcaton for sybolc data, Acta Unverstats Lodzenss. Fola Oeconoca 2010, nr 235. Penczar M., Lepczyńsk B., Gostosk E. (red.), Zadłużene konsuentów w bankach nstytucach fnansowych, Instytut Badań nad Gospodarką Rynkową, Gdańsk. Szreder M., Metody technk sondażowych badań opn, PWE, Warszawa 2004. Walesak M., Gatnar E. (red.), Statystyczna analza danych z wykorzystane prograu R, Wydawnctwo Naukowe PWN, Warszawa 2009. 8
Enseble learnng wth the applcaton of boostng n sybolc data analyss Suary The a of ths paper s to present the applcaton of boostng ethod n enseble learnng for sybolc data wth the applcaton of k-nearest neghbour ethod as the base classfer. The artcle presents basc ters of sybolc data, k-nearest neghbour classfcaton rule for sybolc data. In the eprcal part the results of applcaton of enseble learnng for sybolc data appled for credt data set are presented. Key words: sybolc data analyss, enseble learnng, boostng. 9