METODY ILOŚCIOWE W BADANIACH EKONOMICZNYCH Tom XIII/3, 2012, str. 180 190 WPŁYW METODY DOBORU CECH NA EFEKTYWNOŚĆ KLASYFIKACJI NA PRZYKŁADZIE ANALIZY JAKOŚCI ŻYCIA W ŚWIETLE ZRÓWNOWAŻONEGO ROZWOJU Agniesza Sompolsa-Rzechuła Katedra Zastosowań Matematyi w Eonomii Zachodniopomorsi Uniwersytet Technologiczny w Szczecinie e-mail: asompolsa@zut.edu.pl Streszczenie: W artyule podęto próbę odpowiedzi na pytanie: Czy wynii otrzymane za pomocą różnych metod doboru cech maą wpływ na efetywność lasyfiaci? Do badania wyorzystano dwie metody doboru cech: parametryczną metodę coraz metodę odwrócone macierzy współczynniów orelaci. Suteczność grupowań zweryfiowano za pomocą wsaźniów homogeniczności, heterogeniczności i poprawności supień. W ocenie efetywności grupowań wyorzystano podeście z medianą Webera. Badanie dotyczyło powiatów woewództwa zachodniopomorsiego pod względem aości życia w świetle zrównoważonego rozwou. Słowa luczowe: metoda doboru cech, efetywność lasyfiaci, aość życia, rozwó zrównoważony WPROWADZENIE Celem artyułu est próba odpowiedzi na pytanie: Czy wynii otrzymane za pomocą różnych metod doboru cech maą wpływ na efetywność lasyfiaci? Dobór cech est ednym z naważnieszych, a ednocześnie natrudnieszych zagadnień. Niezbędna est omplesowa znaomość analizowanego zagadnienia oraz specyfii powiązań pomiędzy zawisami społeczno-gospodarczymi. Od aości zestawu cech zależy wiarygodność ostatecznych wyniów i trafność podemowanych decyzi [Gatnar, Walesia 2004]. Próbę odpowiedzi na postawione pytanie podęto na podstawie badania tasonomicznego powiatów ziemsich woewództwa zachodniopomorsiego, doonuąc lasyfiaci obietów
Wpływ metody doboru cech na efetywność 181 na podstawie zbioru cech otrzymanych metodami: parametryczną oraz metodą odwrócone macierzy współczynniów orelaci. Podziału powiatów doonano pod względem obietywne aości życia mieszańców w świetle zrównoważonego rozwou w rou 2010. Istniee bardzo wiele oreśleń i lasyfiaci aości życia, a problemami z e zaresu zamuą się przedstawiciele wielu dyscyplin nauowych (filozofii, socologii, psychologii, eonomii oraz statystyi). Jao ategoria wyrażaąca stopień samorealizaci człowiea aość życia powinna być podstawowym przedmiotem zainteresowania społeczeństwa. Ja podae Tadeusz Borys [Borys 2008] trzy ategorie: aość życia, rozwó społeczny, gospodarczy i środowisowy oraz instrumentarium tego rozwou tworzą hierarchiczny uład poęć ściśle ze sobą związanych i powinny być przedmiotem zintegrowanego pomiaru wsaźniowego. Wspólne cechy zmian rozwoowych aości życia i rozwou zrównoważonego 1 znaduą odzwierciedlenie w powiązaniu opisu wsaźniowego. Duże znaczenie maą wsaźnii rozwou zrównoważonego w opisie pośrednie aości życia oraz przy tworzeniu pośrednich wsaźniów aości życia. Więszość wsaźniów zrównoważonego rozwou tworzy pośredni obraz obietywne aości życia. Trwały i zrównoważony rozwó, w więszości definici, postrzegany est ao tai sposób gospodarowania, tóry prowadzi do poprawy aości życia. Obliczenia zostały wyonane w aruszu alulacynym Excel oraz programach: Statistica i R. OPIS METODY Zastosowanie metod wielowymiarowe analizy porównawcze wymaga wyboru obietów oraz zbioru cech diagnostycznych charateryzuących poszczególne obiety. Po oreśleniu i zgromadzeniu danych dotyczących wstępnego zestawu cech należy podąć odpowiednie działania weryfiacyne według dwóch naistotnieszych ryteriów [Młoda 2006]: 1. Zmienność cechy powinny wyazywać odpowiednią zmienność, czyli sutecznie dysryminować obiety. Do oceny zmienności wartości cech wyorzystue się współczynni zmienności: s v = (1) x 1 W literaturze można znaleźć wiele oreśleń zrównoważonego rozwou, przyładem uęcia ogólnego est definica trwałego i zrównoważonego rozwou, według tóre: istotą rozwou zrównoważonego i trwałego est zapewnienie trwałe poprawy aości życia współczesnych i przyszłych pooleń poprzez ształtowanie właściwych proporci między trzema rodzaami apitału: eonomicznym, ludzim i przyrodniczym Pionte F. (2001) Eonomia a rozwó zrównoważony, Eonomia i środowiso, str. 19.
182 Agniesza Sompolsa-Rzechuła gdzie: x to średnia arytmetyczna wartości cechy standardowym -te cechy, = 1,, m, m liczba cech. X, zaś s est odchyleniem 2. Korelaca dwie cechy silnie ze sobą sorelowane są nośniami podobne informaci, zatem edna z nich est zbędna. Do oceny siły związu między cechami stosue się współczynni orelaci. Puntem wyścia est macierz współczynniów orelaci między wszystimi parami cech: 1 r 12 r1 m r21 1 r2 m R = (2) rm 1 rm 2 1 gdzie: r to współczynnii orelaci liniowe Pearsona -te i -te cechy. Metodą wyorzystywaną do dysryminaci cech bazuącą na macierzy współczynniów orelaci est metoda parametryczna, tóra est wygodna w użyciu, ponieważ est prosta rachunowo. Metoda parametryczna posiada edna dwie zasadnicze wady [Młoda 2006, Pane 2009]: est wrażliwa na wartości odstaące, co oznacza, że na wysoą wartość współczynnia orelaci może, w dużym stopniu, wpływać e wysoie sorelowanie nawet z edną z cech, uwzględnia wyłącznie bezpośrednie powiązania cechy z innymi cechami, nie uwzględniaąc powiązań pośrednich. Sutecznym sposobem zniwelowania pierwsze niedogodności est zastąpienie w pierwszym rou sumy elementów olumny (wiersza) macierzy R przez ich medianę. Pozwala to uodpornić analizę na zaburzenia spowodowane przez obserwace odstaące. Druga wada może być wyeliminowana poprzez zastosowanie metody odwrócone macierzy współczynniów orelaci [Pane 2009, Malina, Zeliaś 1997]. Procedura eliminaci est następuąca: orzystaąc z macierzy współczynniów orelaci R, wyznacza się macierz R -1 = [r i ], gdzie wartości r i są elementami macierzy odwrotne R -1. Element diagonalny r ii macierzy R -1 est równy edności, eśli zmienna X est ortogonalna względem pozostałych zmiennych. W przypadu nieortogonalności r ii ( 1,+ ), gdy zmienna est nadmiernie sorelowana z pozostałymi, elementy diagonalne macierzy odwrotne R -1 są znacznie więsze od edności, co est symptomem złego uwarunowania macierzy R. Cechy nadmiernie sorelowane, tórym odpowiadaą elementy diagonalne r ii o wartościach więszych niż 10, są eliminowane z pierwotnego zbioru cech. Jeżeli taie elementy nie występuą, to procedurę uznae się za zaończoną. Ponownie wyznacza się macierz odwrotną R -1 dla zreduowanego zbioru cech i analizue e
Wpływ metody doboru cech na efetywność 183 elementy diagonalne. Procedurę powtarza się do momentu osiągnięcia stabilności macierzy R -1, czyli poawienia się elementów diagonalnych, tórych wartości nie przeraczaą znacząco 10. Otrzymany zbiór cech diagnostycznych stanowił podstawę lasyfiaci obietów. Spośród wielu metod hierarchicznych do badania wybrano metodę Warda, tóra różni się od wszystich pozostałych metod tym, że do oszacowania odległości między supieniami wyorzystue się podeście analizy warianci. Metoda ta zmierza do minimalizaci sumy wadratów odchyleń dowolnych dwóch hipotetycznych supień, tóre mogą zostać uformowane na ażdym etapie analizy. Ważną cechą te metody est zapewnienie minimalizaci ryterium wariancynego, tóre głosi, że warianca wewnątrz supień est minimalna. Metoda Warda zapewnia zatem homogeniczność wewnątrz supień i heterogeniczność między supieniami, przez co uznawana est za bardzo efetywną [Ward 1963]. Ostatnim etapem analizy tasonomiczne obietów est sprawdzenie aości uzysanych podziałów. Do oceny aości lasyfiaci stosue się miernii homogeniczności oraz heterogeniczności supień, wyorzystuąc oncepcę środa ciężości grupy i odległości od niego. W badaniu wyorzystano podeście, w tórym środe ciężości dane grupy zastąpiony został medianą Webera e elementów. Mediana Webera stanowi wielowymiarowe uogólnienie lasycznego poęcia mediany. Chodzi o wetor, tóry minimalizue sumę eulidesowych odległości od danych puntów reprezentuących rozpatrywane obiety, a więc znadue się nieao pośrodu nich, ale est ednocześnie uodporniony na występowanie obserwaci odstaących [Młoda 2006]. W ocenie homogeniczności otrzymanych grup wyorzystano mierni o następuące postaci [Młoda 2006]: hm hm ( P ) 6 mx = max 6 (3) = 1,,p gdzie: hm 6 ( P ) = ( O i, ) med δ Γ (4) i:o i P θ est medianą odległości obietów grupy P od e wetora medianowego Webera, ( θ θ, θ ) Γ (5) θ = 1 P, 2P, est wetorem medianowym Webera, δ - odległość obietów grupy P od e wetora medianowego Webera, O i - obiety, θ mp - mediana Webera rozpatrywanego uładu m cech diagnostycznych, liczba las, = 1, 2,, p, p liczba supień otrzymanych na danym poziomie grupowania. mp
184 Agniesza Sompolsa-Rzechuła gdzie: Natomiast w ocenie heterogeniczności zastosowano mierni: ht 6 ht 6 ( P ) ht 6 mn = min (6) = 1,,p ( P ) = δ ( Γ θ, Γ ) i 1,,p i = med est medianą odległości pomiędzy medianą Webera dane grupy z analogicznymi wetorami dla pozostałych grup. W ocenie poprawności grupowania wyorzystano omplesowy mierni o postaci: hm6 mx ct6 = (8) ht mn 6 i θ CHARAKTERYSTYKA MATERIAŁU BADAWCZEGO Doboru cech diagnostycznych doonano za pomocą dwóch metod: parametryczne oraz odwrócone macierzy współczynniów orelaci. Wstępna lista cech diagnostycznych obemowała wsaźnii uęte w grupy i ategorie wsaźniów zrównoważonego rozwou, tóre zostały przedstawione w tabeli 1. Tabela 1. Grupy i ategorie wsaźniów zrównoważonego rozwou Ład środowisowy Ład eonomiczny Ład społeczny Zmiany limatu Energia Ochrona powietrza Eosystemy morsie Zasoby słodie wody Użytowanie gruntów Bioróżnorodność Gospodara odpadami Rozwó gospodarczy Zatrudnienie Innowacyność Transport Zrównoważone wzorce produci Zmiany demograficzne Zdrowie publiczne Integraca społeczna Eduaca Dostęp do rynu pracy Bezpieczeństwo publiczne Zrównoważone wzorce onsumpci Źródło: opracowanie własne na podstawie [Wsaźnii zrównoważonego rozwou Polsi, GUS 2011] Do opisu aości życia przyęto następuący zestaw cech [Woewództwo zachodniopomorsie, podregiony, powiaty, gminy 2011],: X 1 - ludność w wieu nieproducynym na 100 osób w wieu producynym, X 2 - małżeństwa zawarte na 1000 ludności, X 3 - urodzenia żywe na 1000 ludności, X 4 - zgony niemowląt na 1000 ludności, X 5 - przyrost naturalny na 1000 ludności, X 6 - rozwody na 1000 ludności, (7)
Wpływ metody doboru cech na efetywność 185 X 7 - separace na 100 tys. ludności, X 8 - saldo migraci na 1000 ludności, X 9 - liczba ludności na 1 placówę biblioteczną, X 10 - liczba ludności na 1 instytucę ultury, X 11 - liczba ludności na 1 learza, X 12 - liczba ludności na 1 apteę i punt apteczny, X 13 - beneficenci pomocy społeczne w % ogółu ludności, X 14 - osoby niepełnosprawne poniże 16 rou życia na 1000 ludności poniże 16 rou życia, X 15 - osoby niepełnosprawne powyże 16 rou życia na 1000 ludności powyże 16 rou życia, X 16 - orzystaący z noclegów na 1000 ludności, X 17 - udzielone noclegi na 1000 ludności, X 18 - lesistość w %, X 19 - ludność orzystaąca z oczyszczalni ścieów w % ludności ogółem, X 20 - emisa zanieczyszczeń pyłowych w tonach na m 2, X 21 - emisa zanieczyszczeń gazowych w tonach na m 2, X 22 - odpady wytworzone w ciągu rou w tys. t na m 2, X 23 - stopień reduci wytworzonych zanieczyszczeń w %, X 24 - udział powierzchni o szczególnych walorach przyrodniczych prawnie chronione w powierzchni powiatu (w%), X 25 - udział rezerwatów w powierzchni o szczególnych walorach przyrodniczych prawnie chronione (w %), X 26 - pomnii przyrody na m 2, X 27 - nałady na ochronę środowisa w tys. zł na m 2, X 28 - podmioty gospodari narodowe w setorze prywatnym na 1000 ludności, X 29 - stopa bezrobocia reestrowanego (w %), X 30 - bezrobotne obiety w liczbie bezrobotnych ogółem w %, X 31 - bezrobotni trwale bezrobotni w liczbie bezrobotnych ogółem w %, X 32 - długość sieci wodociągowe w m na 1 m 2, X 33 - długość sieci analizacyne w m na 1 m 2, X 34 - zasoby mieszaniowe na 1000 ludności, X 35 - mieszania w miastach wyposażone w łazienę w % ogółu mieszań, X 36 - mieszania w miastach wyposażone w gaz z sieci w % ogółu mieszań, X 37 - drogi publiczne powiatowe o twarde nawierzchni w m na 1 m 2, X 38 - wypadi drogowe na 10 tys. ludności, X 39 - śmiertelne ofiary wypadów drogowych na 10 tys. ludności. Metoda parametryczna pozwoliła na wyodrębnienie następuącego zbioru cech diagnostycznych: X 4, X 10, X 19, X 22, X 24, X 27, X 30, X 34, X 37. Natomiast wyorzystanie metody odwrócone macierzy współczynniów orelaci doprowadziło do uzysania zbioru cech: X 10, X 23, X 24, X 32, X 33, X 34, X 37, X 38, X 39.
186 Agniesza Sompolsa-Rzechuła WYNIKI BADANIA Wyorzystuąc zbiór cech diagnostycznych uzysany metodami: parametryczną i odwrócone macierzy współczynniów orelaci doonano lasyfiaci powiatów ziemsich woewództwa zachodniopomorsiego. Analizuąc dendrogramy otrzymano po trzy supienia powiatów. Dendrogram uzysany metodą Warda na podstawie zbioru cech otrzymanych drugą metodą został przedstawiony na rysunu 1. Rysune 1. Dendrogram powiatów ziemsich woewództwa zachodniopomorsiego białogardzi szczecineci gryfińsi świdwińsi amieńsi gryfici drawsi wałeci oszalińsi myśliborsi ołobrzesi sławieńsi choszczeńsi goleniowsi pyrzyci stargardzi łobesi polici Źródło: opracowanie własne 0 10 20 30 40 50 60 70 Odległość wiązań W tabeli 2 przedstawiono wynii grupowania powiatów ziemsich metodą Warda na podstawie zbiorów cech uzysanych metodami: parametryczną i odwrócone macierzy współczynniów orelaci.
Wpływ metody doboru cech na efetywność 187 Tabela 2. Wynii grupowania powiatów ziemsich metodą Warda na podstawie zbiorów cech uzysanych metodami: parametryczną i odwrócone macierzy współczynniów orelaci Grupowanie powiatów metodą Warda na podstawie zbioru cech uzysanych metodą parametryczną odwrócone macierzy współczynniów orelaci grupa I grupa II grupa III grupa I grupa II grupa III wałeci, drawsi, goleniowsi, choszczeńsi, świdwińsi, amieńsi, gryfińsi, białogardzi, oszalińsi, łobesi polici łobesi, stargardzi, pyrzyci, goleniowsi, gryfici, amieńsi, świdwińsi, gryfińsi, ołobrzesi choszczeńsi, szczecineci, stargardzi, szczecineci, myśliborsi, pyrzyci, sławieńsi, polici, gryfici sławieńsi, ołobrzesi, myśliborsi, oszalińsi, wałeci, drawsi białogardzi Źródło: opracowanie własne Suteczność grupowań zweryfiowano wyznaczaąc wartości wsaźniów homogeniczności, heterogeniczności i poprawności supień (tabela 3) [Młoda 2006]. Tabela 3. Wartości wsaźniów homogeniczności, heterogeniczności i poprawności supień Wsaźnii Wariant oparty na zbiorze cech uzysanych metodą odwrócone macierzy współczynniów orelaci Wariant oparty na zbiorze cech uzysanych metodą parametryczną homogeniczności supień 390,81 733,80 heterogeniczności supień 1846,72 732,30 poprawności supień 0,21 1,00 Źródło: obliczenia własne Analizuąc wynii dotyczące efetywności grupowań, przedstawione w tabeli 3, można stwierdzić, że lasyfiaca otrzymana metodą Warda na podstawie zbioru cech uzysanych metodą odwrócone macierzy współczynniów orelaci dała lepsze rezultaty pod ażdym względem, czyli zarówno homogeniczności i heterogeniczności, a i poprawności grupowania w porównaniu z lasyfiacą otrzymaną z wyorzystaniem metody parametryczne. Klasyfiaca oparta na metodzie odwrócone macierzy współczynniów orelaci wyodrębniła trzy supienia, wśród tórych est supienie ednoelementowe powiat polici. Powiat ten charateryzue się nawyższym
188 Agniesza Sompolsa-Rzechuła stopniem reduci wytworzonych zanieczyszczeń (w %) i wysoim udziałem powierzchni o szczególnych walorach przyrodniczych prawnie chronione w powierzchni powiatu, a również orzystnymi wartościami wsaźniów dotyczących infrastrutury techniczne (np. długość sieci analizacyne w m na 1 m 2 oraz drogi publiczne powiatowe o twarde nawierzchni w m na 1 m 2 ). Klasa druga z nawięszą liczbą powiatów (11) wyróżnia się naniższym stopniem reduci wytworzonych zanieczyszczeń (ponad siedmiorotnie niższym w porównaniu ze średnią ogólną) ale wysoim udziałem powierzchni o szczególnych walorach przyrodniczych prawnie chronione w powierzchni powiatu. Pozostałe wsaźnii oscyluą woół średnich ogólnych. Trzecia lasa wyróżnia się nieorzystnie pod względem bardzo nisiego stopnia reduci wytworzonych zanieczyszczeń (w %) oraz naniższą wartością długości dróg publicznych powiatowe o twarde nawierzchni w m na 1 m 2. Podział powiatów woewództwa zachodniopomorsiego poazue rys. 2. Rysune 2. Podział powiatów woewództwa zachodniopomorsiego metodą Warda na podstawie zbioru cech otrzymanych metodą odwrócone macierzy współczynniów orelaci Źródło: opracowanie własne
Wpływ metody doboru cech na efetywność 189 PODSUMOWANIE W pracy przedstawiono próbę odpowiedzi na pytanie dotyczące wpływu zbiorów cech diagnostycznych otrzymanych różnymi metodami doboru cech na efetywność lasyfiaci. W badaniu wyorzystano dwie metody doboru cech: parametryczną i odwrócone macierzy współczynniów orelaci. Parametryczna procedura doboru cech posiada dwie niedogodności, tóre są niwelowane w metodzie odwrócone macierzy współczynniów orelaci. Otrzymane zbiory posłużyły do lasyfiaci ziemsich powiatów woewództwa zachodniopomorsiego pod względem obietywne aości życia w świetle zrównoważonego rozwou. Badanie dotyczyło 2010 rou. Efetywność lasyfiaci zbadano wyorzystuąc wsaźnii homogeniczności, heterogeniczności oraz poprawności grupowań, w tórych role środów ciężości odgrywała mediana Webera. Klasyfiaca wyorzystuąca zbiór cech uzysany metodą odwrócone macierzy współczynniów orelaci dała lepsze rezultaty pod względem wszystich trzech ryteriów. Badanie wyazało, iż metody lasyfiaci mogą być sutecznym narzędziem w ocenie aości życia mieszańców, a wynii metod doboru cech do badania tasonomicznego maą wpływ na aość i na rezultaty lasyfiaci. BIBLIOGRAFIA Borys T., Rogala P. (red.) (2008) Jaość życia na poziomie loalnym uęcie wsaźniowe, Program Narodów Zednoczonych ds. Rozwou, Warszawa, str. 9-10 Gatnar E., Walesia M. (2004) Metody statystyczne analizy wielowymiarowe w badaniach maretingowych, Wydawnictwo Aademii Eonomiczne we Wrocławiu, str. 320 Młoda A. (2006) Analiza tasonomiczna w statystyce regionalne, Difin, Warszawa, str. 31 Pane T. (2009) Statystyczne metody wielowymiarowe analizy porównawcze, Szoła Główna Handlowa w Warszawie, str. 22 Malina A., Zeliaś A. (1997) O budowie tasonomiczne miary aości życia, Tasonomia 4, Wydawnictwo Aademii Eonomiczne we Wrocławiu, str. 238-263 Ward J. H. (1963), Hierarchical grouping to optimize an obective function, Journal of the American Statistical Association, No. 58 Pionte F. (2001) Eonomia a rozwó zrównoważony, Eonomia i środowiso, Białysto, str. 19 Woewództwo zachodniopomorsie, podregiony, powiaty, gminy (2011), Urząd Statystyczny w Szczecinie Wsaźnii zrównoważonego rozwou Polsi (2011), Główny Urząd Statystyczny, Urząd Statystyczny w Katowicach
190 Agniesza Sompolsa-Rzechuła THE INFLUENCE OF THE METHOD OF THE FEATURE SELECTION ON THE CLASSIFICATION S EFFICIENCY BASED ON THE QUALITY OF LIFE IN LIGHT ON THE SUSTAINABLE DEVELOPMENT Abstract: In the article attempts to answer the question: Do the results, obtained by means of the various feature selection method, have any influence on the classification s efficiency? For the analysis two methods were used: parametric method and the matrix inverse method of the correlation coefficients. The effectiveness of classifications was checed by use of homogeneity, heterogeneity and correctness of clustering coefficients. The approach was used in the assessment of the classification s efficiency, with the center of gravity replaced with the Weber s median. The analysis was local and concerned the districts in zachodniopomorsie province in terms of the quality of life in the light of sustainable development. Keywords: the feature selection method, the classification s efficiency, quality of life, sustainable development