EKONOMETRIA ECONOMETRICS 4(38) 2012

Podobne dokumenty
EKONOMETRIA ECONOMETRICS 4(38) 2012

EKONOMETRIA ECONOMETRICS 4(38) 2012

EKONOMETRIA ECONOMETRICS 4(38) 2012

EKONOMETRIA ECONOMETRICS 4(38) 2012

EKONOMETRIA ECONOMETRICS 4(38) 2012

EKONOMETRIA ECONOMETRICS 4(38) 2012

EKONOMETRIA ECONOMETRICS 4(38) 2012

Powierzchnia województw w 2012 roku w km²

EKONOMETRIA ECONOMETRICS 4(38) 2012

ANALIZA STANU OPIEKI ZDROWOTNEJ ŚLĄSKA NA TLE KRAJU METODĄ TAKSONOMICZNĄ

ANALIZA PORÓWNAWCZA KONIUNKTURY WOJEWÓDZTW POLSKI W LATACH

Sytuacja młodych na rynku pracy

Statystyczna analiza rozwoju społeczeństwa informacyjnego województw Polski w latach 2008 i 2012

EKONOMETRIA ECONOMETRICS 4(38) 2012

ROZWÓJ SPOŁECZNO-GOSPODARCZY POLSKICH REGIONÓW A PROCESY MIGRACJI

Statystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym

EKONOMETRIA ECONOMETRICS 4(38) 2012

WYBRANE DANE STATYSTYCZNE

PROGNOZA DEMOGRAFICZNA NA LATA DLA WOJEWÓDZTWA WARMIŃSKO-MAZURSKIEGO

Działalność badawcza i rozwojowa w Polsce w 2012 r.

EKONOMETRIA ECONOMETRICS 4(38) 2012

estymacja wskaźnika bardzo niskiej intensywności pracy z wykorzystaniem modelu faya-herriota i jego rozszerzeń

METODA DEA W ANALIZIE EFEKTYWNOŚCI NAKŁADÓW NA GOSPODARKĘ ODPADAMI

Miasto SIEDLCE WYBRANE DANE STATYSTYCZNE W WARSZAWIE. Powierzchnia w km² Województwo ,4

WYBRANE DANE STATYSTYCZNE

Miasto BYTOM WYBRANE DANE STATYSTYCZNE W KATOWICE. Powierzchnia w km² Województwo ,2

Miasto TYCHY WYBRANE DANE STATYSTYCZNE W KATOWICE. Powierzchnia w km² Województwo ,2

WYBRANE DANE STATYSTYCZNE

Miasto ZIELONA GÓRA WYBRANE DANE STATYSTYCZNE W ZIELONEJ GÓRZE. Powierzchnia w km² Województwo ,8

WYBRANE DANE STATYSTYCZNE

ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO

Tabela 1.1 Statystyczny wizerunek Szczecina na tle innych dużych miast Polski, województwa zachodniopomorskiego i kraju Lp. 1. Liczba ludności (tys.)

Miasto GORZÓW WIELKOPOLSKI

WYBRANE DANE STATYSTYCZNE

Aktywność inwestycyjna małych i średnich przedsiębiorstw w województwie lubuskim

WYBRANE DANE(a) STATYSTYCZNE 2010

Miasto: Kraków. WYBRANE DANE(a) STATYSTYCZNE Powierzchnia w km2 w 2013 r Miasto Województwo ,5 53,4 56,1 57,8

Działalność badawcza i rozwojowa w Polsce w 2013 r. Główne wnioski

WYBRANE DANE STATYSTYCZNE

WYBRANE DANE(a) STATYSTYCZNE 2010

Miasto CHORZÓW WYBRANE DANE STATYSTYCZNE W KATOWICE. Powierzchnia w km² Województwo ,2

WYBRANE DANE STATYSTYCZNE

Miasto OPOLE WYBRANE DANE STATYSTYCZNE W OPOLU. Powierzchnia w km² Województwo ,6. w wieku produkcyjnym 53,7 56,1 58,4

Miasto GDYNIA WYBRANE DANE STATYSTYCZNE Powierzchnia w km² Województwo w wieku produkcyjnym 59,7 61,6 63,8 59,2

WYBRANE DANE STATYSTYCZNE

WYBRANE DANE STATYSTYCZNE

CbO %u. Barbara Podolec Paweł Ulman Agnieszka Watęga. Jctywność ekonomiczna a sytuacja materialna gospodarstw domowych

WYBRANE DANE(a) STATYSTYCZNE 2010

WYBRANE DANE(a) STATYSTYCZNE 2010

EKONOMETRIA ECONOMETRICS 4(38) 2012

Miasto: Zielona Góra. WYBRANE DANE(a) STATYSTYCZNE Powierzchnia w km2 w 2013 r. 58. Miasto Województwo ,4

1. Analiza wskaźnikowa Wskaźniki szczegółowe Wskaźniki syntetyczne

Miasto: Kielce. WYBRANE DANE(a) STATYSTYCZNE Powierzchnia w km2 w 2013 r Miasto Województwo ,0 53,3 57,1 59,2

Miasto: Katowice. WYBRANE DANE(a) STATYSTYCZNE Powierzchnia w km2 w 2013 r Miasto Województwo ,7 54,7 56,7 58,4

WYBRANE DANE(a) STATYSTYCZNE 2010

Miasto: Opole. WYBRANE DANE(a) STATYSTYCZNE Powierzchnia w km2 w 2013 r. 97. Miasto Województwo ,5 50,4 53,7 56,1

WYBRANE DANE(a) STATYSTYCZNE 2010

Miasto: Bydgoszcz. WYBRANE DANE(a) STATYSTYCZNE Powierzchnia w km2 w 2013 r Miasto Województwo ,0 55,1 57,6 59,4

Miasto: Gliwice. WYBRANE DANE(a) STATYSTYCZNE Powierzchnia w km2 w 2013 r Miasto Województwo ,7 52,2 54,9 56,5

Emerytury nowosystemowe wypłacone w grudniu 2018 r. w wysokości niższej niż wysokość najniższej emerytury (tj. niższej niż 1029,80 zł)

Miasto: Sopot. WYBRANE DANE(a) STATYSTYCZNE Powierzchnia w km2 w 2013 r. 17. Miasto Województwo ,8 59,8 63,7 65,4

Miasto: Siedlce. WYBRANE DANE(a) STATYSTYCZNE Powierzchnia w km2 w 2013 r. 32. Miasto Województwo ,1 51,7 54,7 57,6

Miasto: Jaworzno. WYBRANE DANE(a) STATYSTYCZNE Powierzchnia w km2 w 2013 r Miasto Województwo ,7 50,9 52,8 53,6

Miasto: Warszawa. WYBRANE DANE(a) STATYSTYCZNE Powierzchnia w km2 w 2013 r Miasto Województwo 2013

Miasto JELENIA GÓRA WYBRANE DANE STATYSTYCZNE Powierzchnia w km² Województwo w wieku produkcyjnym 57,6 59,8 62,5 57,5

Miasto: Olsztyn. WYBRANE DANE(a) STATYSTYCZNE Powierzchnia w km2 w 2013 r. 88. Miasto Województwo ,6 48,8 51,9 53,7

Miasto: Rzeszów. WYBRANE DANE(a) STATYSTYCZNE Powierzchnia w km2 w 2013 r Miasto Województwo ,1 50,1 52,6 54,6

Miasto: Jelenia Góra. WYBRANE DANE(a) STATYSTYCZNE Powierzchnia w km2 w 2013 r Miasto Województwo ,8

WYBRANE DANE(a) STATYSTYCZNE 2010

WYBRANE DANE(a) STATYSTYCZNE 2010

STATYSTYKA OD PODSTAW Z SYSTEMEM SAS. wersja 9.2 i 9.3. Szkoła Główna Handlowa w Warszawie

Miasto: Piotrków Trybunalski

WYBRANE DANE(a) STATYSTYCZNE 2010

ZASTOSOWANIE METODY ANALIZY STATYSTYCZNEJ RYNKU W SZACOWANIU WARTOŚCI TECHNICZNYCH ŚRODKÓW PRODUKCJI NA PRZYKŁADZIE CIĄGNIKA ROLNICZEGO

Klasyfikacja województw według ich konkurencyjności przy pomocy metod taksonomicznych oraz sieci neuronowych.

Wyniki analizy statystycznej opartej na metodzie modelowania miękkiego

WYBRANE DANE(a) STATYSTYCZNE 2010

Miasto: Szczecin. WYBRANE DANE(a) STATYSTYCZNE Powierzchnia w km2 w 2013 r Miasto Województwo ,2 52,7 55,8 57,7

EKONOMETRIA ECONOMETRICS 4(38) 2012

KLASYFIKACJE OBSZARÓW POLSKI Z PUNKTU WIDZENIA WYBRANYCH CECH SPOŁECZNO-DEMOGRAFICZNYCH LUDNOŚCI

Miasto LEGNICA WYBRANE DANE STATYSTYCZNE Powierzchnia w km² Województwo w wieku produkcyjnym 54,6 56,1 58,1 57,5

Determinanty rozwoju społeczno-gospodarczego województw Polski

WYBRANE DANE STATYSTYCZNE

WYBRANE DANE STATYSTYCZNE

Miasto TARNÓW WYBRANE DANE STATYSTYCZNE W KRAKOWIE. Powierzchnia w km² Województwo ,2

Badanie zróżnicowania krajów członkowskich i stowarzyszonych Unii Europejskiej w oparciu o wybrane zmienne społeczno-gospodarcze

Spis tabel. Tabela 5.6. Indeks rywalizacyjności oraz efektywna liczba partii w wyborach

Minimum egzystencji w układzie przestrzennym w 2016 r. omówienie danych

3. Wojewódzkie zróżnicowanie zatrudnienia w ochronie zdrowia w latach Opis danych statystycznych

Wojewódzki Urząd Pracy w Białymstoku. Wojewódzka Rada Rynku Pracy Białymstoku 2 czerwca 2017 roku

Miasto: Leszno. WYBRANE DANE(a) STATYSTYCZNE Powierzchnia w km2 w 2013 r. 32. Miasto Województwo ,1 53,1 56,4 58,7

Korzystanie z telefonów komórkowych przez kierujących pojazdami w Polsce w 2014 roku

Sytuacja demograficzno-społeczna gminy Sierakowice

BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI

Miasto: Rybnik. WYBRANE DANE(a) STATYSTYCZNE Powierzchnia w km2 w 2013 r Miasto Województwo ,7 51,4 53,4 54,6

BADANIA STATYSTYCZNE W ZAKRESIE PLANOWANIA PRZESTRZENNEGO I REWITALIZACJI NA RZECZ POLITYKI SPÓJNOŚCI

Minimum egzystencji w układzie przestrzennym.

Miasto KONIN WYBRANE DANE STATYSTYCZNE W POZNANIU. Powierzchnia w km² Województwo ,4

WYBRANE DANE(a) STATYSTYCZNE 2010

Wielowymiarowa analiza poziomu ubóstwa w województwie podlaskim w latach

Transkrypt:

EKONOMETRIA ECONOMETRICS 4(38) 2012 Wydawnictwo Uniwersytetu Ekonomicznego we Wrocławiu Wrocław 2012

Redaktor Wydawnictwa: Aleksandra Śliwka Redaktor techniczny: Barbara Łopusiewicz Korektor: Lidia Kwiecień Łamanie: Małgorzata Czupryńska Projekt okładki: Beata Dębska Publikacja jest dostępna w Internecie na stronach: www.ibuk.pl, www.ebscohost.com, The Central European Journal of Social Sciences and Humanities http://cejsh.icm.edu.pl, The Central and Eastern European Online Library www.ceeol.com, a także w adnotowanej bibliografii zagadnień ekonomicznych BazEkonhttp://kangur.uek.krakow.pl/ bazy_ae/bazekon/nowy/index.php Informacje o naborze artykułów i zasadach recenzowania znajdują się na stronie internetowej Wydawnictwa www.wydawnictwo.ue.wroc.pl Kopiowanie i powielanie w jakiejkolwiek formie wymaga pisemnej zgody Wydawcy Copyright by Uniwersytet Ekonomiczny we Wrocławiu Wrocław 2012 ISSN 1507-3866 Wersja pierwotna: publikacja drukowana Druk: Drukarnia TOTEM Nakład: 200 egz

Spis treści Wstęp... 9 Maria Cieślak: Kilka refleksji nad prognozowaniem ekonomicznym... 11 Mariola Piłatowska: Wybór rzędu autoregresji w zależności od parametrów modelu generującego... 16 Vadim Maslij: Bezpośrednie inwestycje zagraniczne na Ukrainie próba budowy prognoz na podstawie wybranych modeli trendu... 36 Filip Chybalski: Niepewność w prognozowaniu dochodów emerytalnych... 46 Monika Papież: Wpływ cen surowców energetycznych na ceny spot energii elektrycznej na wybranych giełdach energii w Europie... 57 Anna Gondek: Rozwój województwa lubuskiego po akcesji Polski do Unii Europejskiej... 69 Katarzyna Cheba: Prognozowanie zmian wytwarzania odpadów komunalnych... 81 Iwona Dittmann: Prognozowanie cen na lokalnych rynkach nieruchomości mieszkaniowych na podstawie analogii przestrzenno-czasowych... 93 Łukasz Mach: Determinanty ekonomiczno-gospodarcze oraz ich wpływ na rozwój rynku nieruchomości mieszkaniowych... 106 Roman Pawlukowicz: Prognostyczne właściwości wartości rynkowej nieruchomości... 117 Aneta Sobiechowska-Ziegert: Prognozowanie ostrzegawcze w małej firmie. 126 Sławomir Śmiech: Analiza stabilności ocen parametrów modeli predykcyjnych dla cen energii na rynku dnia następnego... 135 Edyta Ropuszyńska-Surma, Magdalena Węglarz: Strategie zachowań przedsiębiorstw na rynku ciepła... 145 Aneta Ptak-Chmielewska: Wykorzystanie modeli przeżycia i analizy dyskryminacyjnej do oceny ryzyka upadłości przedsiębiorstw... 157 Maria Szmuksta-Zawadzka, Jan Zawadzki: O metodzie prognozowania brakujących danych w szeregach czasowych o wysokiej częstotliwości z lukami systematycznymi... 173 Maciej Oesterreich: Symulacyjne badanie wpływu częstości występowania luk niesystematycznych w szeregach czasowych na dokładność prognoz.. 186 Marcin Błażejowski: Analiza porównawcza automatycznych procedur modelowania i prognozowania... 197 Tomasz Bartłomowicz: Prognozowanie sprzedaży z wykorzystaniem modelu dyfuzji oraz programu R... 210

6 Spis treści Marcin Relich: Planowanie alternatywnych realizacji projektu informatycznego zagrożonego niepowodzeniem... 221 Monika Dyduch: Gospodarowanie kapitałem w dobie ekonomicznego i gospodarczego kryzysu na przykładzie wybranej inwestycji... 232 Bartosz Lawędziak: Wymogi kapitałowe z tytułu sekurytyzacji w świetle Nowej Umowy Kapitałowej (Bazylea II)... 241 Piotr Peternek: Przedziały ufności dla mediany w nieznanym rozkładzie... 253 Paweł Siarka: Metoda ilorazu odległości zagadnienie graficznej prezentacji obserwacji wielowymiarowych... 268 Agnieszka Sompolska-Rzechuła: Efektywność klasyfikacji a parametryczna metoda doboru cech diagnostycznych... 287 Artur Zaborski: Agregacja preferencji indywidualnych z wykorzystaniem miar odległości i programu R... 298 Justyna Wilk: Zmiany demograficzne w województwach w aspekcie rozwoju zrównoważonego... 308 Michał Świtłyk: Efektywność techniczna publicznych uczelni w latach 2001-2010... 320 Michał Urbaniak: Zastosowanie algorytmu mrówkowego do optymalizacji czasowo-kosztowej projektów informatycznych... 343 Summaries Maria Cieślak: Some remarks on the economic forecasting... 15 Mariola Piłatowska: Autoregressive order selection depending on parameters of generating model... 35 Vadim Maslij: Foreign direct investments in Ukraine an attempt to build forecasts based on the selected trend function... 45 Filip Chybalski: Uncertainty of forecasting retirement incomes... 56 Monika Papież: The impact of prices of energy sources on the electricity spot price on selected power markets in Europe... 68 Anna Gondek: Development of Lubuskie Voivodeship after the accession to the European Union... 80 Katarzyna Cheba: Forecasting changes of municipal waste production... 92 Iwona Dittmann: Forecasting prices on residential real estate local markets based on area-time analogies... 105 Łukasz Mach: Economic determinants and their impact on development of residential real estate market... 115 Roman Pawlukowicz: Terms of prognosis of property market value... 125 Aneta Sobiechowska-Ziegert: Warning forecasting in a small company... 132 Sławomir Śmiech: Analysis of the stability of parameters estimates and forecasts in the next-day electricity prices... 144

Spis treści 7 Edyta Ropuszyńska-Surma, Magdalena Węglarz: Strategies of firms behavior on heat market... 156 Aneta Ptak-Chmielewska: Application of survival models and discriminant analysis in evaluation of enterprises bankruptcy risk... 172 Maria Szmuksta-Zawadzka, Jan Zawadzki: About a method of forecasting of missing data in the high frequency time series with systematic gaps... 185 Maciej Oesterreich: Simulation study of influence of frequency of incidence of non-systematic gaps in time series on accuracy of forecasts... 196 Marcin Błażejowski: Comparative analysis of automatic modeling and prediction procedures... 209 Tomasz Bartłomowicz: Sales forecasting using Bass diffusion model and program R... 220 Marcin Relich: Planning of alternative completion of an IT project in danger of failure... 231 Monika Dyduch: Management of capital in the time of economic crisis on the example of chosen investment... 240 Bartosz Lawędziak: Capital requirements for securitisation in terms of the New Capital Agreement (Basel II)... 252 Piotr Peternek: Confidence intervals for the median in the unknown distribution... 267 Paweł Siarka: Distances ratio method the issue of graphical presentation of the multidimensional observation... 286 Agnieszka Sompolska-Rzechuła: The classification s efficiency for the parametric method of feature selection... 297 Artur Zaborski: Individual preferences aggregation by using distance measures and R program... 307 Justyna Wilk: Demographic changes in voivodeships in the aspect of sustainable development... 319 Michał Świtłyk: Technical effectiveness of public universities in the years 2001-2010... 342 Michał Urbaniak: Ant colony system application for time-cost optimization of software projects... 355

EKONOMETRIA ECONOMETRICS 4(38) 2012 ISSN 1507-3866 Agnieszka Sompolska-Rzechuła Zachodniopomorski Uniwersytet Technologiczny w Szczecinie EFEKTYWNOŚĆ KLASYFIKACJI A PARAMETRYCZNA METODA DOBORU CECH DIAGNOSTYCZNYCH Streszczenie: W pracy przedstawiono dwa warianty parametrycznej metody doboru cech: z sumą oraz medianą elementów kolumny macierzy współczynników korelacji. Klasyczna wersja (z sumą) tej metody doboru cech ma pewne niedogodności, które mogą być zniwelowane przez zastąpienie sumy elementów kolumny macierzy współczynników korelacji ich medianą. Powoduje to zmniejszenie wrażliwości na wartości odstające współczynników korelacji. Celem artykułu było określenie wpływu wyników dwóch podejść w parametrycznej metodzie doboru na efektywność klasyfikacji obiektów. W każdej klasyfikacji wyłoniono, metodą Warda, po trzy klasy województw i zbadano efektywność otrzymanych podziałów, wykorzystując wskaźniki homogeniczności, heterogeniczności oraz poprawności grupowań, w których role środków ciężkości odgrywała mediana Webera. Słowa kluczowe: parametryczna metoda doboru cech, klasyfikacja, efektywność klasyfikacji. 1. Wstęp Zadaniem klasyfikacji jest badanie podobieństwa lub odrębności obiektów i ich zbiorów, chodzi zatem o podział zbioru obiektów na klasy zawierające obiekty podobne ze względu na obserwacje na zmiennych [Gatnar, Walesiak 2004]. W procesie klasyfikacji obiektów wyróżnia się kilka etapów postępowania. Jednym z pierwszych jest wybór cech charakteryzujących poszczególne obiekty. Etap ten jest bardzo ważnym, a jednocześnie najtrudniejszym zagadnieniem, ponieważ od jakości zestawu cech zależy wiarygodność ostatecznych wyników i trafność podejmowanych decyzji. Niezbędna jest kompleksowa znajomość analizowanego zagadnienia oraz specyfiki powiązań pomiędzy zjawiskami społeczno-gospodarczymi. Najbardziej właściwą procedurą doboru cech diagnostycznych jest wykorzystanie dwóch podejść, zarówno pozastatystycznych (merytorycznych i formalnych), jak i statystycznych. W pierwszym za cechy diagnostyczne uważane są te cechy, które w świetle wiedzy merytorycznej o badanym zjawisku są najważniejsze dla dokonania analizy porównawczej obiektów. Drugie podejście wykorzystuje odpowiednie procedury statystyczne [Panek 2009].

288 Agnieszka Sompolska-Rzechuła Celem artykułu jest rozważenie dwóch podejść w parametrycznej metodzie doboru cech diagnostycznych i określenie wpływu wyników na efektywność klasyfikacji obiektów. Postawiony problem zilustrowano badaniem o charakterze regionalnym, na przykładzie analizy województw pod względem poziomu życia ludności. Badanie dotyczyło roku 2009. Jako kryterium klasyfikacji wybrano kategorię poziom życia, ponieważ jest ona jedną z podstawowych kategorii badawczych w statystyce społecznej i począwszy od lat 90. XX wieku, zaobserwowano występowanie, z rosnącą siłą, nowych zjawisk związanych ze wzrostem i rozwojem gospodarczym oraz poziomem życia ludzi. Początek lat 90. XX wieku to również okres, w którym Polska wchodziła w coraz ściślejsze związki z krajami Unii Europejskiej. Dzięki procesowi integracji otworzyła się przed Polską możliwość znacznego przyspieszenia likwidacji wszelkiego rodzaju opóźnień technicznych, technologicznych i organizacyjnych. Zaistniała także szansa poprawy poziomu życia całego społeczeństwa, ponieważ Unia Europejska dąży do zmniejszenia dysproporcji w tym zakresie. Poziom życia jest kategorią nie do końca sprecyzowaną. Nadal w literaturze spotyka się wiele różnorodnych prób zdefiniowania poziomu życia, co stanowi zasadniczą trudność pojawiającą się przed badaczami. Jedna z pierwszych propozycji definiowania poziomu życia została zaproponowana przez Komisję Ekspertów ONZ i przedstawiona na początku lat 50. XX wieku. Według niej poziom życia obejmuje całokształt rzeczywistych warunków życia ludzi oraz stopień ich materialnego i kulturalnego zaspokojenia przez strumień dóbr i usług odpłatnych, a także pochodzących z funduszy społecznych [Zeliaś 2000]. W literaturze przedmiotu kategoria poziomu życia jest różnie definiowana, początkowo dotyczyła warunków życia ludzi i stopnia materialnego i kulturalnego zaspokajania ich potrzeb. Podejście to jednak nie zawierało ocen subiektywnych. Można przytoczyć następujące definicje poziomu życia, które są ściśle związane z podstawowym pojęciem badań społecznych, czyli potrzebą [Panek 2007]: poziom życia to stopień zaspokojenia potrzeb wynikający z konsumpcji wytworzonych przez człowieka dóbr materialnych i usług, poziom życia to stopień zaspokojenia potrzeb materialnych i kulturalnych przy istniejącej infrastrukturze umożliwiającej to zaspokojenie. 2. Opis metody Prawidłowo przeprowadzony dobór cech diagnostycznych powinien składać się z dwóch etapów: doboru merytorycznego oraz doboru formalnego. W wielu badaniach empirycznych autorzy podają zestawy cech, opierając się na kryteriach merytorycznych lub formalnych bez szerszej dyskusji problemu. Spośród metod formalnych wykorzystywany jest współczynnik zmienności, jako narzędzie do oceny skuteczności dyskryminacji obiektów oraz metoda parametryczna doboru cech 1. Ta 1 Opis metody można znaleźć np. w pracach: [Panek 2009, s. 21-22; Młodak 2006, s. 29-30].

Efektywność klasyfikacji a parametryczna metoda doboru cech diagnostycznych 289 ostatnia stosowana jest bardzo często, ponieważ jest wygodna w użyciu i prosta rachunkowo. Metoda parametryczna ma jednak dwie zasadnicze wady [Młodak 2006]: 1) jest wrażliwa na wartości odstające, co oznacza, że na wysoką wartość współczynnika korelacji może w dużym stopniu wpływać jej wysokie skorelowanie nawet z jedną z cech, 2) uwzględnia wyłącznie bezpośrednie powiązania cechy z innymi cechami, nie uwzględniając powiązań pośrednich. Skutecznym sposobem zniwelowania pierwszej niedogodności jest zastąpienie w pierwszym kroku sumy elementów kolumny (wiersza) macierzy R przez ich medianę. Pozwala to uodpornić analizę na zaburzenia spowodowane przez obserwacje odstające. Druga wada może być wyeliminowana przez zastosowanie metody odwróconej macierzy współczynników korelacji [Panek 2009]. Kolejnym etapem, po wyodrębnieniu zbioru cech diagnostycznych, jest ich normalizacja, która może być przeprowadzona za pomocą jednego z trzech przekształceń normalizacyjnych, zwanego standaryzacją [Panek 2009]: xij xj zij = i= 1,, n; j = 1,, m, sx ( ) gdzie: n liczba obiektów, m liczba cech. j Następnym krokiem jest wybór metody klasyfikacji. W literaturze przedmiotu istnieje wiele propozycji podziałów metod klasyfikacji. W pracy [Gatnar, Walesiak 2004] przedstawiono podział metod klasyfikacji na trzy grupy: 1) metody hierarchiczne (aglomeracyjne i deglomeracyjne); 2) metody podziału; 3) metody prezentacji graficznej. W ocenie poziomu życia szczególne znaczenie mają hierarchiczne metody aglomeracyjne, które są dobrze opracowane pod względem metodologicznym i mają wiele zalet, do których można zaliczyć graficzną prezentację wyników klasyfikacji w postaci dendrogramu wskazującego na kolejność połączeń między klasami. Spośród wielu metod hierarchicznych do badania wybrano metodę Warda 2. Została ona zaproponowana w roku 1963 i różni się od wszystkich pozostałych metod tym, że do oszacowania odległości między skupieniami wykorzystuje się podejście analizy wariancji. Metoda ta zmierza do minimalizacji sumy kwadratów odchyleń dowolnych dwóch hipotetycznych skupień, które mogą zostać uformowane na każdym etapie analizy. Ważną cechą tej metody jest zapewnienie minimalizacji kryterium wariancyjnego, które głosi, że wariancja wewnątrz skupień jest minimalna. Metoda Warda zapewnia zatem homogeniczność wewnątrz skupień i heterogeniczność mię- 2 Opis metod analizy skupień, w tym metody Warda, można znaleźć np. w pracy [Balicki 2009].

290 Agnieszka Sompolska-Rzechuła dzy skupieniami, przez co uznawana jest za bardzo efektywną [Ward 1963]. Ostatnim etapem analizy taksonomicznej obiektów jest sprawdzenie jakości uzyskanych podziałów. Do oceny jakości klasyfikacji stosuje się mierniki homogeniczności oraz heterogeniczności skupień, wykorzystując koncepcję środka ciężkości grupy i odległości od niego. W badaniu wykorzystano podejście, w którym środek ciężkości danej grupy zastąpiony został medianą Webera jej elementów. Mediana Webera stanowi wielowymiarowe uogólnienie klasycznego pojęcia mediany. Chodzi o wektor, który minimalizuje sumę euklidesowych odległości od danych punktów reprezentujących rozpatrywane obiekty, a więc znajduje się niejako pośrodku nich, ale jest jednocześnie uodporniony na występowanie obserwacji odstających [Młodak 2006]. W ocenie homogeniczności otrzymanych grup wykorzystano miernik o następującej postaci [Młodak 2006]: hm m = hm ( P ), * * 6 x max 6 k= 1,, p k gdzie: hm * 6 ( P ) = δ ( O, Γ ) med k i θ k io : i P k jest medianą odległości obiektów grupy P k od jej wektora medianowego Webera, (,,, 1 2 ) Γ θ = θ θ θ k Pk Pk mpk jest wektorem medianowym Webera, k liczbą klas, k = 1, 2,, p, p liczbą skupień otrzymanych na danym poziomie grupowania. Natomiast w ocenie heterogeniczności zastosowano miernik: gdzie: ( ) ht ht P * * 6 mn = min, 6 k k= 1,, p ( ) = δ ( Γ, Γ ) * ht6 Pk med θi θk i= 1,, p i k jest medianą odległości pomiędzy medianą Webera danej grupy z analogicznymi wektorami dla pozostałych grup. W ocenie poprawności grupowania wykorzystano kompleksowy miernik o postaci: ct hm * 6 m 6 = x * ht6mn.

Efektywność klasyfikacji a parametryczna metoda doboru cech diagnostycznych 291 3. Materiał badawczy Źródło danych w badaniu stanowiły informacje dotyczące województw Polski pod względem przyjętego kryterium, którym był poziom życia ludności. W badaniu wykorzystano dane statystyczne udostępnione przez Główny Urząd Statystyczny w Banku Danych Lokalnych (http://www.stat.gov.pl/bdl/app/portret.dims). Do analizy przyjęto następujący zestaw cech diagnostycznych: X 1 liczba ludności na 1 km 2, X 2 udział ludności w wieku przedprodukcyjnym w ogólnej liczbie ludności, X 3 udział ludności w wieku produkcyjnym w ogólnej liczbie ludności, X 4 udział ludności w wieku poprodukcyjnym w ogólnej liczbie ludności, X 5 ludność w wieku nieprodukcyjnym na 100 osób w wieku produkcyjnym, X 6 ludność w wieku poprodukcyjnym na 100 osób w wieku przedprodukcyjnym, X 7 ludność w wieku poprodukcyjnym na 100 osób w wieku produkcyjnym, X 8 liczba kobiet na 100 mężczyzn, X 9 zgony na 1000 ludności, X 10 przyrost naturalny na 1000 ludności, X 11 urodzenia żywe na 1000 ludności, X 12 liczba małżeństw zawartych w ciągu roku na 1000 ludności, X 13 liczba rozwodów na 1000 ludności, X 14 zgony niemowląt na 1000 urodzeń żywych, X 15 przeciętne miesięczne wydatki na 1 osobę, X 16 stopa bezrobocia w %, X 17 liczba ofert pracy ogółem na 1 bezrobotnego, X 18 wskaźnik zatrudnienia ogółem w %, X 19 przeciętne miesięczne wynagrodzenie brutto w relacji do średniej krajowej (Polska = 100), X 20 przeciętna powierzchnia użytkowa mieszkania w m 2 na 1 osobę, X 21 liczba mieszkań na 10 tys. ludności, X 22 liczba studentów na 10 tys. ludności, X 23 liczba praktyk lekarskich w miastach na 10 tys. ludności, X 24 liczba praktyk lekarskich na wsi na 10 tys. ludności, X 25 liczba ludności na 1 aptekę ogólnodostępną, X 26 liczba osób korzystających ze świadczeń pomocy społecznej na 10 tys. ludności, X 27 stopień wykorzystania miejsc noclegowych w %, X 28 czytelnicy bibliotek publicznych na 1000 ludności, X 29 wypożyczenia księgozbioru na 1 czytelnika, X 30 liczba ludności na 1 miejsce w kinach stałych, X 31 liczba widzów i słuchaczy w teatrach i instytucjach muzycznych na 1000 ludności,

292 Agnieszka Sompolska-Rzechuła X 32 PKB na 1 mieszkańca, X 33 nakłady inwestycyjne na 1 mieszkańca w zł, X 34 drogi publiczne o twardej nawierzchni w km na 100 km 2 powierzchni, X 35 liczba samochodów osobowych zarejestrowanych na 1000 ludności, X 36 liczba ofiar śmiertelnych na 100 wypadków drogowych, X 37 emisja przemysłowych zanieczyszczeń powietrza pyłowych w tonach na 100 km 2, X 38 emisja przemysłowych zanieczyszczeń powietrza gazowych w tonach na 100 km 2, X 39 udział parków narodowych w ogólnej powierzchni w %, X 40 plony z 1 ha zbóż ogółem w dt, X 41 dochody budżetu województwa ogółem na 1 mieszkańca w zł, X 42 wydatki z budżetu województwa ogółem na 1 mieszkańca w zł, X 43 liczba podmiotów gospodarczych na tys. mieszkańców. Zbiór potencjalnych cech diagnostycznych został utworzony po przeprowadzeniu formalno-merytorycznej analizy badanego zjawisk oraz wynikał z dostępności danych. Cechy dotyczyły różnych obszarów poziomu życia, wśród których można wymienić np.: sytuację demograficzną, rynek pracy, warunki mieszkaniowe, ochronę zdrowia, edukację, kulturę i turystykę, komunikację, ochronę środowiska, dochody i wydatki budżetów. Tabela 1. Wyniki wyboru cech diagnostycznych za pomocą metody parametrycznej w dwóch wariantach Wariant I Wariant II Cechy centralne Cechy satelitarne Cechy centralne Cechy satelitarne X 1 X 16, X 17, X 26, X 28, X 30, X 34, X 36, X 37, X 38, X 42 X 16 X 1, X 17, X 19, X 22, X 23, X 26, X 30, X 32, X 34 X 43 X 13, X 15, X 19, X 21, X 24, X 31, X 32, X 33, X 38 X 6, X 10, X 36, X 37, X 9 X 6, X 10, X 25 X 15 X 21, X 31, X 33, X 43 X 23 X 22 X 24 X 13 X 40 X 39 X 41 X 42 X 14 X 9 X 27 X 14 X 30 X 25 X 41 X 27 Źródło: obliczenia własne. X 28 X 39 X 40

Efektywność klasyfikacji a parametryczna metoda doboru cech diagnostycznych 293 W doborze cech do badania taksonomicznego, w pierwszym kroku, uwzględniono kryterium dyskryminacyjne obiektów, wyrażone za pomocą współczynnika zmienności. Z badania wykluczono te cechy, dla których współczynnik zmienności przyjął wartości nie większe niż 10%. Były to cechy o następujących numerach: 2, 3, 4, 5, 7, 8, 11, 12, 18, 20, 29 i 35. Następnie przeprowadzono normalizację cech dla obu otrzymanych wariantów cech diagnostycznych. Cechy poddano dalszej weryfikacji, badając ich pojemność informacyjną. W tym celu wykorzystano metodę parametryczną w jej klasycznej wersji, z sumą elementów kolumny (lub wiersza) macierzy współczynników korelacji, oraz wariant, w którym sumę zastąpiono medianą. Po wyznaczeniu macierzy współczynników korelacji oraz przyjęciu wartości progowej współczynnika korelacji 0,5 wyznaczono zbiory cech diagnostycznych dla dwóch wariantów metody parametrycznej: z sumą (wariant I) oraz medianą (wariant II) elementów kolumny (lub wiersza) macierzy współczynników korelacji. Wyniki przedstawiono w tab. 1. Jako ostateczne zbiory cech diagnostycznych przyjęto zestawy cech centralnych. 4. Wyniki badania Wykorzystując otrzymane zbiory cech diagnostycznych, dokonano metodą Warda klasyfikacji województw Polski. Uzyskane dendrogramy zostały przedstawione na rys. 1 i 2. Rys. 1. Diagram podziału województw Polski na podstawie zbioru cech uzyskanych metodą parametryczną wariant I Źródło: opracowanie własne.

294 Agnieszka Sompolska-Rzechuła Rys. 2. Diagram podziału województw Polski na podstawie zbioru cech uzyskanych metodą parametryczną wariant II Źródło: opracowanie własne. Analizując dendrogramy, przyjęto trzy skupienia województw, a otrzymane grupy przedstawiono w tab. 2. Tabela 2. Wyniki grupowania województw Polski metodą Warda Grupowanie województw na podstawie zbioru cech uzyskanych metodą parametryczną Wariant I Wariant II grupa I grupa II grupa III grupa I grupa II grupa III Wielkopolskie, Dolnośląskie, Opolskie, Lubuskie Lubelskie, Świętokrzyskie, Łódzkie, Podkarpackie, Podlaskie, Warmińsko- -mazurskie Źródło: opracowanie własne. Zachodniopomorskie, Kujawsko-Pomorskie, Pomorskie, Małopolskie, Pomorskie, Mazowieckie, Śląskie Warmińskomazurskie, Pomorskie, Zachodniopomorskie, Kujawsko-pomorskie, Opolskie, Lubuskie, Wielkopolskie, Dolnośląskie Małopolskie, Mazowieckie, Śląskie, Lubelskie, Świętokrzyskie, Łódzkie, Podkarpackie, Podlaskie Otrzymane grupy różnią się między sobą pod względem przynależności województw, składy poszczególnych klas częściowo pokrywają się. Aby określić sku-

Efektywność klasyfikacji a parametryczna metoda doboru cech diagnostycznych 295 teczność otrzymanych grupowań, zweryfikowano je, wyznaczając wartości wskaźników homogeniczności, heterogeniczności i poprawności skupień (tab. 3). Tabela 3. Wartości wskaźników homogeniczności, heterogeniczności i poprawności skupień Wskaźniki Wariant I Wariant II Homogeniczności skupień 49,786 251,938 Heterogeniczności skupień 95,901 1334,685 Poprawności skupień 0,519 0,189 Źródło: obliczenia własne. Analizując wyniki dotyczące efektywności grupowań przedstawione w tab. 3, można stwierdzić, że wykorzystując klasyczny wariant metody parametrycznej, otrzymano lepszy wynik w zakresie homogeniczności skupień, natomiast klasyfikacja otrzymana metodą Warda na podstawie zbioru cech uzyskanych metodą parametryczną wariant II (z medianą) dała dużo lepsze rezultaty pod względem zarówno heterogeniczności, jak i poprawności grupowania. Otrzymane wyniki potwierdza analiza dendrogramów. Klasyfikacja oparta na metodzie parametrycznej (wariant II) wyodrębniła trzy skupienia województw pod względem poziomu życia. Do pierwszej grupy należy osiem województw. Klasa ta charakteryzuje się korzystnymi wielkościami średnich, w porównaniu do średnich ogólnych, odnoszących się do następujących cech: przeciętne miesięczne wydatki na 1 osobę, emisja przemysłowych zanieczyszczeń powietrza gazowych w tonach na 100 km 2, plony z 1 ha zbóż ogółem w dt, dochody budżetu województwa ogółem na 1 mieszkańca w zł. Ponadto w klasie tej zaobserwowano najniższą liczbę zgonów na 1000 ludności. Jednocześnie odnotowano najwyższy wskaźnik zgonów niemowląt na 1000 urodzeń żywych oraz najwyższą stopę bezrobocia. Do niekorzystnych wartości należą także średnie dotyczące: liczby ludności na 1 aptekę ogólnodostępną oraz stopnia wykorzystania miejsc noclegowych i udziału powierzchni parków narodowych w ogólnej powierzchni województwa. Grupa druga zawiera trzy województwa: małopolskie, mazowieckie i śląskie. Dobra sytuacja odnośnie do tej grupy występuje w przypadku takich średnich wartości cech, jak: przeciętne miesięczne wydatki na 1 osobę, stopa bezrobocia w %, stopień wykorzystania miejsc noclegowych w %. Negatywny wpływ na poziom życia w tej klasie ma dosyć wysoka średnia wartość odnosząca się do: zgonów niemowląt na 1000 urodzeń żywych, liczby ludności na 1 aptekę ogólnodostępną, emisji przemysłowych zanieczyszczeń powietrza gazowych w tonach na 100 km 2 (dwukrotnie wyższa średnia w porównaniu ze średnią ogólną i najwyższa wśród wszystkich klas). Trzecia klasa to pięć obiektów, których dobra sytuacja pod względem poziomu życia wynika z: niskiej wartości średniej dotyczącej wskaźnika zgonów niemowląt na 1000 urodzeń żywych, wysokiej średniej dla liczby praktyk lekarskich na wsi na 10 tys. ludności, dobrego dostępu do aptek oraz niskiej średniej emisji przemysło-

296 Agnieszka Sompolska-Rzechuła wych zanieczyszczeń powietrza gazowych w tonach na 100 km 2. Natomiast niekorzystnie na badane zjawisko wpływają: wysoki średni wskaźnik zgonów na 1000 ludności, wysoka stopa bezrobocia, niski stopień wykorzystania miejsc noclegowych w % oraz najniższy wskaźnik wysokości plonów. Podział województw Polski metodą Warda na podstawie zbioru cech diagnostycznych otrzymanych metodą parametryczną wariant II pokazuje rys. 3. Rys. 3. Podział województw Polski metodą Warda na podstawie zbioru cech diagnostycznych otrzymanych metodą parametryczną wariant II Źródło: opracowanie własne. 5. Podsumowanie W pracy rozważono wykorzystanie popularnej metody doboru cech diagnostycznych parametrycznej metody doboru cech w badaniu taksonomicznym, w dwóch wariantach: w wariancie I przyjęto sumę elementów kolumny macierzy współczynników korelacji, natomiast wariant II uwzględniał medianę tych elementów. Zbadano także wpływ wyników otrzymanych w poszczególnych wariantach na efektywność klasyfikacji. Przedstawione podejście zilustrowano przykładem dotyczącym klasyfikacji województw Polski w roku 2009 pod względem poziomu życia mieszkańców. W każdej klasyfikacji dokonanej metodą Warda wyłoniono trzy klasy województw i zbadano efektywność otrzymanych podziałów, wykorzystując wskaźniki homogeniczności, heterogeniczności oraz poprawności grupowań, w których rolę środków

Efektywność klasyfikacji a parametryczna metoda doboru cech diagnostycznych 297 ciężkości odgrywała mediana Webera. Zastosowanie mediany Webera w ocenie jakości klasyfikacji pozwoliło na uzyskanie większej odporności na wpływ obserwacji odstających i traktowanie zbioru cech diagnostycznych jako całości w całej analizie. Klasyfikacja na podstawie II wariantu metody parametrycznej (z medianą) dała lepsze rezultaty w porównaniu z wariantem I (z sumą), które dotyczyły heterogeniczności i poprawności skupień. Przeprowadzone badanie wykazało, iż metody klasyfikacji są skutecznym narzędziem w ocenie poziomu życia mieszkańców, a wyniki uzyskane za pomocą różnych metod doboru cech do badania taksonomicznego mają wpływ na jakość klasyfikacji. Literatura Balicki A., Statystyczna analiza wielowymiarowa i jej zastosowania społeczno-ekonomiczne, Wydawnictwo Uniwersytetu Gdańskiego, Gdańsk 2009. Gatnar E., Walesiak M. (red.), Metody statystycznej analizy wielowymiarowej w badaniach marketingowych, Wydawnictwo Akademii Ekonomicznej we Wrocławiu, Wrocław 2004. Młodak A., Analiza taksonomiczna w statystyce regionalnej, Difin, Warszawa 2006. Panek T., Statystyczne metody wielowymiarowej analizy porównawczej, Szkoła Główna Handlowa w Warszawie, Warszawa 2009. Panek T. (red.), Statystyka społeczna, Polskie Wydawnictwo Ekonomiczne, Warszawa 2007. Ward J.H., Hierarchical grouping to optimize an objective function, Journal of the American Statistical Association 1963, no 58. Zeliaś A. (red.), Taksonomiczna analiza przestrzennego zróżnicowania poziomu życia w Polsce w ujęciu dynamicznym, Wydawnictwo Akademii Ekonomicznej w Krakowie, Kraków 2000. THE CLASSIFICATION S EFFICIENCY FOR THE PARAMETRIC METHOD OF FEATURE SELECTION Summary: The article presents two variants of the parametric feature selection method: with the sum and median of the elements in the column of the correlation coefficients matrix. The classic version has some disadvantages. The application of the median in place of the sum gives the possibility of the elimination of these disadvantages. This reduces sensitivity to outliers correlation coefficients. The aim of the paper is to determine the effect of the results of two different approaches for parametric selection method for the classification s efficiency. Three groups were extracted in the classifications by means of the Ward s method. The effectiveness of classifications was checked by use of homogeneity, heterogeneity and correctness of clustering coefficients. The approach was used in the assessment of the classification s efficiency, with the center of gravity replaced with the Weber s median. Keywords: parametric metod of feature selection, classification s efficiency.