Próba wykorzystania podejścia wielomodelowego w klasyfikacji jednostek samorządowych

Podobne dokumenty
Ekonometryczna analiza popytu na wodę

ZAKRES TEMATYCZNY EGZAMINU LICENCJACKIEGO

Barometr Finansów Banków (BaFiB) propozycja badania koniunktury w sektorze bankowym

Analiza wydajności pracy w rolnictwie zachodniopomorskim

Elementy statystyki wielowymiarowej

ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO ANALIZA ZBIEŻNOŚCI STRUKTUR ZATRUDNIENIA W WYBRANYCH KRAJACH WYSOKOROZWINIĘTYCH

ALGORYTM RANDOM FOREST

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 8

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Agnieszka Nowak Brzezińska Wykład III

Badanie zróżnicowania krajów członkowskich i stowarzyszonych Unii Europejskiej w oparciu o wybrane zmienne społeczno-gospodarcze

Wprowadzenie do analizy korelacji i regresji

PODSTAWY STATYSTYCZNEJ ANALIZY DANYCH

Metody systemowe i decyzyjne w informatyce

Agnieszka Nowak Brzezińska

WIELOKRYTERIALNE PORZĄDKOWANIE METODĄ PROMETHEE ODPORNE NA ZMIANY WAG KRYTERIÓW

Agnieszka Nowak Brzezińska Wykład III

KRÓTKOOKRESOWE PROGNOZOWANIE CENY EKSPORTOWEJ WĘGLA ROSYJSKIEGO W PORTACH BAŁTYCKICH. Sławomir Śmiech, Monika Papież

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2014/2015

Ekonometria. Prognozowanie ekonometryczne, ocena stabilności oszacowań parametrów strukturalnych. Jakub Mućk. Katedra Ekonomii Ilościowej

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU RESEARCH PAPERS OF WROCŁAW UNIVERSITY OF ECONOMICS

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Analiza i prognoza wydatków majątkowych JST województw Polski Zachodniej w latach

wersja elektroniczna - ibuk

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Opis zakładanych efektów kształcenia na studiach podyplomowych WIEDZA

Metoda największej wiarygodności

Ćwiczenie 12. Metody eksploracji danych

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

Rozdział 8. Regresja. Definiowanie modelu

Analiza porównawcza koniunktury gospodarczej w województwie zachodniopomorskim i w Polsce w ujęciu sektorowym

PRZEWODNIK PO PRZEDMIOCIE

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Hierarchiczna analiza skupień

Statystyka matematyczna dla leśników

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Rozpoznawanie obrazów

Analiza składowych głównych. Wprowadzenie

Metody Ilościowe w Socjologii

Regresja logistyczna (LOGISTIC)

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

5. Analiza dyskryminacyjna: FLD, LDA, QDA

ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO

10. Podstawowe wskaźniki psychometryczne

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

MODELE LINIOWE. Dr Wioleta Drobik

Elementy statystyki opisowej, podstawowe pojęcia statystyki matematycznej

PROGNOZOWANIE PRZYCHODÓW ZE SPRZEDAŻY

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 9 i 10 - Weryfikacja hipotez statystycznych

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Wykład 10 Skalowanie wielowymiarowe

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Klasyfikacja LDA + walidacja

Weryfikacja hipotez statystycznych za pomocą testów statystycznych

Weryfikacja hipotez statystycznych

Jądrowe klasyfikatory liniowe

CbO %u. Barbara Podolec Paweł Ulman Agnieszka Watęga. Jctywność ekonomiczna a sytuacja materialna gospodarstw domowych

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Opracowanie Zespół w składzie: Dr Jacek Sierak Dr Michał Bitner Dr Andrzej Gałązka Dr Remigiusz Górniak

Ćwiczenia IV

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Statystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym

WYKORZYSTANIE DRZEW KLASYFIKACYJNYCH I REGRESYJNYCH DO ANALIZY WYJAZDÓW TURYSTYCZNYCH GOSPODARSTW DOMOWYCH SENIORÓW W POLSCE

Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

KLASYFIKACJA. Słownik języka polskiego

Wprowadzenie. Data Science Uczenie się pod nadzorem

Wykaz publikacji. Pozycje zwarte:

Błędy przy testowaniu hipotez statystycznych. Decyzja H 0 jest prawdziwa H 0 jest faszywa

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI REGRESJA LINIOWA

Metody systemowe i decyzyjne w informatyce

Zadanie 1 Zakładając liniową relację między wydatkami na obuwie a dochodem oszacować MNK parametry modelu: y t. X 1 t. Tabela 1.

Rozpoznawanie wzorców. Dr inż. Michał Bereta p. 144 / 10, Instytut Informatyki

Wnioskowanie bayesowskie

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

10. Redukcja wymiaru - metoda PCA

WYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

Ścieżka rozwoju polskiej gospodarki w latach gospodarki w latach W tym celu wykorzystana zostanie metoda diagramowa,

Analiza ekonomiczna w instytucjach publicznych analiza organizacji i projektów

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

Analiza danych. TEMATYKA PRZEDMIOTU

PORZĄDKOWANIE LINIOWE BŁĘDY PRZY INTERPRETACJI WYNIKÓW ORAZ SPOSÓB ICH ELIMINACJI

Stanisław Cichocki. Natalia Nehrebecka. Wykład 12

Wskaźnik kondycji finansowej kredytobiorcy. Aspekty metodologiczne.

Mail: Pokój 214, II piętro

Statystyka w zarzadzaniu / Amir D. Aczel, Jayavel Sounderpandian. Wydanie 2. Warszawa, Spis treści

Podstawowe modele probabilistyczne

ANALIZA DYSKRYMINACJI W IDENTYFIKACJI DOBROBYTU EKONOMICZNEGO GOSPODARSTW DOMOWYCH W WOJEWÓDZTWIE PODKARPACKIM

Analiza wariancji jednej zmiennej (UNIANOVA)

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Transkrypt:

Jacek Batóg Uniwersytet Szczeciński Próba wykorzystania podejścia wielomodelowego w klasyfikacji jednostek samorządowych Agregacja wyników uzyskiwanych w odrębnych badaniach, często również przy pomocy zróżnicowanych metod, jest zjawiskiem stosunkowo znanym, zarówno w ekonomii, jak i w ramach innych nauk. Można tu wymienić na przykład zasadę maksymalizacji efektywności predykcji postulującą wykorzystywanie kilku alternatywnych metod prognozowania, wycenę nieruchomości przy pomocy uśredniania wartości uzyskiwanych metodą dochodową, metodą księgowej wartości netto oraz metodą wartości odtworzeniowej, jak również stosunkowo popularną ostatnio koncepcję meta analizy. Podstawowym celem agregacji rezultatów indywidualnych analiz jest zwiększenie prawdopodobieństwa podejmowania prawidłowych decyzji między innymi w zakresie przyporządkowania danego obiektu do określonej klasy lub wnioskowania o przyszłych wartościach badanych zjawisk. Wielu Autorów wskazuje, że koncepcja podejścia wielomodelowego oparta na agregacji modeli bazowych, stosowana w zagadnieniach klasyfikacyjnych prowadzi do wzrostu dokładności predykcji w przypadku zbyt dobrze dopasowanych modeli do zbioru uczącego oraz stosowania różnych klas modeli bazowych, pozwala zwiększać liczbę modeli bazowych w przypadku małych zbiorów obserwacji, daje możliwość wykorzystania zróżnicowanych danych statystycznych oraz poprzez wykorzystanie tych danych uzyskiwanych w różnych okresach pozwala analizować ewolucję badanego zjawiska w czasie 1. Przykładem potwierdzającym powyższe stwierdzenia może być między innymi wykorzystanie ważonego podejścia wielomodelowego opartego na prawdopodobieństwach a posteriori 2 oraz zastosowanie metody baggingu w estymacji parametrów modeli regresji i drzew klasyfikacyjnych z wykorzystaniem algorytmu iteracyjnego backfitting-like w ramach procedury GAM-MM 3. 1 Zob. na przykład [Gatnar 2008]. 2 Zob. [Stoica, Selén i Li 2004]. 3 Generalised Additive Multi-Mixture Models - zob. [Conversano 2002].

Należy jednak zauważyć, że zagregowany model drzew klasyfikacyjnych ma również pewne ograniczenia. Między innymi nie może on być przedstawiony w postaci drzewa klasyfikacyjnego, a więc nie jesteśmy w stanie uzyskać charakterystyki klas, która umożliwiałaby prostą interpretację uzyskiwanych wyników. Głównym zadaniem modelu tego typu jest predykcja przynależności nowych obiektów do danej klasy (Metody statystycznej analizy 2004, s.124). Dążąc do jak najwyższej trafności klasyfikacji należy przestrzegać kilku podstawowych zasad. Agregacji powinny podlegać modele o niskiej dokładności, charakteryzujące się brakiem stabilności na zmianę rozkładu zmiennych objaśniających, a jednocześnie modele bazowe powinny być jak najbardziej zróżnicowane pod względem uzyskiwanych wyników predykcji. Duże znaczenie w podejściu wielomodelowym ma również wyznaczanie liczby modeli bazowych gwarantującej minimalizację błędu predykcji modelu zagregowanego. Przeprowadzane badania wskazują najczęściej, że optymalny jest w tym przypadku przedział od 50 do 200 modeli bazowych. Warto również wspomnieć, że zbyt duża liczba tych modeli powoduje pogarszanie się własności prognostycznych modelu końcowego 4. W ramach przeprowadzonego badania weryfikacji poddana została hipoteza badawcza, według której wykorzystanie podejścia wielomodelowego pozwala zwiększyć dokładność klasyfikacji obiektów również w warunkach małej liczby modeli bazowych. Klasyfikowanymi obiektami był zbiór 111 jednostek samorządu terytorialnego województwa zachodniopomorskiego, które były charakteryzowane przez cztery zróżnicowane trzyelementowe podzbiory zmiennych objaśniających opisujące stan finansów, rozwój demograficzny, poziom infrastruktury oraz strukturę podmiotów gospodarczych zachodniopomorskich gmin wiejskich, miejskich i miejsko-wiejskich w 2007 roku (zob. tabela 1). Typ jednostki samorządu terytorialnego stanowił w tym przypadku zmienną grupującą i wyznaczał 3 klasy klasyfikowanych obiektów 5. W zastosowanym podejściu wielomodelowym poszczególne modele bazowe w postaci modeli dyskryminacyjnych uzyskiwane były poprzez rzutowanie na cztery podprzestrzenie zmiennych objaśniających 6 z wykorzystaniem równoległej architektury agregacji (zob. rysunek 1). Proces agregacji wyników predykcji opierał się na macierzy wektorów prawdopodobieństw a posteriori (profilu decyzyjnego) i wykorzystaniu łączenia wyników predykcji przy pomocy metody sumy (1) oraz dla porównania metody wartości 4 Zob. na przykład [Gatnar 2008, s. 78-81]. 5 Ze względu na ich specyfikę nie uwzględniono miast na prawach powiatu. 6 Szerzej na temat analizy dyskryminacyjnej traktuje między innymi praca [Jajuga 1990].

maksymalnej (2): M j (x i ) = p m, j(x i ) m= 1 W, (1) Wj (x i ) = max{p m,j(x i )}. (2) m Wykorzystywane cechy diagnostyczne Numer podzbioru Nazwa zmiennej objaśniającej Dochody ogółem na 1 mieszkańca (X 1) 1 (finansowy) Dochody własne na 1 mieszkańca (X 2) Dług publiczny jako % dochodu ogółem (X 10) Saldo migracji na 1000 ludności (X 4) 2 (demograficzny) Odsetek ludności w wieku produkcyjnym (X 5) Przyrost naturalny na 1000 ludności (X 7) Odsetek ludności obsługiwanej przez oczyszczalnie (X 3) 3 (infrastrukturalny) Odsetek ludności korzystającej z kanalizacji (X 8) Mieszkania nowo oddane do użytku na 1000 ludności (X 9) Udział pracujących w usługach (X 11) Liczba firm na 1000 ludności (X 4 (gospodarczy) 12) Liczba osób fizycznych prowadzących działalność gospodarczą na 1000 ludności (X 13) Źródło: opracowanie własne. Tabela 1 U 1 (X 1, X 2, X 10) D 1 U 2 (X 3, X 8, X 9) D 2 Zbiór uczący U (111 jst) Funkcja agregacji D * U 3 (X 4, X 5, X 7) D 3 U 4(X 11, X 12, X 13) D 4 Rys. 1. Architektura stosowanego podejścia wielomodelowego Źródło: opracowanie własne na podstawie [Gatnar 2008, s.62].

Poniżej zaprezentowane zostały wyniki estymacji i trafność klasyfikacji wybranych modeli bazowych oraz modelu zagregowanego. W tabelach 2 i 3 przedstawiono rezultaty uzyskane dla drugiego podzbioru zmiennych objaśniających (demograficznego), a w tabelach 4 i 5 dla podzbioru czwartego (gospodarczego). Dla tego drugiego podzbioru cech diagnostycznych zobrazowano dodatkowo na rysunku 2 rozrzut wartości kanonicznych. Wyniki estymacji modelu bazowego dla zmiennych demograficznych Funkcja R λ Wilksa χ 2 Stopnie swobody p Wartości własne Wariancja (%) 1 0,427 0,809 22,69 6 0,0009 0,224 95,6 2 0,101 0,990 1,10 2 0,5780 0,010 4,4 Tabela 2 Tabela 3 Macierz klasyfikacji dla modelu bazowego opartego na zmiennych demograficznych Trafność klasyfikacji (%) M W MW M 0,000 0 0 8 W 59,62 1 31 20 MW 70,59 0 15 36 Razem 60,36 1 46 64 Wyniki estymacji modelu bazowego dla zmiennych gospodarczych Funkcja R λ Wilksa χ 2 Stopnie swobody p Wartości własne Wariancja (%) 1 0,524 0,700 38,07 6 0,0000 0,379 91,5 2 0,185 0,966 3,71 2 0,1567 0,035 8,5 Macierz klasyfikacji dla modelu bazowego opartego na zmiennych gospodarczych Trafność klasyfikacji (%) M W MW M 12,50 1 0 7 W 80,77 1 42 9 MW 52,94 3 21 27 Razem 63,06 5 63 43 Tabela 4 Tabela 5 Trafność klasyfikacji modelu zagregowanego uzyskanego z wykorzystaniem metody sumy (1) zamieszczono w tabeli 6, a porównanie wyników klasyfikacji otrzymanych dla modeli bazowych oraz modelu zagregowanego przedstawiono na rysunku 3, na którym

uwzględniono również alternatywne modele bazowe zbudowane w oparciu o podział jednostek samorządu terytorialnego na 4 klasy na podstawie metody Warda. 4 Pierwiastek 2 0-4 -4-2 0 2 4 6 8 10 Pierwiastek 1 M W MW Rys. 2. Wykres rozrzutu wartości kanonicznych dla zmiennych X11, X12 i X13 Źródło: opracowanie własne. Macierz klasyfikacji dla modelu zagregowanego (metoda sumy) Tabela 6 Trafność klasyfikacji (%) M W MW M 72,55 37 6 8 W 88,46 14 46 0 MW 0,00 8 0 0 Razem 74,77 51 52 8 (%) 90 80 70 60 50 40 30 20 10 0 Bazowe (3) Zagregowany (3) Bazowe (4) Zagregowany (4) Rys. 3. Porównanie trafności klasyfikacji modeli bazowych i zagregowanych Źródło: opracowanie własne.

Wszystkie wyniki uzyskane w ramach przeprowadzonego badania pozwalają sformułować wniosek o znaczącym spadku błędu ogólnego klasyfikacji jednostek samorządowych uzyskiwanego w przypadku budowy modeli zagregowanych. Otrzymane rezultaty były odporne zarówno na zmianę charakteru zmiennej grupującej (wykorzystane były dwa warianty tej zmiennej), jak i zróżnicowanie metod łączenia wyników predykcji (zastosowano metodę sumy oraz metodę wartości maksymalnej). W celu potwierdzenia powyższych wniosków należałoby jednak przeprowadzić dalsze analizy, które pozwoliłyby ocenić przydatność podejścia wielomodelowego w przypadku agregacji małej liczby modeli bazowych przy stosowaniu architektur szeregowych i hybrydowych oraz różnicowania prawdopodobieństw a priori. Rozważać można również czy jesteśmy w stanie minimalizować błąd klasyfikacji badanych obiektów przy wykorzystaniu próby testowej pozwalającej przypisać wagi poszczególnym modelom bazowym wyznaczone w oparciu o obserwowane błędy predykcji. Literatura Conversano C.: Bagged Mixtures of Classifiers using Model Scoring Criteria. Pattern Analysis and Applications, 2002, Vol. 5, s.351-362. Gatnar E.: Podejście wielomodelowe w zagadnieniach dyskryminacji i regresji. PWN, Warszawa 2008. Metody statystycznej analizy wielowymiarowej w badaniach marketingowych. Praca zbiorowa pod redakcją naukową E. Gatnara i M. Walesiaka, Wydawnictwo Akademii Ekonomicznej im. Oskara Langego we Wrocławiu, Wrocław 2004. Jajuga K.: Statystyczna teoria rozpoznawania obrazów. PWN, Warszawa 1990. Stoica P., Selén Y., Li J.: Multi-model approach to model selection. Digital Signal Processing, Vol. 14, Issue 5, September 2004, s. 399-412. Summary In the paper the Author tried to assess whether a multi-model approach is effective in the case of small number of discriminant models. The individual classifiers were projection on different space of explanatory variables. The process of the aggregation was based on a parallel architecture of the overall system with the matrix of a posteriori probabilities and the sum method. The theoretical considerations were followed up by a comparative analysis of prediction errors in the process of classification of administrative units. In all considered cases a significant improvement of prediction accuracy of classification was observed.