Zastosowania statystyki i matematyki w ekonomii. Marek Walesiak. Akademia Ekonomiczna we Wrocławiu. 1. Wstęp

Podobne dokumenty
PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCŁAWIU Nr l TAKSONOMIA li Klasyfikacja i analiza danych- teoria i zastosowania

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

strona 1 / 12 Autor: Walesiak Marek Publikacje:

STRA TEGIE POSTĘPOWANIA W BADANIACH STATYSTYCZNYCH W PRZYPADKU ZBIORU ZMIENNYCH MIERZONYCH NA SKALACH RÓŻNEGO TYPU**

UOGÓLNIONA MIARA ODLEGŁOŚCI -BADANIA SYMULACYJNE 1. l. Wprowadzenie 2

Badania eksperymentalne

DOPUSZCZALNE DZIAŁANIA NA LICZBACH W BADANIACH MARKETINGOWYCH Z PUNKTU WIDZENIA SKAL POMIAROWYCH * 1. Rola skal pomiarowych w badaniach marketingowych

Badanie rozwoju społeczno-gospodarczego województw - wpływ metodyki badań na uzyskane wyniki

Wykład 10 Skalowanie wielowymiarowe

SYMULACYJNA OPTYMALIZACJA WYBORU PROCEDURY KLASYFIKACYJNEJ DLA DANEGO TYPU DANYCH CHARAKTERYSTYKA PROBLEMU

Graficzna prezentacja danych statystycznych

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

METODY SKALOWANIA WIELOWYMIAROWEGO OBIEKTÓW SYMBOLICZNYCH

L: Wjaikjbkij +L:L: wjaiijbkjj j=1 j=1 1=1

WYKAZ PRAC PUBLIKOWANYCH

Marek Walesiak UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ Z WYKORZYSTANIEM PROGRAMU R

POMIAR PODOBIEŃSTWA OBIEKTÓW W ŚWIETLE SKAL POMIARU I WAG ZMIENNYCH l

SYMULACYJNA OPTYMALIZACJA WYBORU PROCEDURY KLASYFIKACYJNEJ DLA DANEGO TYPU DANYCH OPROGRAMOWANIE KOMPUTEROWE I WYNIKI BADAŃ

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH W SKALOWANIU WIELOWYMIAROWYM

Metody Ilościowe w Socjologii

DANE PORZĄDKOWE W STATYSTYCZNEJ ANALIZIE WIELO WYMIAROWEJ'

L Wjailgbkij +I I wjajljbklj j=1 j=i/=]

Podejścia w skalowaniu wielowymiarowym obiektów symbolicznych

FILTROWANIE ZBIORU OFERT NIERUCHOMOŚCI Z WYKORZYSTANIEM INFORMACJI O PREFERENCJACH 1

Podstawowe pojęcia statystyczne

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

Operacjonalizacja zmiennych

Badanie zależności skala nominalna

OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ DLA DANYCH PORZĄDKOWYCH. 1. Wstęp

Tabela 1. Macierz preferencji dotycząca pięciu przykładowych produktów (obiektów) i sześciu respondentów

Statystyka w pracy badawczej nauczyciela

Analiza autokorelacji

Metody klasyfikacji i klasteryzacji obiektów wielocechowych.

Kilka uwag o testowaniu istotności współczynnika korelacji

ZASTOSOWANIA METOD TAKSONOMICZNYCH W GOSPODARCE

OCENA STABILNOŚCI WYNIKÓW KLASYFIKACJI Z WYKORZYSTANIEM ANALIZY REPLIKACJI

f) Różne konstrukcje SMR przedstawiono m. in. w pracach [1], [3], [4], [9], [13].

Hierarchiczna analiza skupień

Analiza. danych jakoêciowych i symbolicznych z wykorzystaniem programu R. Eugeniusz Gatnar Marek Walesiak. Redakcja naukowa

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

WSTĘP. Uogólniona miara_walesiak_księga1.indb :55:55

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Modelowanie zależności. Matematyczne podstawy teorii ryzyka i ich zastosowanie R. Łochowski

TRZYDZIEŚCI KONFERENCJI TAKSONOMICZNYCH KILKA FAKTÓW I REFLEKSJI 1 THIRTY TAXONOMIC CONFERENCES SOME FACTS AND REFLECTIONS

Korelacja krzywoliniowa i współzależność cech niemierzalnych

Agnieszka Nowak Brzezińska

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

W1. Wprowadzenie. Statystyka opisowa

(x j x)(y j ȳ) r xy =

Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi

Przedmiot kod nr w planie ECTS studiów PODSTAWY STATYSTYKI TR/2/PP/STAT 6 3

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

WYKAZ PUBLIKACJI UWAGA! Kolor czerwony oznacza dostępność pełnej wersji publikacji

Badania Statystyczne

Statystyka matematyczna

PRZEWODNIK PO PRZEDMIOCIE. Statystyka opisowa. Zarządzanie. niestacjonarne. I stopnia. dr Agnieszka Strzelecka. ogólnoakademicki.

METODA DEA W ANALIZIE EFEKTYWNOŚCI NAKŁADÓW NA GOSPODARKĘ ODPADAMI

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Badanie zależności pomiędzy zmiennymi

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Symscal: metoda skalowania wielowymiarowego obiektów symbolicznych

R-PEARSONA Zależność liniowa

NADUMIERALNOŚĆ MĘŻCZYZN W NADBAŁTYCKICH KRAJACH UNII EUROPEJSKIEJ

Wykład ze statystyki. Maciej Wolny

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

WYKAZ PUBLIKACJI I. Artykuły Ia. Opublikowane przed obroną doktorską

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

Model procesu dydaktycznego

ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO

ZMODYFIKOWANE KRYTERIUM DOBORU ZMIENNYCH OBJAŚNIAJĄCYCH DO LINIOWEGO MODELU EKONOMETRYCZNEGO

Badanie zróżnicowania krajów członkowskich i stowarzyszonych Unii Europejskiej w oparciu o wybrane zmienne społeczno-gospodarcze

WYKAZ REFERATÓW WYGŁOSZONYCH NA KONFERENCJACH

4.2. Statystyczne opracowanie zebranego materiału

w pierwszym okresie nauki w gimnazjum

STATYSTYCZNA ANALIZA ROZWOJU REGIONALNEGO W POLSCE

1551\ glrlrs ISSf'J '

(C. Gauss, P. Laplace, Bernoulli, R. Fisher, J. Spława-Neyman) Wikipedia 2008

Wprowadzenie do analizy korelacji i regresji

Systemy liczbowe. 1. Przedstawić w postaci sumy wag poszczególnych cyfr liczbę rzeczywistą R = (10).

Statystyka SYLABUS A. Informacje ogólne

KARTA KURSU. (do zastosowania w roku ak. 2015/16) Kod Punktacja ECTS* 4

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Badania eksperymentalne

Spis treści. Summaries

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

P: Czy studiujący i niestudiujący preferują inne sklepy internetowe?


Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Statystyka opisowa. Wykład VI. Analiza danych jakośiowych

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

Elementy modelowania matematycznego

I. OGÓLNE INFORMACJE PODSTAWOWE O PRZEDMIOCIE. Nie dotyczy. podstawowy i kierunkowy

Programowanie liniowe całkowitoliczbowe. Tadeusz Trzaskalik

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Wykład Ćwiczenia Laboratorium Projekt Seminarium Liczba godzin zajęć zorganizowanych w

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Zmienne losowe. dr Mariusz Grządziel Wykład 12; 20 maja 2014

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Statystyka matematyczna

Transkrypt:

PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCŁAWIU Nr 1006 2003 Zastosowania statystyki i matematyki w ekonomii Marek Walesiak Akademia Ekonomiczna we Wrocławiu MIARA ODLEGŁOŚCI OBIEKTÓW OPISANYCH ZMIENNYMI MIERWNYMI NA RÓŻNYCH SKALACH POMIARU 1. Wstęp Miarę odległości d jk między obiektami A;. Ak (i, k =1,..., n) opisanymi zbiorem zmiennych o różnych skalach ich pomiaru zaproponował Gower [7] (zob. np. [5, s. 43-44; 6, s. 21-22; 9, s. 35-36]): (1) gdzie: j = 1,..., m - numer zmiennej, o;y) =1, gdy pomiaru na zmiennejj możemy dokonać dla obydwu obiektów Aj,A k ; w innych sytuacjach o;y) = O. Formuła Gowera uśrednia odległości wyznaczone dla poszczególnych zmiennych. Dla zmiennej o numerze j zmierzonej na skali nominalnej (w tym binarnych) wielkość: d (j) - ik - 0, gdy między obiektami dla wyników pomiaru na zmiennej j-tej zachodzi relacja równości, 1, gdy między obiektami dla wyników pomiaru na zmiennej j-tej zachodzi relacja różności. (2) Jeśli w zbiorze znajdują się tylko zmienne nominalne wielostanowe, formuła (1) z podstawieniem (2) przyjmuje postać współczynnika Sokala i Michenera (por. [9, s. 28]):

262 Marek Walesiak (3) gdzie: m r liczba zmiennych, dla których między obiektami Aj, Ak zachodzi relacja różności, m - liczba zmiennych. Z kolei tylko dla zmiennych binarnych otrzymuje się formułę Sokala i Michenera (zob. [14, s. 28]): gdzie: a (d) - b (c) - d. =1- a+d, (4) Ił a+b+c+d liczba zmiennych, dla których obiekty Aj, Ak mają zgodne wartości występowania (braku występowania) odpowiedniego wariantu zmiennej - odpowiednio (+, +) i (-, -); liczba zmiennych, dla których obiekty Aj,A k mają niezgodne wartości zmiennej - odpowiednio (+, -) i (-, +). Etapem wstępnym konstrukcji miary (4) jest tab. l. Tabela L Sposób kodowania dla zmiennych nominalnych binarnych Obiekt Aj Zmienna X j aj b j Cj d j Obiekt Ak + + l O O O + - O l O O - + O O l O - - O O O l,,+" oznacza występuje; n-" oznacza nie występuje, ~~ aj =a, ~~ b j =b, ~m Cj =c, ~~ d j =d. ~J~ ~J~ ~J~ ~J~ Źródło: opracowanie własne. Dla zmiennych o numerze j zmierzonych na skali interwałowej di~) jest zdefiniowane wzorem: lub ilorazowej (5) gdzie: r j - rozstęp wyznaczony na podstawie wartościj-tej zmiennej.

Miara odległości obiektów opisanych zmiennymi mierzonymi na różnych skalach... 263 Gdy W zbiorze występują tylko zmienne mierzone na skali interwałowej i (lub) ilorazowej, fonnuła (l) z podstawieniem (5) to odległość miejska (pod warunkiem, że wcześniej przeprowadzono normalizację zmiennych z wykorzystaniem formuły przekształcenia ilorazowego z podstawą normalizacji równą rozstępowi j-tej zmiennej - zob. [14, s. 19]). Miara odległości (l) przyjmuje wartości z przedziału [O; l]. Kaufman i Rousseeuw [9, s. 35-36] zaproponowali ponadto, aby na podstawie wzoru (5) wyliczać odległość dla zmiennych mierzonych na skali porządkowej (po uprzednim porangowaniu wariantów zmiennej porządkowej). Propozycja ta jest nie do przyjęcia z punktu widzenia teorii pomiaru, ponieważ dla wyników pomiaru na skali porządkowej jedyną dopuszczalną operacją empiryczną jest zliczanie zdarzeń (tzn. ile można określić relacji mniejszości, większości i równości na wartościach tej skali). Miara odległości Gowera uwzględniająca zróżnicowane wagi zmiennych przyjmuje postać (zob. [4, s. 103]): (6) gdzie: dj,,/l określone wzorami (2) i (5), wit - wagi spełniające warunki: wf1l E[O; m], L ;=1 wf1l = m. Waga wf1l =O, gdy pomiaru na zmiennej j-tej nie można dokonać dla obydwu obiektów Ą,Ak Propozycja odległości Gowera o postaci (1) i jej modyfikacja (6), choć zachęcająca z empirycznego punktu widzenia, budzi jednak wątpliwości: - wprawdzie odległość ta zapisana jest za pomocą jednego wzoru, ale jest to faktycznie zabieg sztuczny, bowiem dla skali nominalnej, interwałowej i ilorazowej wykorzystuje się inne wzory (odpowiednio o numerach (2) i (5», - propozycja ta stosuje niedopuszczalną, z punktu widzenia teorii pomiaru, formułę (5) dla zmiennych mierzonych na skali porządkowej. 2. U ogólniona miara odległości a skale pomiaru zmiennych W pracy Walesiaka [13] zaproponowano uogólnioną miarę odległości GDM (Generalised Dis/ance' Measure), w konstrukcji której wykorzystano ideę uogólnionego współczynnika korelacji obejmującego współczynnik korelacji liniowej Pearsona i współczynnik korelacji tau Kendalla (zob. [10, s. 19; 11, s. 266]):

264 Marek Walesiak gdzie: d ik (Sik) - miara odległości (podobieństwa) między obiektami Ą, Ak' W i - waga j-tej zmiennej spełniająca warunki: wi e (O; m), ~m W. =m, ~i:l J i, k, l = l,..., n - numer obiektu, j =l,..., m - numer zmiennej. W uproszczonej postaci formułę odległości (7) można zapisać jako: (8) Stosowanie konkretnych konstrukcji miar odległości (8) jest uzależnione od skal pomiaru zmiennych. Dla zmiennych mierzonych na skali ilorazowej i (lub) interwałowej w formule (8) stosowane jest podstawienie: aipj = Xii -:- x pi dla p = k, l b kri =x ki - x rj dla r = i, l ' (9) gdzie: Xii (Xki,X/i ) - i-ta (k-ta, l-ta) obserwacja naj-tej zmiennej. Zasób informacji skali porządkowej jest nieporównanie mniejszy. Jedyną dopuszczalną operacją empiryczną na skali porządkowej jest zliczanie zdarzeń (tzn. wyznaczanie liczby relacji większości, mniejszości i równości). W związku z tym w konstrukcji miernika odległości musi być wykorzystana informacja o relacjach, w jakich pozostają porównywane obiekty w stosunku do pozostałych obiektów ze zbioru A. Dla zmiennych mierzonych na skali porządkowej w formule (8) stosuje się podstawienie [12, s. 44-45]:

Miara odległości obiektów opisanych zmiennymi mierzonymi na różnych skalach... 265 jeżeli xij > x pj (x kj > xi]) jeżeli xij =X pj (x kj =xl])' dla p =k, l; r = i, l. (10) jeżeli xij < X pj (x kj < xi] ) Wtedy w mianowniku wzoru (8) pierwszy czynnik oznacza liczbę relacji większości i mniejszości określoną dla obiektu i, czynnik drugi zaś liczbę relacji większości i mniejszości określoną dla obiektu k. Zasób informacji skali nominalnej zezwala na zliczanie zdarzeń, tzn. wyznaczanie liczby relacji równości i różności. W związku z tym w konstrukcji miernika odległości musi być wykorzystana tego typu informacja. W mianowniku wzoru (8) czynniki iloczynu oznaczają liczbę relacji równości i różności określoną dla obiekm n m n tu i oraz k, zatem L L Wjaj~j =L L wi;lj = m(n -1). j=1 1=1 j=1 1=1 Dla zmiennych mierzonych na skali nominalnej w formule (8) stosuje się podstawienia: a) dla porównywanych obiektów i, k l dla Xij = x kj ajk} {.bkij = _l dla (11a) xij -:t xk}, b) dla pozostałych obiektów (l = 1,..., n; l -:t i, k) Jeśli w zbiorze znajdują się tylko zmienne nominalne wielostanowe, formuła (8) z podstawieniem (11a) i (11 b) przyjmuje postać [14, s. 27]: (12) gdzie: djv) określone wz?rem (2), w j - wagaj-tej zmiennej spełniająca warunki: w j E (O; m), L7=1 w j = m. We wzorze (12) ważeniu podlega de facto relacja równości i różności. Nie jest istotny rozkład wag dla zmiennych, dla których między obiektami Ą, Ą zachodzi relacja różności. Niezależnie bowiem od rozkładu wag dla poszczególnych zmiennych L7=1 wjdjv> jest stała.

266 Marek Walesiak 3. Konstrukcja miary odległości umożliwiająca pomiar podobieństwa obiektów opisanych zmiennymi mierzonymi na różnych skalach pomiaru Konstrukcja miary odległości d ik, która umożliwia uwzględnienie w badaniach zmiennych mierzonych na skali ilorazowej i (lub) interwałowej (P), nominalnej (N), bazuje na propozycji zawartej w pracy [2, s. 152]: (1), porządkowej d - wldi: + w2d: + w3d~ ik - w I +w 2 +w 3, (13) gdzie: N (P, l) - podzbiór zmiennych nominalnych (porządkowych, interwałowych i ilorazowych), w I (w 2 ' w 3 ) - wagi przypisane odległościom wyznaczonym na podstawie zmiennych nominalnych (porządkowych, interwałowych i ilorazowych), w 1' w 2 ' w 3 E (O,m); w I + w 2 + w 3 = m (liczba zmiennych). Wagi w I ' w 2 ' W 3 mogą oznaczać liczbę zmiennych w poszczególnych podzbiorach lub merytoryczną ważność poszczególnych podzbiorów zmiennych w wyznaczeniu miary odległości d ik o postaci (13). Formuła o postaci (13) 1,lśrednia odległości cząstkowe wyznaczone na podstawie poszczególnych podzbiorów zmiennych (nominalnych, porządkowych, interwałowych i ilorazowych). Miara odległości d ik o postaci (13): - może być stosowana w sytuacji, gdy obiekty opisane są zmiennymi mierzonymi na skali ilorazowej i (lub) interwałowej, porządkowej oraz nominalnej, - przybiera wartości z przedziału [O; l]; wartość Ooznacza, że dla porównywanych obiektów i, k między odpowiadającymi sobie obserwacjami na zmiennych zachodzą tylko relacje równości, - spełnia warunki: nieujemności, zwrotności, symetryczności (dla wszystkich i, k= 1,..., n), - istnieje przynajmniej jedna para obiektów w zbiorze badanych obiektów A, dla której obserwacje na zmiennych nie są identyczne (dla uniknięcia zera w mianowniku di~ i di~ ), - nie zmienia wartości w wyniku transformacji wartości zmiennych za pomocą dozwolonego na danej skali przekształcenia matematycznego (na skali nominalnej: funkcja wzajemnie jednoznaczna; na skali porządkowej: dowolna ściśle mo

Miara odległości obiektów opisanych zmiennymi mierzonymi na różnych skalach... 267 notonicznie rosnąca funkcja; na skali interwałowej: funkcja liniowa; na skali ilorazowej: funkcja liniowa jednorodna, zob. [3, s. 79]). 4. Podsumowanie W pracy Walesiaka [13] zaproponowano uogólnioną miarę odległości GDM, która umożliwia uwzględnienie w badaniach zmiennych mierzonych na skali: a) ilorazowej i (lub) interwałowej, b) porządkowej. W artykule zaproponowano wersję miary odległości GDM uwzględniającą zmienne mierzone na skali nominalnej. Ponadto zaproponowano konstrukcję miary odległości umożliwiającą pomiar podobieństwa obiektów opisanych zmiennymi mierzonymi na różnych skalach pomiaru. Formuła ta uśrednia odległości cząstkowe wyznaczone na podstawie poszczególnych podzbiorów zmiennych (odpowiednio nominalnych, porządkowych, interwałowych i ilorazowych). Literatura [1] Arabie P., Hubert L.J., De Soete G., Clustering and Classification, World Scientific, Singapore 1996. [2] Bock H.H., Diday E. (red.), Analysis ofsymbolic Data, Springer-Verlag, Berlin, Heidelberg 2000. [3] Cegiełka K., Stachowski E., Szymański K. (red.), Matematyka. Encyklopedia dla wszystkich, WNT, Warszawa 2000. [4] Cox T.F., Cox M.A.A., A General Weighted Two-way Dissimilarity Coefficient,,,Journal of Classification" 2000 Vol. 17, s. 101-121. [5] Everitt B.S., Landau S., Leese M., Cluster Analysis, Edward Arnold, London 2001. [6] Gordon A.D., Classification, Chapman and HalllCRC, London 1999. [7] Gower J.C., A General Coefficient of Similarity and Some of its Properties, "Biometrics" 1971 (27), s. 857-874. [8] Jajuga K., Walesiak M., Bąk A., On the General Distance Measure, [w:] M. Schwaiger and O. Opitz (red.), Exploratory data analysis in empirical research, Springer-Verlag, Berlin, Heidelberg 2003, s. 104-109. [9] Kaufman L., Rousseeuw P.J., Finding Groups in Data: an lntroduction to Cluster Analysis, Wiley, New York 1990. [10] Kendall M.G., Rank Cocrelation Methods, Griffin, London 1955. [11] Kendall M.G., Buckland W.R., Słownik terminów statystycznych, PWE, Warszawa 1986. [12] Walesiak M., StatystycUUl analiza wielowymiarowa w badaniach marketingowych, Prace Naukowe AE we Wrocławiu nr 654, Seria: Monografie i Opracowania nr 101, AE, Wrocław 1993. [13] Walesiak M., Propozycja uogólnionej miary odległości w statystycznej analizie wielowymiarowej, [w:] red. J. Paradysz, Statystyka regionalna w służbie samorządu lokalnego i biznesu, Internetowa Oficyna Wydawnicza, Centrum Statystyki Regionalnej, Akademia Ekonomiczna w Poznaniu, Poznań 2002, s. 115-121. [14] Walesiak M., Uogólniona miara odległości w statystycznej analizie wielowymiarowej, AE, Wrocław 2002.