AKADEMIA EKONOMICZNA IM. KAROLA ADAMIECKIEGO Prace naukowe EKONOMETRIA Materiały z XXVIII Konferencji Ekonometrycznei i X Seminarium Naukowego im. Zbigniewa Pawłowskiego Katowice - Kraków - Wrocław KATOWICE 1994
Redaktor Jadwiga Popławska-Mszyca VVydano za zgodą Rektora Akademii Ekonomicznej im. Karola Adamieckiego w Katowicach SKŁAD I ŁAMANIE KOMFUTEROWE WYKONANO W WYDAWNICTWIE UCZELNIANYM AE 2 94 100 + 75 egz. Ark. wgd. 5,8 Cena zł 30 000,-
Spis treści strona Andrzej Barczak, Lesław Fornal METODOLOGICZNE ASPEKTY ZASTOSOWANIA MODELI EKONOMETRYCZNYCH DO POTRZEB SWD... 5 Heilpern ŁĄCZENIE ROZKŁADÓW NIEPEWNOŚCI...... 15 Stanisław Grzegorz Kończak O PEWNEJ MODYFIKACJI PLANU CSP-1... 25 Grzegorz Kowalewski ZASTOSOWANIE "MACIERZY RZUTOWANIA" W DIAGNOSTYCE REGRESJI... 39 Krystyna Melich KILKA UWAG NA TEMAT DYNAMICZNEJ ANALIZY OBIEKTYWNEJ JAKOŚCI ŻYCIA... 49 Janusz Łyko, Józef Magiera ZASADA INERCJI W PROGNOZOWANIU GOSPODARCZYM... 63 Juliusz Siedlecki UWAGI DO METODY REGRESJI ITERACYJNEJ... 73 Marek Walesiak O PROBLEMIE WYBORU WŁAŚCIWEJ METODY W KLASYFIKACJI HIERARCHICZNEJ... 87 Henryk Zawadzki DETERMINISTYCZNY CHAOS W MATEMATYCZNYCH MODELACH ZJAWISK EKONOMICZNYCH... 97 Józef Biolik, Lesław Fornal KILKA UWAG O PODZIALE KOSZTÓW NA STAŁE I ZMIENNE... 107
Marek Walesiak O PROBLEMIE WYBORU WŁAŚCIWEJ METODY W KLASYFIKACJI HIERARCHICZNEJ Niech dany będzie n-elementowy zbiór obiektów A={A,... 1 A }. Każdy 0 z obiektów opisany jest za pomocą wartości m zmiennych x,... 1,xm. Załóżmy, te chcemy dokonać podziału zbioru obiektów na względnie jednorodne (homogeniczne) klasy P,... 1 P H' spełniającego warunki zupełności, rozłączności i niepus t ości. Głównym celem klasyfikacji jest poznanie natury obiektów [2], tzn. badanie podobieństwa lub odrębności obiektów i ich zbiorów. Celem tym jest więc podział zbioru obiektów na klasy zawierające obiekty podobne ze względu na wartości zmiennych, wyrażających naturę obiektów. W praktycznych zastosowaniach najczęściej wykorzystywanymi metodami rozwiązania zagadnienia klasyfikacji zbioru obiektów są hierarchiczne metody aglomeracyjne. Są one stosunkowo najlepiej opracowane pod względem metodologicznym i posiadają cenne walory praktyczne. Do niewątpliwych zalet tych metod należy zaliczyć to, że: a) działają według jednej procedury (zwanej centralną procedurą aglomeracyjną), b) wyniki klasyfikacji przedstawione są w postaci ciągu klasyfikacji (istnieje zatem możliwość kontrolowania procesu klasyfikacji), c) wyniki klasyfikacji można przedstawić graficznie w formie dendrogramu (drzewka połączeń) wskazującego na kolejność połączeń między klasami). Hierarchiczna klasyfikacja aglomeracyjna rozpoczyna się od sytuacji, w której każdy obiekt badania Ai(i=l,..,n) tworzy początkowo jedną klasę Pr W związku z tym macierz odległości przyjmuje postać
88 Marek Walesiak d(p I'p 2)... d(p l'p o) O d(p 2,P ) 0 (l) gdzie: dik - odległość między klasami Pi,P k' i,k - numery klas. Hierarchiczne metody aglomeracyjne działają według centralnej procedury aglomeracyj n ej. Algorytm tej procedury jest nas tęp u jący [7]: l. Szuka się w macierzy odległości pary klas najbardziej podobnych (najmniej odległych od siebie). Niech otrzymanymi będą klasy Pi oraz P k. 2. Redukuje się liczbę klas o jeden łącząc klasy P i'p k w nową. 3. Przekształca się odległości (stosownie do metody) pomiędzy połączonymi klasami Pi,P k oraz pozostałymi klasami. 4. Powtarza się kroki 1-3 do chwili, gdy wszystkie obiekty znajdą się w jednej klasie. Różnice w procedurach metod aglomeracyjnych wynikają z odmienności definiowania odległości międzyklasowej w etapie trzecim. Lance i Williams (15; 16] i Jambu [13] podali ogólny wzór na odległość międzyklasową, uwzględniający wszystkie znane metody klasyfikacji aglomeracyjnej. Odległość pomiędzy połączonymi klasami Piu P k i inną klasą P 1 jest zdefiniowana następująco [7] d(piu P k' P 1 ) = aid(pi,p 1 ) + akd(p k,p 1 ) +,Bd(Pi,P k) + + y l d(pi,p 1 )- d(p k'p 1 ) l + dih(pi) + dk(p k) + eh(p 1 ) (2) W formule (2) h(pi) oznacza poziom przyłączenia klasy Pi; 8=(ai, ak,,b, y, c5i, c5k, e) oznacza zbiór parametrów, których wartości zależą od konkretnego wariantu metody aglomeracyjnej. Formuła (2) bez parametrów (c5i, ók, e) została zaproponowana przez Lance'a i Williamsa [15; 16J, a formuła o postaci (2) przez Jambu [13].
O problemie wyboru... 89 Tablica l zawiera warto~ci parametrów charakteryzujących hierarchiczne metody aglomeracyjne. Tablica l Wartości parametrów charakteryzujących hierarchiczne metody aglomeracyjne Symboi a. l metody C. l l! C.2 l! C.3 w. l (wi+wk) C.4 l 2 C.5 (wi+wł) w+ C.6 (wi+wł) w+ C.7 W. l (wi+wk) C.8 l! C.9 l 2(1-73) f3 Y o. e Źródło l o -l o o Florek i inni [5) T Sneath [22] o l o o McQuitty [19]! SokaliSneath[26] o o o o Sokal i Michener [24) McQuitty [18] o o o o McQuitty [18] (wi+wk) o -w. -w l Jambu [13J l - - w+ w + w+ -wł o o o Word [28] - w+ Wishart [29] -wi wk o o o Sokal i Michener [24] (wi+wk) 2 Gower [8] -l o o o Lance i Williams [15] 4 Gower [8] {3(<1) o o o Lance i Wiiiiams [15) Symbol metody C. l C.2 C.3 C.4 Nazwa metody Pojedynczego połączenia (Single link) Kompletnego połączenia (Coplete łink) Średniej grupowej (Group average link) Ważona średnia grupowa (Weighted average link)
90 Marek Wałesiak C.5 C.6 C.7 C.8 C.9 Wewnątrzgrupowa suma kwadratów odległo~ci (Within-group sum of squares distances) Powiększona suma kwadratów odległości (Incremental sum of squares) Środka ciężkości (Centroid) Medianowa (Median) Giętka (Fłexible) Źródło: Opracowano na podstawie prac [3; 7]. Zagadnienie klasyfikacji zbioru obiektów przy użyciu hierarchicznych metod aglomeracyjnych wymaga rozwiązania problemu wyboru wla~ciwej metody klasyfikacji dla danego typu danych empirycznych (z uwagi na to, że metody klasyfikacji dostarczają na ogół różnych podziałów zbioru obiektów). W związku z tym, że wyróżnia się 9 aglomeracyjnych metod hierarchicznych (tablica l) przed ich użytkownikiem stoi nie lada problem, tzn. którą (lub które) z nich rekomendować w konkretnych badaniach empirycznych. Problem ten jest jeszcze większy, gdy rozważa się nie tylko aglomeracyjne metody hierarchiczne, ale również innego typu metody. Trzeba zdać sobie w tym miejscu sprawę z tego, że na pytanie, która z metod jest właściwa w konkretnych badaniach empirycznych nie uzyskamy jednoznacznej odpowiedzi. Do rozwiązania problemu wyboru właściwej, dla danego typu danych empirycznych, metody klsyfikacji proponuje się w literaturze przedmiotu niżej przedstawione podejścia [7]. W pierwszym z nich poprawność poszczególnych metod ocenia się na podstawie zadanych typów struktur danych. Dana metoda klasyfikacji jest poprawna, jeśli wyniki klasyfikacji uzyskane za jej pomocą odpowiadają znanej strukturze danych. Przykłady zastosowania tego typu podejścia można znaleźć między innymi w pracach: Milligana (20], Grabińskiego [10] i Grabińskiego, Wydymusa i Zeliasia [9]. Podstawową wadą tego podejścia jest to, że opiera się na wygenerowanych strukturach danych, w których konfiguracje obiektów przedstawiane są na ogół w przestrzeniach dwuwymiarowych i trójwymiarowych. Trudno jest więc uogólnić wyniki na przypadek wielowymiarowy. Nawet wtedy, gdy podejście to opiera się na danych symulacyjnych (uzyskanych za pomocą odpowiednio skonstruowanych wielowymiarowych generatorów zmiennych losowych o zadanej postaci analitycznej rozkładu) trudno jest uogólnić wyniki, ponieważ każda empirycznie uzyskana stru-
O problemie wyboru... 91 ktura danych jest inna i tak uzyskane wnioski mają ograniczony zasięg zastosowania. Podejście drugie polega na tym, że do klasyfikacji zbioru obiektów wykorzystuje się wszystkie metody z tablicy l (C.I-C.9). Następnie ocenia się zgodność wyników klasyfikacji i wybiera się te metody, które dają zbliżone wyniki. Wyniki klasyfikacji przy użyciu tych metod podlegają w dalszej fazie syntetyzacji w celu wyłonienia zgodnej klasyfiakcji. W podejściu trzecim za właściwą, dla danego typu danych, metodę klasyfikacji należy uznać taką, która daje minimalne zniekształcenia przy transformacji wyjściowej macierzy odległości (dik] w macierz wartości kocenetycznych (hik] (inaczej wartości poziomu połączenia klas w dendrogramie). Mierniki pomiaru zniekształcenia przy transformacji (dik]... (hik) zaproponowali między innymi Sokal i Rohlf [25], Hartigan (11 ], Jardine i Sibson (14]. W tablicy 2 przedstawiono trzy takie mierniki. Małe wartości 0.2 i 0.3 oraz duże wartości 0.1 oznaczają małe zniekształcenia przy transformacji (dikl -+ [hi 1 J przez daną metodę klasyfikacji. Pewną słabością oparcia się przy wyborze właściwej (dla danego typu danych) metody klasyfikacji na miarach tego typu jest to, że wybieraną przez 0.1 jest C.3 - średniej na ogół metodą grupowej (Sokal i Rohlf [25], Sneath [23]), a przez 0.3 jest C.l - pojedynczego połączenia (Gordon [7]). Tablica 2 Miary zniekształcenia przy transformacji (dikl -+ (hik] Lp. Nazwa Miara Źródło 0.1 współczynnik Sokal i Rohlf [24] korelacji kofenetycznej?. ( dik - a )(hik - rr) l,k (4 ( dik - n )2 2: (hik - rr) 2 J l,k l,k l 2 0.2 suma kwadra- Hartigan [11] tów odchyleń fr wik (dik- hik) 2 ' 0.3 metryka Min- kawskiego,[~ ldik- hik,i] (0<A:5l) max i,k {ldik- hikl} ().=0).t Jardine i Sibson [14] wik- wagi (na ogół wszystkie odległości są jednakowo ważne, więc wik == 1 dla każdego i,k) Źródło: Opracowano na podstawie prac: Gordona [7], Carmacka [3].
92 Marek Walesiak W czwartym podejściu analizuje się formalne własności metod klasyfiakcji, które stanowią kryterium wyboru właściwej metody. Pierwsze własności formalne wypracowali Jardine i Sibson [14]. Zostały one następnie wzbogacone o nowe w pracach: Fishera i Van Nessa [4), Van Nessa [27], a zwięzły ich przegląd w literaturze zawierają monografie: Gradona [6), Pociecha (21 ], Ajvazjana, Bezaeva, Staroverova [l]. Wybrane własności następujących punktów: formalne metod klasyfikacji można ująć w postaci a) własności jednoznaczności (najlepszego obrazu) - jest to warunek konieczny, który powinna spełniać każda metoda klasyfikacji. Własność ta oznacza, że kolejność w jakiej obiekty są klasyfikowane nie ma wpływu na wynik klasyfikacji. Inaczej mówiąc podziału na klasy nie można poprawić przez zmian<( wstctpncgo uporządkowania obiektów, b) własność wypukłości - metody klasyfikacji posiadają tę własność, jeżeli w rezultacie ich zastosowania otrzymuje się podział zbioru obiektów A na klasy P l'...,p H' w którym wypukłe otoczenia klas nie przecinają się, c) własność poprawnej struktury według klas - wszystkie odległości wewnątrzklasowe są mniejsze od wszystkich odległości międzyklasowych, d) własność poprawnej struktury według drzewka połączeń - metody klasyfikacji posiadają tę własność, jeżcli rezultaty klasyfikacji hierarchicznej zbioru obiektów dadzą się przedstawić w postaci drzewka połączeń (dendrogramu) zgodnego z kolejnością podobieństwa mictdzy elementami tego zbioru (wartości poziomu połączenia klas hik rozłożone są monotonicznie rosnąco, gdy stosujemy miary odległości między obiektami), e) własność monotoniczności- metody klasyfikacji posiadają tę własność, jeżeli monotoniczna transformacja każdego elementu macierzy odległości nie zmienia wyników klasyfikacji, f) własność powtarzania punktów - metody klasyfikacji posiadają tę własność, jeśli po dodaniu jednego lub wielu obiektów, identycznych z obiektami należącymi do klas P l'..,p H' i ponownym zastosowaniu danej metody granice klas nie zmienią się (zmieni się tylko ich liczebność), g) własność opuszczania klas - niech dany będzie podział zbioru obiektów A na klasy P l'...,p k,...,p H" Jeśli po odrzuceniu obiektów należących do klasy P k i ponownym zastosowaniu algorytmu klasyfikacji otrzymamy podział zbioru A-Pk na klasy Pl'...,Pk_ 1,Pk+l'...,PH to dana metoda klasyfikacji posiada własność opuszczania klas.
O problemie wyboro... 93 W tablicy 3 syntetycznie przedstawiono formalne własno~ci hierarchicznych metod aglomeracyjnych. Znajomo~ć okre~lonych własno~d poszczególnych metod klasyfikacji pozwala na wła~ciwe ich wykorzystanie w badaniach empirycznych. W pracy prezentowany jest pogląd, te oparcie się w tak istotnym problemie jak wybór wła~ciwej metody klasyfikacji tylko na kryteriach formalnych może spowodować błędne wyniki, które nie odpowiadają logiczno-intuicyjnej interpretacji obserwowanych zjawisk. Od badacza wykorzystującego w badaniach metody klasyfikacji wymaga się dwojakiego rodzaju umiejętno~ci, tzn. w zakresie wybranej dyscypliny badawczej (merytoryczna znajomo~ć zagadnienia) oraz w zakresie opanowania metod statystycznej analizy wiełowymiarowej (metodologiczna znajomo~ć zagadnienia), wyrażające naukową swobodę badacza. Formalne własno~ci hierarchicznych metod aglomeracyjnych Tablica 3 Symbol Najle- Wypu- Poprawnej struk- Mono- Powta- Opus z- Źródło metody pszego kłoś ci tury według klas tonicz- rzania czania obrazu kjas drzew- n ości punk- klas ka połą- t ów czeń C. l + - + + + + + [6) C.2 + - + + + + + [6) C.3 + - + + - - + [6) C.4 + - + + - - + [21] C.5 + X X + X X X C.6 + + - + - - + [6] C.7 + - - - - - + [12] C.8 + X X - X X X C.9 ' + X X + X X X + - spełnia, - - nie spełnia, x - brak danych Źródło : Opracowanie własne na podstawie prac: Gordona [6], Pociecha [21 ], Hussaina [12).
94 Marek Walesiak Literatura 1. Ajvazjan S.A, Bezaeva Z.J., Staroverov O.V.: Klassifikacija mnogomiernych nabludenij. Statistika, Moskva 1974. 2. Borys T.: Kntegoria jakości w statystycznej analizie porównawczej. Prace Naukowe. AE, Wrocław 1984, nr 284. 3. Cormack R.M.: A Review of Classification (Vith Discussion). "JRSS" 1971, Part. 3, p. 321-367. 4. Fisber L., Van Ness J. W.: Admissible Clustering Procedures. "Biometrika" 1971, No l, p. 91-104. 5. Florek K, Łukasiewicz J., Perkal J., Steinhaus H., Zubrzycki S.: Taksonomia wrocławska. "Przegląd Antropologiczny" 1951, nr 17, s. 193-211. 6. Gordon AD.: Classification. Chapmao and Hall, London 1981. 7. Gordon AD.: A Review of Hierarchical Classification. "JRSS" 1987, p. 119-137. 8. Gover J.C.: A Comparison of Some Methods of Cłuster Analysis. "Biometrics" 1967, No 23, p. 623-638. 9. Grabiński T., Wydymus S., Zelia A: Metody taksonomii numerycznej w modelowaniu zjawisk społeczno-gospodarczych. P~, Warszawa 1989. 10. Grabiński T.: Problemy analizy poprawności procedur taksonomicznych. W: Taksonomia - teoria i jej zastosowania. Praca zbiorowa pod red. J. Pociecha. AE, Kraków 1990. 11. Hartigan J.A: Representation of Symilarity Matrices by Trees. "JASA" 1967, No 62, p. 1140-1158. 12. Hussain M.: Taksonomiczne metody podziału zbiorów skończonych. AE, Kraków 1982. 13. Jambu N.: Classification Automatique pour /'Analyse des Donnees. Tome l. Dunod, Paris 1978. 14. Jardine N., Sibson R.: Mathematical Tax.onomy. Wilcy, New York 1971. 15. Lance G.N., Williams W.T.: A Generalized Soning Strategy for Computer C/assifications. "Nature" 1966, No 212, p. 218. 16. Lance G.N., Williams W.T.: A Generał Theory of Classifica tory Sorting Strategies. l Hierarchical Systems. "Computer Journal" 1967, No 9, p. 373-380. 17. McQuitty L. L.: Similarity Analysis by Reciprocal Pairs for Discrete and Continu- ous Data. "Educational Psychological Measurement" 1966, No 26, p. 825-831. 18. McQuitty L.L.: Expansion of Similarity Analysis by Reci procal Pairs for Discrete and Continuous Data. "Educational Psychological Measurement" 1967, No 27, p. 253-255.
O problemie wyboru... 95 19. McQuitty L. L.: Hierarchica/ Linluzge Analysis for the Jso Jatlon of Types. "Educationał Psychołogicał Measurement" 1960, No 20, p. 55-67. 20. Miłłigan G. W.: A Review of Monte Carlo Tests ofcluster Analysis. "Multivariance Behaviour Research" 1981, No 16, p. 379-407. 21. Podecha J.: Statystyczne metody segmentacji rynku. Zeszyty Naukowe. AE, Kraków 1986. 22. Sneath P.H.A: The Application of Computers to Taxonomy. "Journal Genetlcal Microbiology" 1957, No 17, p. 201-226. 23. Sneath P.H.A: Evaluation of Cłustering Methods (With Discussion). In: Numerical Tax.onomy. (AJ. Cole, ed.). Academic Press London 1969, p. 257-271. 24. Sokał R. R., Michener C.D.: A Statistical Method for Evalu ating Systemat/c Relationships. "University Kansas Sciences Bułłetin" 1958, Nr 38, p. 1409-1438. 25. Sokał R.R., Rohlf F.J.: The Cmparison o[ Dndrograms by Objective Methods. "Taxon" 1962, No 11, p. 33-40. 26. Sokal R.R., Sneath P.H.A: Principles o[ Numerical Taxonomy. W.H. Freeman, San Francisco 1963. 27. Van Ness J. W.: Admissible Cłustering Procedures. "Biometrika" 1973, No 60, p. 422-424. 28. Ward J.H.: Hierarchical Grouping to Optimize an Objective Function. "JASA" 1963, No 58, p. 236-244. 29. Wishart D.: An Algorithm for Hierarchica/ Classifications. "Biometrlcs" 1969, No 25, p. 165-170.