EKONOMETRIA. i X Seminarium Naukowego im. Zbigniewa Pawłowskiego. Katowice - Kraków - Wrocław. Materiały z XXVIII Konferencji Ekonometrycznei

Podobne dokumenty
strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

strona 1 / 12 Autor: Walesiak Marek Publikacje:

Hierarchiczna analiza skupień

CLUSTERING. Metody grupowania danych

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

WYKAZ PRAC PUBLIKOWANYCH

PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCŁAWIU Nr 686 Zastosowania metod ilościowych Marek Walesiak METODY KLASYFIKACJI WIELOWYMIAROWEJ.

Metody Ilościowe w Socjologii

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Zastosowania statystyki i matematyki w ekonomii. Marek Walesiak. Akademia Ekonomiczna we Wrocławiu. 1. Wstęp

Wykład 10 Skalowanie wielowymiarowe

Czym jest analiza skupień?

Analiza korespondencji

Kilka uwag o testowaniu istotności współczynnika korelacji

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Metody analizy przestrzennej. Liczba godzin stacjonarne: Wykłady: 30 Ćwiczenia: 30. niestacjonarne: Wykłady: 18 Ćwiczenia: 18

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Spacery losowe generowanie realizacji procesu losowego

Recenzenci: prof. dr hab. Henryk Domański dr hab. Jarosław Górniak

Analiza porównawcza wybranych metod analizy skupień w grupowaniu jednostek o złożonej strukturze grupowej

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Podstawowe pojęcia statystyczne

ANALIZA STRUKTURY WIEKOWEJ ORAZ PŁCIOWEJ CZŁONKÓW OFE Z WYKORZYSTANIEM METOD TAKSONOMICZNYCH

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Matematyka dyskretna - wykład - część Podstawowe algorytmy kombinatoryczne

PORZĄDKOWANIE LINIOWE BŁĘDY PRZY INTERPRETACJI WYNIKÓW ORAZ SPOSÓB ICH ELIMINACJI

Elementy statystyki wielowymiarowej

Kierunek i poziom studiów: Biologia, poziom drugi Sylabus modułu: Metody statystyczne w naukach przyrodniczych

Analiza składowych głównych. Wprowadzenie

Monte Carlo, bootstrap, jacknife

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

Skalowanie wielowymiarowe idea

Przykład 1. (A. Łomnicki)

WYKAZ PUBLIKACJI I. Artykuły Ia. Opublikowane przed obroną doktorską

Badanie rozwoju społeczno-gospodarczego województw - wpływ metodyki badań na uzyskane wyniki

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

Zmienne zależne i niezależne

Testy post-hoc. Wrocław, 6 czerwca 2016

Kurs Chemometrii Poznań 28 listopad 2006

WSPÓŁCZYNNIK DWUMODALNOŚCI BC I JEGO ZASTOSOWANIE W ANALIZACH ROZKŁADÓW ZMIENNYCH LOSOWYCH

Rozdział 8. Regresja. Definiowanie modelu

Badania eksperymentalne

OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ DLA DANYCH PORZĄDKOWYCH. 1. Wstęp

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Recenzja rozprawy doktorskiej mgr Bartosza Rymkiewicza pt. Społeczna odpowiedzialność biznesu a dokonania przedsiębiorstwa

Ekonometria. Zastosowania Metod Ilościowych 30/2011

doc. dr Beata Pułska-Turyna Zarządzanie B506 mail: mgr Piotr J. Gadecki Zakład Badań Operacyjnych Zarządzania B 505.

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

ANALIZA ZALEŻNOŚCI MIĘDZY OCENAMI MINU WSTĘPNEGO KANDYDATÓW NA ROK AK. 2002/2003 NA ŚWIADECTWIE DOJRZAŁOŚCI A WYNIKAMI EGZA-

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

Modelowanie i obliczenia techniczne. dr inż. Paweł Pełczyński

STATYSTYKA I DOŚWIADCZALNICTWO

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Taksonomia numeryczna co to jest?

Ilustracja metody Monte Carlo obliczania pola obszaru D zawartego w kwadracie [a,b]x[a,b]

Optymalizacja ciągła

Możliwość zastosowania wielowymiarowej analizy porównawczej w ocenie dokonań gospodarki leśnej. Edward Nowak

HIERARCHICZNE PROCEDURY AGLOMERACYJNE W BADANIU POZIOMU I STRUKTURY KOSZTÓW PUBLICZNYCH UCZELNI AKADEMICKICH

Symulacyjna analiza efektywnoêci sieci neuronowych w klasyfikacji bezwzorcowej

PRZEWODNIK PO PRZEDMIOCIE

WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI

ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

TRZYDZIEŚCI KONFERENCJI TAKSONOMICZNYCH KILKA FAKTÓW I REFLEKSJI 1 THIRTY TAXONOMIC CONFERENCES SOME FACTS AND REFLECTIONS

Stanisław Cichocki. Natalia Nehrebecka

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

Modelowanie niezawodności prostych struktur sprzętowych

Załóżmy, że obserwujemy nie jedną lecz dwie cechy, które oznaczymy symbolami X i Y. Wyniki obserwacji obu cech w i-tym obiekcie oznaczymy parą liczb

10. Elementy kombinatoryki geometrycznej: suma kątów wielokąta,

Sterowanie wielkością zamówienia w Excelu - cz. 3

Analiza skupień. Idea

Copyright by Wydawnictwo Naukowe Scholar, Warszawa 2000, 2008

I. OGÓLNE INFORMACJE PODSTAWOWE O PRZEDMIOCIE. Nie dotyczy. podstawowy i kierunkowy

Programowanie celowe #1

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

R-PEARSONA Zależność liniowa

STATYSTYKA MATEMATYCZNA

BADANIE ZAUFANIA DO INSTYTUCJI FINANSOWYCH W POLSCE Z WYKORZYSTANIEM ANALIZY KORESPONDENCJI

Testowanie hipotez statystycznych.

Krakowska Akademia im. Andrzeja Frycza Modrzewskiego. Karta przedmiotu. obowiązuje studentów, którzy rozpoczęli studia w roku akademickim 2014/2015

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Statystyka społeczna. Liczba godzin stacjonarne: Wykłady: 15 Ćwiczenia: 15. niestacjonarne: Wykłady: 9 Ćwiczenia: 9

KADD Minimalizacja funkcji

ANALIZA DYNAMIKI DOCHODU KRAJOWEGO BRUTTO

Politechnika Krakowska im. Tadeusza Kościuszki KARTA PRZEDMIOTU

Niepewności pomiarów

Stanisław Cichocki. Natalia Nehrebecka Katarzyna Rosiak-Lada

STATYSTYKA OPISOWA. Dr Alina Gleska. 12 listopada Instytut Matematyki WE PP

SCHEMAT ROZWIĄZANIA ZADANIA OPTYMALIZACJI PRZY POMOCY ALGORYTMU GENETYCZNEGO

Tabela 1. Macierz preferencji dotycząca pięciu przykładowych produktów (obiektów) i sześciu respondentów

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

KARTA PRZEDMIOTU. 12. PRZEDMIOTOWE EFEKTY KSZTAŁCENIA Odniesienie do kierunkowych efektów kształcenia (symbol)

Elementy Modelowania Matematycznego Wykład 4 Regresja i dyskryminacja liniowa

Własność iteracyjności składek ubezpieczeniowych wyznaczonych w oparciu o teorię skumulowanej perspektywy Kahnemana-Tversky

Statystyka w pracy badawczej nauczyciela

Metody Obliczeniowe w Nauce i Technice

Komputerowa Analiza Danych Doświadczalnych

Transkrypt:

AKADEMIA EKONOMICZNA IM. KAROLA ADAMIECKIEGO Prace naukowe EKONOMETRIA Materiały z XXVIII Konferencji Ekonometrycznei i X Seminarium Naukowego im. Zbigniewa Pawłowskiego Katowice - Kraków - Wrocław KATOWICE 1994

Redaktor Jadwiga Popławska-Mszyca VVydano za zgodą Rektora Akademii Ekonomicznej im. Karola Adamieckiego w Katowicach SKŁAD I ŁAMANIE KOMFUTEROWE WYKONANO W WYDAWNICTWIE UCZELNIANYM AE 2 94 100 + 75 egz. Ark. wgd. 5,8 Cena zł 30 000,-

Spis treści strona Andrzej Barczak, Lesław Fornal METODOLOGICZNE ASPEKTY ZASTOSOWANIA MODELI EKONOMETRYCZNYCH DO POTRZEB SWD... 5 Heilpern ŁĄCZENIE ROZKŁADÓW NIEPEWNOŚCI...... 15 Stanisław Grzegorz Kończak O PEWNEJ MODYFIKACJI PLANU CSP-1... 25 Grzegorz Kowalewski ZASTOSOWANIE "MACIERZY RZUTOWANIA" W DIAGNOSTYCE REGRESJI... 39 Krystyna Melich KILKA UWAG NA TEMAT DYNAMICZNEJ ANALIZY OBIEKTYWNEJ JAKOŚCI ŻYCIA... 49 Janusz Łyko, Józef Magiera ZASADA INERCJI W PROGNOZOWANIU GOSPODARCZYM... 63 Juliusz Siedlecki UWAGI DO METODY REGRESJI ITERACYJNEJ... 73 Marek Walesiak O PROBLEMIE WYBORU WŁAŚCIWEJ METODY W KLASYFIKACJI HIERARCHICZNEJ... 87 Henryk Zawadzki DETERMINISTYCZNY CHAOS W MATEMATYCZNYCH MODELACH ZJAWISK EKONOMICZNYCH... 97 Józef Biolik, Lesław Fornal KILKA UWAG O PODZIALE KOSZTÓW NA STAŁE I ZMIENNE... 107

Marek Walesiak O PROBLEMIE WYBORU WŁAŚCIWEJ METODY W KLASYFIKACJI HIERARCHICZNEJ Niech dany będzie n-elementowy zbiór obiektów A={A,... 1 A }. Każdy 0 z obiektów opisany jest za pomocą wartości m zmiennych x,... 1,xm. Załóżmy, te chcemy dokonać podziału zbioru obiektów na względnie jednorodne (homogeniczne) klasy P,... 1 P H' spełniającego warunki zupełności, rozłączności i niepus t ości. Głównym celem klasyfikacji jest poznanie natury obiektów [2], tzn. badanie podobieństwa lub odrębności obiektów i ich zbiorów. Celem tym jest więc podział zbioru obiektów na klasy zawierające obiekty podobne ze względu na wartości zmiennych, wyrażających naturę obiektów. W praktycznych zastosowaniach najczęściej wykorzystywanymi metodami rozwiązania zagadnienia klasyfikacji zbioru obiektów są hierarchiczne metody aglomeracyjne. Są one stosunkowo najlepiej opracowane pod względem metodologicznym i posiadają cenne walory praktyczne. Do niewątpliwych zalet tych metod należy zaliczyć to, że: a) działają według jednej procedury (zwanej centralną procedurą aglomeracyjną), b) wyniki klasyfikacji przedstawione są w postaci ciągu klasyfikacji (istnieje zatem możliwość kontrolowania procesu klasyfikacji), c) wyniki klasyfikacji można przedstawić graficznie w formie dendrogramu (drzewka połączeń) wskazującego na kolejność połączeń między klasami). Hierarchiczna klasyfikacja aglomeracyjna rozpoczyna się od sytuacji, w której każdy obiekt badania Ai(i=l,..,n) tworzy początkowo jedną klasę Pr W związku z tym macierz odległości przyjmuje postać

88 Marek Walesiak d(p I'p 2)... d(p l'p o) O d(p 2,P ) 0 (l) gdzie: dik - odległość między klasami Pi,P k' i,k - numery klas. Hierarchiczne metody aglomeracyjne działają według centralnej procedury aglomeracyj n ej. Algorytm tej procedury jest nas tęp u jący [7]: l. Szuka się w macierzy odległości pary klas najbardziej podobnych (najmniej odległych od siebie). Niech otrzymanymi będą klasy Pi oraz P k. 2. Redukuje się liczbę klas o jeden łącząc klasy P i'p k w nową. 3. Przekształca się odległości (stosownie do metody) pomiędzy połączonymi klasami Pi,P k oraz pozostałymi klasami. 4. Powtarza się kroki 1-3 do chwili, gdy wszystkie obiekty znajdą się w jednej klasie. Różnice w procedurach metod aglomeracyjnych wynikają z odmienności definiowania odległości międzyklasowej w etapie trzecim. Lance i Williams (15; 16] i Jambu [13] podali ogólny wzór na odległość międzyklasową, uwzględniający wszystkie znane metody klasyfikacji aglomeracyjnej. Odległość pomiędzy połączonymi klasami Piu P k i inną klasą P 1 jest zdefiniowana następująco [7] d(piu P k' P 1 ) = aid(pi,p 1 ) + akd(p k,p 1 ) +,Bd(Pi,P k) + + y l d(pi,p 1 )- d(p k'p 1 ) l + dih(pi) + dk(p k) + eh(p 1 ) (2) W formule (2) h(pi) oznacza poziom przyłączenia klasy Pi; 8=(ai, ak,,b, y, c5i, c5k, e) oznacza zbiór parametrów, których wartości zależą od konkretnego wariantu metody aglomeracyjnej. Formuła (2) bez parametrów (c5i, ók, e) została zaproponowana przez Lance'a i Williamsa [15; 16J, a formuła o postaci (2) przez Jambu [13].

O problemie wyboru... 89 Tablica l zawiera warto~ci parametrów charakteryzujących hierarchiczne metody aglomeracyjne. Tablica l Wartości parametrów charakteryzujących hierarchiczne metody aglomeracyjne Symboi a. l metody C. l l! C.2 l! C.3 w. l (wi+wk) C.4 l 2 C.5 (wi+wł) w+ C.6 (wi+wł) w+ C.7 W. l (wi+wk) C.8 l! C.9 l 2(1-73) f3 Y o. e Źródło l o -l o o Florek i inni [5) T Sneath [22] o l o o McQuitty [19]! SokaliSneath[26] o o o o Sokal i Michener [24) McQuitty [18] o o o o McQuitty [18] (wi+wk) o -w. -w l Jambu [13J l - - w+ w + w+ -wł o o o Word [28] - w+ Wishart [29] -wi wk o o o Sokal i Michener [24] (wi+wk) 2 Gower [8] -l o o o Lance i Williams [15] 4 Gower [8] {3(<1) o o o Lance i Wiiiiams [15) Symbol metody C. l C.2 C.3 C.4 Nazwa metody Pojedynczego połączenia (Single link) Kompletnego połączenia (Coplete łink) Średniej grupowej (Group average link) Ważona średnia grupowa (Weighted average link)

90 Marek Wałesiak C.5 C.6 C.7 C.8 C.9 Wewnątrzgrupowa suma kwadratów odległo~ci (Within-group sum of squares distances) Powiększona suma kwadratów odległości (Incremental sum of squares) Środka ciężkości (Centroid) Medianowa (Median) Giętka (Fłexible) Źródło: Opracowano na podstawie prac [3; 7]. Zagadnienie klasyfikacji zbioru obiektów przy użyciu hierarchicznych metod aglomeracyjnych wymaga rozwiązania problemu wyboru wla~ciwej metody klasyfikacji dla danego typu danych empirycznych (z uwagi na to, że metody klasyfikacji dostarczają na ogół różnych podziałów zbioru obiektów). W związku z tym, że wyróżnia się 9 aglomeracyjnych metod hierarchicznych (tablica l) przed ich użytkownikiem stoi nie lada problem, tzn. którą (lub które) z nich rekomendować w konkretnych badaniach empirycznych. Problem ten jest jeszcze większy, gdy rozważa się nie tylko aglomeracyjne metody hierarchiczne, ale również innego typu metody. Trzeba zdać sobie w tym miejscu sprawę z tego, że na pytanie, która z metod jest właściwa w konkretnych badaniach empirycznych nie uzyskamy jednoznacznej odpowiedzi. Do rozwiązania problemu wyboru właściwej, dla danego typu danych empirycznych, metody klsyfikacji proponuje się w literaturze przedmiotu niżej przedstawione podejścia [7]. W pierwszym z nich poprawność poszczególnych metod ocenia się na podstawie zadanych typów struktur danych. Dana metoda klasyfikacji jest poprawna, jeśli wyniki klasyfikacji uzyskane za jej pomocą odpowiadają znanej strukturze danych. Przykłady zastosowania tego typu podejścia można znaleźć między innymi w pracach: Milligana (20], Grabińskiego [10] i Grabińskiego, Wydymusa i Zeliasia [9]. Podstawową wadą tego podejścia jest to, że opiera się na wygenerowanych strukturach danych, w których konfiguracje obiektów przedstawiane są na ogół w przestrzeniach dwuwymiarowych i trójwymiarowych. Trudno jest więc uogólnić wyniki na przypadek wielowymiarowy. Nawet wtedy, gdy podejście to opiera się na danych symulacyjnych (uzyskanych za pomocą odpowiednio skonstruowanych wielowymiarowych generatorów zmiennych losowych o zadanej postaci analitycznej rozkładu) trudno jest uogólnić wyniki, ponieważ każda empirycznie uzyskana stru-

O problemie wyboru... 91 ktura danych jest inna i tak uzyskane wnioski mają ograniczony zasięg zastosowania. Podejście drugie polega na tym, że do klasyfikacji zbioru obiektów wykorzystuje się wszystkie metody z tablicy l (C.I-C.9). Następnie ocenia się zgodność wyników klasyfikacji i wybiera się te metody, które dają zbliżone wyniki. Wyniki klasyfikacji przy użyciu tych metod podlegają w dalszej fazie syntetyzacji w celu wyłonienia zgodnej klasyfiakcji. W podejściu trzecim za właściwą, dla danego typu danych, metodę klasyfikacji należy uznać taką, która daje minimalne zniekształcenia przy transformacji wyjściowej macierzy odległości (dik] w macierz wartości kocenetycznych (hik] (inaczej wartości poziomu połączenia klas w dendrogramie). Mierniki pomiaru zniekształcenia przy transformacji (dik]... (hik) zaproponowali między innymi Sokal i Rohlf [25], Hartigan (11 ], Jardine i Sibson (14]. W tablicy 2 przedstawiono trzy takie mierniki. Małe wartości 0.2 i 0.3 oraz duże wartości 0.1 oznaczają małe zniekształcenia przy transformacji (dikl -+ [hi 1 J przez daną metodę klasyfikacji. Pewną słabością oparcia się przy wyborze właściwej (dla danego typu danych) metody klasyfikacji na miarach tego typu jest to, że wybieraną przez 0.1 jest C.3 - średniej na ogół metodą grupowej (Sokal i Rohlf [25], Sneath [23]), a przez 0.3 jest C.l - pojedynczego połączenia (Gordon [7]). Tablica 2 Miary zniekształcenia przy transformacji (dikl -+ (hik] Lp. Nazwa Miara Źródło 0.1 współczynnik Sokal i Rohlf [24] korelacji kofenetycznej?. ( dik - a )(hik - rr) l,k (4 ( dik - n )2 2: (hik - rr) 2 J l,k l,k l 2 0.2 suma kwadra- Hartigan [11] tów odchyleń fr wik (dik- hik) 2 ' 0.3 metryka Min- kawskiego,[~ ldik- hik,i] (0<A:5l) max i,k {ldik- hikl} ().=0).t Jardine i Sibson [14] wik- wagi (na ogół wszystkie odległości są jednakowo ważne, więc wik == 1 dla każdego i,k) Źródło: Opracowano na podstawie prac: Gordona [7], Carmacka [3].

92 Marek Walesiak W czwartym podejściu analizuje się formalne własności metod klasyfiakcji, które stanowią kryterium wyboru właściwej metody. Pierwsze własności formalne wypracowali Jardine i Sibson [14]. Zostały one następnie wzbogacone o nowe w pracach: Fishera i Van Nessa [4), Van Nessa [27], a zwięzły ich przegląd w literaturze zawierają monografie: Gradona [6), Pociecha (21 ], Ajvazjana, Bezaeva, Staroverova [l]. Wybrane własności następujących punktów: formalne metod klasyfikacji można ująć w postaci a) własności jednoznaczności (najlepszego obrazu) - jest to warunek konieczny, który powinna spełniać każda metoda klasyfikacji. Własność ta oznacza, że kolejność w jakiej obiekty są klasyfikowane nie ma wpływu na wynik klasyfikacji. Inaczej mówiąc podziału na klasy nie można poprawić przez zmian<( wstctpncgo uporządkowania obiektów, b) własność wypukłości - metody klasyfikacji posiadają tę własność, jeżeli w rezultacie ich zastosowania otrzymuje się podział zbioru obiektów A na klasy P l'...,p H' w którym wypukłe otoczenia klas nie przecinają się, c) własność poprawnej struktury według klas - wszystkie odległości wewnątrzklasowe są mniejsze od wszystkich odległości międzyklasowych, d) własność poprawnej struktury według drzewka połączeń - metody klasyfikacji posiadają tę własność, jeżcli rezultaty klasyfikacji hierarchicznej zbioru obiektów dadzą się przedstawić w postaci drzewka połączeń (dendrogramu) zgodnego z kolejnością podobieństwa mictdzy elementami tego zbioru (wartości poziomu połączenia klas hik rozłożone są monotonicznie rosnąco, gdy stosujemy miary odległości między obiektami), e) własność monotoniczności- metody klasyfikacji posiadają tę własność, jeżeli monotoniczna transformacja każdego elementu macierzy odległości nie zmienia wyników klasyfikacji, f) własność powtarzania punktów - metody klasyfikacji posiadają tę własność, jeśli po dodaniu jednego lub wielu obiektów, identycznych z obiektami należącymi do klas P l'..,p H' i ponownym zastosowaniu danej metody granice klas nie zmienią się (zmieni się tylko ich liczebność), g) własność opuszczania klas - niech dany będzie podział zbioru obiektów A na klasy P l'...,p k,...,p H" Jeśli po odrzuceniu obiektów należących do klasy P k i ponownym zastosowaniu algorytmu klasyfikacji otrzymamy podział zbioru A-Pk na klasy Pl'...,Pk_ 1,Pk+l'...,PH to dana metoda klasyfikacji posiada własność opuszczania klas.

O problemie wyboro... 93 W tablicy 3 syntetycznie przedstawiono formalne własno~ci hierarchicznych metod aglomeracyjnych. Znajomo~ć okre~lonych własno~d poszczególnych metod klasyfikacji pozwala na wła~ciwe ich wykorzystanie w badaniach empirycznych. W pracy prezentowany jest pogląd, te oparcie się w tak istotnym problemie jak wybór wła~ciwej metody klasyfikacji tylko na kryteriach formalnych może spowodować błędne wyniki, które nie odpowiadają logiczno-intuicyjnej interpretacji obserwowanych zjawisk. Od badacza wykorzystującego w badaniach metody klasyfikacji wymaga się dwojakiego rodzaju umiejętno~ci, tzn. w zakresie wybranej dyscypliny badawczej (merytoryczna znajomo~ć zagadnienia) oraz w zakresie opanowania metod statystycznej analizy wiełowymiarowej (metodologiczna znajomo~ć zagadnienia), wyrażające naukową swobodę badacza. Formalne własno~ci hierarchicznych metod aglomeracyjnych Tablica 3 Symbol Najle- Wypu- Poprawnej struk- Mono- Powta- Opus z- Źródło metody pszego kłoś ci tury według klas tonicz- rzania czania obrazu kjas drzew- n ości punk- klas ka połą- t ów czeń C. l + - + + + + + [6) C.2 + - + + + + + [6) C.3 + - + + - - + [6) C.4 + - + + - - + [21] C.5 + X X + X X X C.6 + + - + - - + [6] C.7 + - - - - - + [12] C.8 + X X - X X X C.9 ' + X X + X X X + - spełnia, - - nie spełnia, x - brak danych Źródło : Opracowanie własne na podstawie prac: Gordona [6], Pociecha [21 ], Hussaina [12).

94 Marek Walesiak Literatura 1. Ajvazjan S.A, Bezaeva Z.J., Staroverov O.V.: Klassifikacija mnogomiernych nabludenij. Statistika, Moskva 1974. 2. Borys T.: Kntegoria jakości w statystycznej analizie porównawczej. Prace Naukowe. AE, Wrocław 1984, nr 284. 3. Cormack R.M.: A Review of Classification (Vith Discussion). "JRSS" 1971, Part. 3, p. 321-367. 4. Fisber L., Van Ness J. W.: Admissible Clustering Procedures. "Biometrika" 1971, No l, p. 91-104. 5. Florek K, Łukasiewicz J., Perkal J., Steinhaus H., Zubrzycki S.: Taksonomia wrocławska. "Przegląd Antropologiczny" 1951, nr 17, s. 193-211. 6. Gordon AD.: Classification. Chapmao and Hall, London 1981. 7. Gordon AD.: A Review of Hierarchical Classification. "JRSS" 1987, p. 119-137. 8. Gover J.C.: A Comparison of Some Methods of Cłuster Analysis. "Biometrics" 1967, No 23, p. 623-638. 9. Grabiński T., Wydymus S., Zelia A: Metody taksonomii numerycznej w modelowaniu zjawisk społeczno-gospodarczych. P~, Warszawa 1989. 10. Grabiński T.: Problemy analizy poprawności procedur taksonomicznych. W: Taksonomia - teoria i jej zastosowania. Praca zbiorowa pod red. J. Pociecha. AE, Kraków 1990. 11. Hartigan J.A: Representation of Symilarity Matrices by Trees. "JASA" 1967, No 62, p. 1140-1158. 12. Hussain M.: Taksonomiczne metody podziału zbiorów skończonych. AE, Kraków 1982. 13. Jambu N.: Classification Automatique pour /'Analyse des Donnees. Tome l. Dunod, Paris 1978. 14. Jardine N., Sibson R.: Mathematical Tax.onomy. Wilcy, New York 1971. 15. Lance G.N., Williams W.T.: A Generalized Soning Strategy for Computer C/assifications. "Nature" 1966, No 212, p. 218. 16. Lance G.N., Williams W.T.: A Generał Theory of Classifica tory Sorting Strategies. l Hierarchical Systems. "Computer Journal" 1967, No 9, p. 373-380. 17. McQuitty L. L.: Similarity Analysis by Reciprocal Pairs for Discrete and Continu- ous Data. "Educational Psychological Measurement" 1966, No 26, p. 825-831. 18. McQuitty L.L.: Expansion of Similarity Analysis by Reci procal Pairs for Discrete and Continuous Data. "Educational Psychological Measurement" 1967, No 27, p. 253-255.

O problemie wyboru... 95 19. McQuitty L. L.: Hierarchica/ Linluzge Analysis for the Jso Jatlon of Types. "Educationał Psychołogicał Measurement" 1960, No 20, p. 55-67. 20. Miłłigan G. W.: A Review of Monte Carlo Tests ofcluster Analysis. "Multivariance Behaviour Research" 1981, No 16, p. 379-407. 21. Podecha J.: Statystyczne metody segmentacji rynku. Zeszyty Naukowe. AE, Kraków 1986. 22. Sneath P.H.A: The Application of Computers to Taxonomy. "Journal Genetlcal Microbiology" 1957, No 17, p. 201-226. 23. Sneath P.H.A: Evaluation of Cłustering Methods (With Discussion). In: Numerical Tax.onomy. (AJ. Cole, ed.). Academic Press London 1969, p. 257-271. 24. Sokał R. R., Michener C.D.: A Statistical Method for Evalu ating Systemat/c Relationships. "University Kansas Sciences Bułłetin" 1958, Nr 38, p. 1409-1438. 25. Sokał R.R., Rohlf F.J.: The Cmparison o[ Dndrograms by Objective Methods. "Taxon" 1962, No 11, p. 33-40. 26. Sokal R.R., Sneath P.H.A: Principles o[ Numerical Taxonomy. W.H. Freeman, San Francisco 1963. 27. Van Ness J. W.: Admissible Cłustering Procedures. "Biometrika" 1973, No 60, p. 422-424. 28. Ward J.H.: Hierarchical Grouping to Optimize an Objective Function. "JASA" 1963, No 58, p. 236-244. 29. Wishart D.: An Algorithm for Hierarchica/ Classifications. "Biometrlcs" 1969, No 25, p. 165-170.