Dr Krzysztof Piontek. Metody taksonomiczne Klasyfikacja i porządkowanie



Podobne dokumenty
OPTYMALIZACJA KOSZTÓW PRZEBUDOWY PORTFELA JAKO ZADANIE TRANSPORTOWE. 1. Problem badawczy

SYSTEMY UCZĄCE SIĘ WYKŁAD 5. LINIOWE METODY KLASYFIKACJI. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

PROBLEMATYKA DOBORU MIARY ODLEGŁOŚCI W KLASYFIKACJI SPEKTRALNEJ DANYCH SYMBOLICZNYCH

Zastosowanie procedur modelowania ekonometrycznego w procesach programowania i oceny efektywności inwestycji w elektroenergetyce

Parametry zmiennej losowej

Efekty zaokrągleń cen w Polsce po wprowadzeniu euro do obiegu gotówkowego

Definicje ogólne

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

max Wydział Elektroniki studia I st. Elektronika III r. EZI Technika optymalizacji Dr inż. Ewa Szlachcic

FOLIA POMERANAE UNIVERSITATIS TECHNOLOGIAE STETINENSIS Folia Pomer. Univ. Technol. Stetin. 2010, Oeconomica 280 (59), 13 20

Prawdopodobieństwo i statystyka r.

MODEL ROZMYTY WYBORU SAMOCHODU W NAJWYŻSZYM STOPNIU SPEŁNIAJĄCEGO PREFERENCJE KLIENTA

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

= σ σ. 5. CML Capital Market Line, Rynkowa Linia Kapitału

ZAJĘCIA 3. Pozycyjne miary dyspersji, miary asymetrii, spłaszczenia i koncentracji

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów.

Zasady wyznaczania minimalnej wartości środków pobieranych przez uczestników od osób zlecających zawarcie transakcji na rynku terminowym

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

STATYSTYKA. Zmienna losowa skokowa i jej rozkład

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

EFEKTYWNA STOPA PROCENTOWA O RÓWNOWAŻNA STPOPA PROCENTOWA

WYZNACZENIE ROZKŁADU TEMPERATUR STANU USTALONEGO W MODELU 2D PRZY UŻYCIU PROGRMU EXCEL

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1

Problem plecakowy (KNAPSACK PROBLEM).

ROZWIĄZYWANIE DWUWYMIAROWYCH USTALONYCH ZAGADNIEŃ PRZEWODZENIA CIEPŁA PRZY POMOCY ARKUSZA KALKULACYJNEGO

Plan wykładu. Sztuczne sieci neuronowe. Uczenie nienadzorowane (bez nauczyciela) Uczenie nienadzorowane - przykłady

Eugeniusz Rosołowski. Komputerowe metody analizy elektromagnetycznych stanów przejściowych

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

Ćw. 5. Wyznaczanie współczynnika sprężystości przy pomocy wahadła sprężynowego

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

Analiza kohortowa czasu istnienia mikroprzedsiębiorstw w Gdańsku

ZASADY WYZNACZANIA DEPOZYTÓW ZABEZPIECZAJĄCYCH PO WPROWADZENIU DO OBROTU OPCJI W RELACJI KLIENT-BIURO MAKLERSKIE

LABORATORIUM TECHNIKI CIEPLNEJ INSTYTUTU TECHNIKI CIEPLNEJ WYDZIAŁ INŻYNIERII ŚRODOWISKA I ENERGETYKI POLITECHNIKI ŚLĄSKIEJ

dr inż. ADAM HEYDUK dr inż. JAROSŁAW JOOSTBERENS Politechnika Śląska, Gliwice

Badania operacyjne w logistyce i zarządzaniu produkcją

Matematyka finansowa r.

ZESTAW ZADAŃ Z INFORMATYKI

METODY OCENY STOPNIA ZAAWANSOWANIA TELEINFORMATYCZNEGO POLSKICH PRZEDSI BIORSTW

Eksploracja danych. Grupowanie danych

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

± Δ. Podstawowe pojęcia procesu pomiarowego. x rzeczywiste. Określenie jakości poznania rzeczywistości

N ( µ, σ ). Wyznacz estymatory parametrów µ i. Y które są niezależnymi zmiennymi losowymi.

Natalia Nehrebecka. Wykład 2

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Systemy Ochrony Powietrza Ćwiczenia Laboratoryjne

Weryfikacja hipotez dla wielu populacji

BADANIE WYBRANYCH PROCEDUR I STRATEGII EKSPLOATACYJNYCH

PERMUTACJE Permutacją zbioru n-elementowego X nazywamy dowolną wzajemnie jednoznaczną funkcję f : X X X

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

Badania sondażowe. Braki danych Konstrukcja wag. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

Zjawiska masowe takie, które mogą wystąpid nieograniczoną ilośd razy. Wyrazów Obcych)

ZASTOSOWANIE WYBRANYCH ELEMENTÓW ANALIZY FUNDAMENTALNEJ DO WYZNACZANIA PORTFELI OPTYMALNYCH

I. Elementy analizy matematycznej

Udoskonalona metoda obliczania mocy traconej w tranzystorach wzmacniacza klasy AB

1. Wstępna geometria skrzyżowania (wariant 1a)

7. Wykład VII: Warunki Kuhna-Tuckera

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

Lista 6. Kamil Matuszewski 26 listopada 2015

Referat E: ZABEZPIECZENIA OD SKUTKÓW ZWARĆ WIELKOPRĄDOWYCH W POLACH ROZDZIELNI SN

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

Statystyka. Zmienne losowe


ĆWICZENIE 1 BADANIE WYBRANYCH PROCEDUR I STRATEGII EKSPLOATACYJNYCH

MODYFIKACJA KOSZTOWA ALGORYTMU JOHNSONA DO SZEREGOWANIA ZADAŃ BUDOWLANYCH

SZTUCZNA INTELIGENCJA

Reprezentacje grup symetrii. g s

Procedura normalizacji

Natalia Nehrebecka. Zajęcia 4

Kier. MTR Programowanie w MATLABie Laboratorium Ćw. 12

wtedy i tylko wtedy, gdy rozwiązanie i jest nie gorsze od j względem k-tego kryterium. 2) Macierz części wspólnej Utwórz macierz

11/22/2014. Jeśli stała c jest równa zero to takie gry nazywamy grami o sumie zerowej.

Zestaw zadań 4: Przestrzenie wektorowe i podprzestrzenie. Liniowa niezależność. Sumy i sumy proste podprzestrzeni.

KONSTRUKCJA OPTYMALNYCH PORTFELI Z ZASTOSOWANIEM METOD ANALIZY FUNDAMENTALNEJ UJĘCIE DYNAMICZNE

PROBLEMY BADANIA NIEZAWODNOŚCI SIŁOWNI TRANSPORTOWYCH OBIEKTÓW OCEANOTECHNICZNYCH

Modele wieloczynnikowe. Modele wieloczynnikowe. Modele wieloczynnikowe ogólne. α β β β ε. Analiza i Zarządzanie Portfelem cz. 4.

Bayesowskie modele w diagnostyce (seminarium)

Metody badań kamienia naturalnego: Oznaczanie współczynnika nasiąkliwości kapilarnej

Analiza Matematyczna Ćwiczenia. J. de Lucas

METODA USTALANIA WSPÓŁCZYNNIKA DYNAMICZNEGO WYKORZYSTANIA ŁADOWNOŚCI POJAZDU

5. OPTYMALIZACJA GRAFOWO-SIECIOWA

SPOŁECZNA AKDAEMIA NAUK W ŁODZI

STATYSTYCZNA ANALIZA WYNIKÓW POMIARÓW

Kształtowanie się firm informatycznych jako nowych elementów struktury przestrzennej przemysłu

Statystyka Opisowa 2014 część 2. Katarzyna Lubnauer

Odczyt kodów felg samochodowych w procesie produkcyjnym

Proces decyzyjny: 1. Sformułuj jasno problem decyzyjny. 2. Wylicz wszystkie możliwe decyzje. 3. Zidentyfikuj wszystkie możliwe stany natury.

Typ może być dowolny. //realizacja funkcji zamiana //przestawiajacej dwa elementy //dowolnego typu void zamiana(int &A, int &B) { int t=a; A=B; B=t; }

TRANZYSTOR BIPOLARNY CHARAKTERYSTYKI STATYCZNE

Indukcja matematyczna

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

dy dx stąd w przybliżeniu: y

Natalia Nehrebecka. Zajęcia 3

WikiWS For Business Sharks

Portfele zawierające walor pozbawiony ryzyka. Elementy teorii rynku kapitałowego

Optymalizacja harmonogramów budowlanych - problem szeregowania zadań

Metody Numeryczne 2017/2018

Analiza porównawcza rozwoju wybranych banków komercyjnych w latach

Transkrypt:

Lteratura przegląd etod Studu podyploowe Analty Fnansowy Metody tasonoczne Klasyfaca porządowane Dzechcarz J. (pod red.), Eonoetra: etody, przyłady, zadana, Wydawnctwo Aade Eonoczne we Wrocławu, Wrocław, 2003, Grabńs T., Metody tasonoetr, Wydawnctwo Aade Eonoczne w Kraowe, Kraów, 992 T. Grabńs, S. Wydyus, A. Zelaś, Metody tasono nueryczne w odelowanu zaws społeczno-gospodarczych, PWN, Warszawa, 989, E. Nowa, Metody tasonoczne w lasyfac obetów społecznogospodarczych, Państwowe Wydawnctwo Eonoczne, Warszawa, 990, Dr Krzysztof Ponte www.fre.ue.wroc.pl www.ponte.ue.wroc.pl W. Ostasewcz (pod red.), Statystyczne etody analzy danych, Wydawnctwo AE we Wrocławu, Wrocław, 998, M. Walesa, Metody analzy danych aretngowych, PWN, Warszawa, 996, Wanda Rona Chelowec (pod red.) Zastosowane etod eonoetryczno-statystycznych w zarządzanu fnansa załadów ubezpeczeń. Wydawnctwo AE we Wrocławu, 2004 2 Lteratura (cd) na rynu aptałowy Waldear Tarczyńs, Małgorzata Łunewsa Dywersyfaca ryzya na pols rynu aptałowy Wydawnctwo Placet, Warszawa, 2004 Małgorzata Łunewsa, Waldear Tarczyńs Metody welowyarowe analzy porównawcze na rynu aptałowy Wydawnctwo PWN, Warszawa, 2006 Do oceny/porównana pewnych obetów na podstawe welu cech wyorzystue sę etody tasonoczne, tóre dzelą sę na etody grupowana oraz porządowana lnowego. ocene/porównanu ogą podlegać np. załady ubezpeczeń fundusze nwestycyne spół gełdowe saochody, doy, wczasy, uczelne wyższe, potencalne żony, potencaln ężowe 3 4

grupowana METODY TAKSONOMICZNE porządowana Podstawowy poęca są obety cechy tych obetów. Poęca te są podstawowe dla wszelch etod tasonocznych. Obeta nazywa sę sończony zbór ednoste (np. spółe gełdowych) podlegaących analze. Ω = { ω, ω, ω,, ω },,,, n 2 3 W dalsze n oznaczać będze lczbę analzowanych obetów lasyfac dysrynac wzorcowe bezwzorcowe herarchczne neherarchczne wzorca antywzorca agloeracyne bezpośredne podzałowe optyalzacyno-teracyne Cecha są zaś charaterystyczne, stotne z puntu wdzena analzy właścwośc ednoste badanego zboru {,,,, } X =, 2, 3,, M W dalsze częśc pracy M oraz oznaczać będą odpowedno lczbę zennych opsuących obety w potencalny oraz ogranczony zborze cech. 5 6 Właścwe przeprowadzona analza tasonoczna (grupowane lub porządowane) przebega według oreślone procedury. W zależnośc od rozpatrywane onretne etody procedura ta oże sę różnć w szczegółach. W ogólnośc wyena sę następuące etapy: ) Sforułowane celu zaresu analzy oraz wstępnych hpotez badawczych. Oreśla sę podstawowe cele badana, doonue wyboru zboru obetów oraz puntów czasowych analzy. 2) Dobór cech dagnostycznych sal poarów. Oreśla sę potencalny zbór cech dagnostycznych oraz analzue wpływ wyboru zennych z poszczególnych sal poaru na dalsze etapy badana. 7 3. Zebrane danych statystycznych. Groadz sę nezbędne dane o obetach, ewentualne doprowadza dane do porównywalnośc, przeprowadza sę analzę obserwac o anoralnych pozoach, nterpolacę brauących obserwac. Etap ten ończy sę uzysane danych w postac acerzy X = n M, w tóre ażdy obet ω ( =, 2,..., n) opsany est przez [ M ]-wyarowy wetor cech = [,,..., ]. 2 M Netrudno zauważyć, że ażdy obet oże być węc nterpretowany ao punt w M-wyarowe przestrzen cech. Własność ta est podstawą węszośc etod tasonocznych. 8

tuta zaczynaą sę właścwe etody loścowe. 4. Dobór optyalnego podzboru zennych dagnostycznych. Ze zboru potencalnych zennych usuwane są zenne quas-stałe oraz powelaące nforacę. Etap ten ończy wyznaczene ze zboru M cech potencalnych lsty zennych ostateczne wyorzystywanych w dalszych analzach. 6. Realzace właścwe etody tasonoczne. Na podstawe zgroadzonych danych oraz wybrane etody doonue sę grupowana lub porządowana lnowego analzowanych obetów. 5. Wybór etody oraz paraetrów etody. W zależnośc od celu badana wybera sę odpowedn algoryt grupowana lub porządowana. Nezbędne est też (w zależnośc od etody) ewentualne oreślene lczby las, techn przeształcana zennych na styulanty, wyboru systeu wag dla poszczególnych cech, noralzac zennych oraz wyorzystywanych ar odległośc. 9 7. Weryfaca uzysanych wynów oraz ch erytoryczna nterpretaca. Spośród różnych ożlwych wynów wybera sę rozwązane nalepsze pod względe aegoś ustalonego ryteru oraz doonue sę erytoryczne nterpretac wynów, np. nazwana uzysanych las. 0 Za punt wyśca do dalszych rozważań przyue sę węc sytuacę, w tóre ażdy z n obetów opsany został przez M potencalnych cech reprezentowanych przez zenne X, ( =, 2,..., M ), co prowadz do uzysana (dla poedynczego puntu czasu) dwuwyarowe acerzy: 2 M 2 22 2 M X = n n 2 nm wartośc różnych cech dla tego, saego obetu wartośc te sae cechy dla różnych obetów w tóre to wartość -te zenne dla -tego obetu. Dobór optyalnego podzboru zennych dagnostycznych Jest to etap, od tórego w duże erze zależy wyn ońcowy procedury lasyfac lub porządowana. Ze zboru zennych potencalnych należy wyłonć ostateczny zbór zennych (cech): a) podeśce erytoryczne (pozastatystyczne), w tóry za podstawę uznae sę wedzę espercą na teat powązana poszczególnych cech z analzowany zagadnene. Podeśce erytoryczne est podeśce subetywny trudny do algorytzac. b) podeśca foralnego, w tóry analzue sę obetywne (loścowe, statystyczne) własnośc realzac poszczególnych cech dla zboru obetów. Nalepsze wyn uzysue sę dzę stosowanu obu podeść łączne. 2

Aby zenną ożna było zalczyć do trafne dobranego ostatecznego zboru cech, us sę ona charateryzować odpowedn pozoe zróżncowana e wartośc dla poszczególnych obetów ne oże być stałą an quas-stałą. Naczęśce wyorzystywany est współczynn zennośc dane zenne: s V =. W zależnośc od wyogów przyue sę wartość rytyczną zenne V (naczęśce 0%), ponże tóre zenną uznae sę za quas-stałą lub w srany przypadu stałą usuwa ze zboru zennych. 3 Koleny etap doboru zennych obeue analzę współczynnów orelac ędzy para poszczególnych zennych. r2 r M r 2 r 2 M R = r = rm rm 2 M M gdze r to oczywśce orelaca lnowa ędzy -tą -tą zenną. Cechy dagnostyczne, tóre zostaną ostateczne wybrane, pownny sę charateryzować: a) słaby sorelowane ędzy sobą cechy tae ne powelaą nforac, b) slny sorelowane z pozostały cecha ne wybrany do ostatecznego zboru zennych dagnostycznych cechy tae są dobry reprezentanta odrzuconych cech. 4 W przypadu netórych etod tasonocznych, szczególne etod porządowana lnowego, wyagane est rozpoznane charateru zennych ego uednolcene. Nezbędne est rozróżnene zennych będących styulanta, destyulanta nonanta, a następne naczęśce przeształcene destyulant nonant w styulanty. Styulantą oreśla sę zenną, tóre wysoe wartośc są pożądane z puntu wdzena charaterysty agregatowe, natoast nse wartośc są nepożądane. Dla destyulant est odwrotne, natoast dla nonant pożądane są pewne optyalne wartośc zennych. 5 Zenna X est styulantą, eśl dla obetów oraz zachodz placa: ( > ) ( ω ω ) Zenna est destyulantą, eśl dla obetów oraz zachodz placa: ( < ) ( ω ω ) Zenną nazyway nonantą, eśl dla obetu oraz zachodz placa: N N ( < ) ( ω ω ) " " oznacza relacę przewyższana N est nonalny pozoe zenne. 6

Oreślene charateru zennych oże odbywać sę na podstawe przesłane zarówno erytorycznych, a statystycznych. Jeśl to ożlwe, pownno sę wyorzystywać przesłan erytoryczne wynaące z charateru badanego zawsa. W węszośc etod oneczne est przeształcene zennych na styulanty We wszystch ponższych rozważanach sybol := oznacza podstawene. SKALE poarowe: ) nonalna olor oczu, sa produtu, 2) porządowa aość produtu, oleność na zawodach 3) przedzałowa teperatura (oc), czas, wyn fnansowy 4) lorazowa welośc sprzedaży, cena produtu, waga, wzrost, teperatura (w stopnach K) Zaleca sę natoast wybór w onretnych przypadach tach rozwązań, tóre gwarantuą, że przeształcona zenna: charateryzować sę będze podobny pozoe zennośc co zenna perwotna, posadać będze nterpretacę eonoczną (o le to ożlwe). 7 8 Destyulantę ożna przeształcć w styulantę, wyorzystuąc edno z danych podstaweń: a a) : =, gdze a R + (naczęśce a= ), est to rozwązane charaterystyczne dla zennych erzonych na sal lorazowe, b) : = c, gdze stałą c wybera sę naczęśce w ta sposób, by spełnała nerówność c a{ }. Wybór ta gwarantue neueność przeształcone zenne. Rozważa sę równeż naprostszy, szczególny przypade dla c = 0, czyl ' : =. Taże nonanty należy przeształcć w styulanty. Zenną -tą będącą nonantą z ustaloną wartoścą nonalną N przeształca w styulantę następuące przyładowe podstawene N : = 9 20

Ustalane systeu wag W przypadu etod porządowana lnowego ożlwe est równeż nadane poszczególny zenny zróżncowanego wpływu na ostateczny wyn procedury poprzez wprowadzene systeu wag (podreślene wpływu netórych zennych uważanych za ważnesze) Wag ogą być dobrane na podstawe wedzy erytoryczne espertów lub na podstawe techn foralno-statystycznych. Syste wag W dalsze częśc załada sę, że wag: ) są unorowane 0, ( =,2,3,, ), w 2) suuą sę do ednośc w=, = 3) odzwercedlaą ważność dane cechy, tzn. eśl cecha X est ważnesza od cechy X, to w> w. W przypadu techn statystycznych ustalena systeu wag doonue sę na podstawe zennych po przeształcenu na styulanty, ale przed noralzacą. 2 Taże w przypadu ustalana systeu wag ne a ednoznacznośc, tóre z rozwązań est nalepsze. Naczęśce stosue sę bądź to całowce subetywny zestaw wag espercch (w ty zestaw o równych wartoścach wag dla poszczególnych cech), bądź zestaw wag oparty na współczynnach zennośc. 22 Spośród welu ożlwych napopularnesze są następuące rozwązana : Noralzaca zennych a) dość popularne często wyorzystywane wag ednostowe (ednaowe): w =, ( =, 2,, ), gdze to oczywśce lczba cech dagnostycznych w ostateczny zborze cech dagnostycznych (po reduc), b) wag odzwercedlaące pozo zennośc cech dagnostycznych: V w =, ( =, 2,, ), V współczynn zennośc -te cechy lczony na l== V l podstawe cechy perwotne (przed standaryzacą!): V s =, ( =, 2,, ), Nezbędny zabege w przypadu stosowana etod grupowana porządowana zboru est noralzaca zennych. Je cele est sprowadzene zennych do wartośc porównywalnych, czyl pozbawene ch an oraz uednolcene rzędów welośc. W procese noralzac przeształca sę zenne weścowe w ta sposób, by posadały ednaową dyspersę erzoną odchylene standardowy lub rozstępe. 23 24

Naczęśce preferowana techna noralzac to standaryzaca: W wynu noralzac otrzyue sę acerz wartośc znoralzowanych dla poszczególnych obetów zennych: z =, s gdze: z znoralzowana (standaryzowana) wartość -te zenne dla -tego obetu, oraz s - średna odchylene standardowe dane cechy. z z2 z z2 z22 z 2 Z = zn zn2 z n wartośc znoralzowanych cech dla tego saego obetu Po standaryzac średna arytetyczna ażde przeształcone zenne z est równa 0, a odchylene standardowe wynos. wartośc te sae cechy dla różnych obetów lczbe cech uwzględnanych (po reduc!!) 25 26 Możlwe ary odległośc Metody tasonoczne w zdecydowane węszośc wyorzystuą fat, że rozpatrywane obety ożna przedstawć ao punty w przestrzen R (wyar przestrzen zgodny est z lczbą rozpatrywanych cech), a następne porównywać ch podobeństwa lub odległośc w welowyarowe przestrzen obserwac. Dwa obety są ty bardze podobne, ne sę różną. Marą tego zróżncowana są odpowedno zdefnowane ary odległośc w welowyarowe przestrzen cech. Funca odległośc ędzy dwoa obeta us spełnać warun etry, czyl: ω d : R R R + { 0} ω a postać: a) warune tożsaośc; punty dentyczne są nerozróżnalne: d ω, ω = 0, gdy ω = ω, ( ) b) warune neuenośc; punty nedentyczne ogą, ale ne uszą być rozróżnalne: d ω, ω 0, gdy ω ω, ( ) c) warune syetr odległość od obetu do oraz od do est taa saa d( ω, ω ) = d( ω, ω), dla dowolnych ω ω d) warune nerównośc tróąta: d ω, ω d ω, ω + d ω, ω, dla dowolnych ω, ω ω. ( ) ( ) ( ) 27 28

Zwąze ędzy podobeństwe odległoścą est oczywsty; węsza odległość, ty nesze podobeństwo. Możlwe est proste przelczane odległośc na podobeństwo odwrotne. W dalsze częśc orzystać będzey edna wyłączne z poęca odległośc. Przyładowe ary odległośc ędzy dwoa obeta Napopularneszą arą odległośc ędzy punta w przestrzen R est tzw. odległość Mnowsego dana następuący wzore: p p d( ω, ω ) = z z. = Po przeształcenu zennych na styulanty oraz znoralzowanu ożna przystąpć do wyznaczana odległośc ędzy obeta oraz, eśl dana procedura tego wyaga, ędzy obete a supse lub ędzy dwoa supsa. 29 Szczególny przypada etry Mnowsego są: a) dla p=, odległość esa, Hanga: d( ω, ω ) = z z, b) dla p= 2, odległość Euldesa: = 2 2 d( ω, ω ) = z z, = Naczęśce wyorzystywana est (zgodna z ntucyny rozuene odległośc) odległość Euldesa. 30 A odległość Euldesa + y 2 2 W etodach grupowana nezbędne est dodatowo oreślene ar odległośc ędzy obete a grupą obetów oraz ędzy dwoa zbora obetów. Przyładowe ary odległośc ędzy punte ω a supse G : a) średna odległość ędzy punte ω a supse G: d ( ω, G) = d ( ω, ω ), ω G, = gdze to lczba obetów w supsu G, odległość esa = +y y B b) asyalna odległość ędzy punte ω a punte należący do supsa G: d ( ω, G) = a { d ( ω, ω )}, ω G, c) nalna odległość ędzy punte ω a punte należący do supsa G: d ( ω, G) = n { d ( ω, ω )}, ω G, 3 32

Typowe ary odległośc puntu do supsa Przyładowe ary odległośc ędzy dwoa zbora obetów (supsa) d) odległość od puntu ω do środa cężośc supsa G: d ( ω, G) = d ( ω, ω), ω G, gdze: ω środe cężośc supsa G o współrzędnych : = [, 2,..., ], = =, =, 2,...,, a) średna odległość ędzy supsa b) odległość do nadalszego sąsada, c) odległość do nablższego sąsada, d) odległość ędzy środa cężośc, e) odległość ędzy nabardze podobny reprezentanta dla poszczególnych las Punty będące reprezentanta poszczególnych las (ary d) e)) wyznaczane są analogczne a dla ar odległośc punt supso. W erze d) odległość erzona est od tzw. reprezentanta, tóry naczęśce est punt abstracyny. 33 34 METODY TAKSONOMICZNE Metody grupowana grupowana porządowana Podstawowy poęce etod grupowana est poęce lasy lub nacze supsa obetów. lasyfac dysrynac wzorcowe bezwzorcowe herarchczne neherarchczne wzorca antywzorca agloeracyne podzałowe bezpośredne optyalzacyno-teracyne Metody tasonoczne dzel sę ogólne na etody uożlwaące: a) badane podobeństw obetów przez przydzelane ch do odpowednch las etody grupowana, b) uszeregowane obetów względe pozou aeś zenne syntetyczne etody porządowana lnowego. 35 Klasę defnue sę naczęśce: zbór obserwac (obetów), tóre są podobne, a przy ty obety należące do różnych las ne są podobne, regon w przestrzen welowyarowe, tóry zawera duże zagęszczene puntów tóry est oddzelony od nnych regonów obszara o ały zagęszczenu puntów. 36

Klasy ogą być znane bądź neznane przed procedurą grupowana. Prowadz to do podzału etod grupowana na: a) etody lasyfac gdy obety przydzelane zostaą do neznanych wcześne las, Klasyfaca Metody neherarchczne prowadzą do uzysana neuszeregowanych sups, w tórych supsa nższego rzędu ne zaweraą sę w supsach wyższego rzędu. b) etody dysrynac, gdy obety przyporządowane zostaą do wcześne zdefnowanych las. Czasa etody dysrynac oreśla sę ao lasyfacę wzorcową bądź rozpoznawane z nauczycele, a etody lasyfac ao lasyfacę bezwzorcową lub rozpoznawane bez nauczycela. 37 38 Klasyfaca Metody herarchczne prowadzą natoast do uzysana pełne herarch supeń z onotonczne wzrastaący współczynne podobeństwa, czyl do sytuac, w tóre supsa podobne tworzą supsa nadrzędne. Metody neherarchczne a) obety z edne lasy pownny być a nabardze podobne do sebe, b) obety z różnych las pownny być a nabardze nepodobne do sebe. Wszyste ożlwe podzały znaduą sę ędzy dwoa srany przypada, tóre występuą, gdy: a) procedura doprowadza do wyznaczena ednoeleentowych sups, tórych lczba równa sę lczbe analzowanych obetów, b) procedura doprowadza do wyznaczena ednego supsa zaweraącego wszyste analzowane obety. 39 Warto edna zaznaczyć, że z puntu przydatnośc nforacyne zarówno zbyt ała lczba las, a zbyt duża są newsazane. 40

Metody grupowana dzel sę naczęśce na etody bezpośredne oraz teracyno-optyalzacyne. W etodach bezpośrednch ońcowy (optyalny) wyn grupowana uzysue sę wprost. Przyłada tach etod są etody obszarowe, w tórych - wyarową przestrzeń dzel sę na rozłączne obszary, ogące być (w zależnośc od etody) naczęśce hperula lub hperosta. Obserwace zawarte w tych obszarach uznae sę za osobne lasy. Metody teracyno-optyalzacyne W etodach tych w olenych teracach procedury odyfowany est przydzał obetów do las, ta aby poprawć wartość func ocenaące aość podzału. Postawone zagadnene lasyfac ożna by sprowadzć do rozważena wszystch ożlwych podzałów zboru obetów na lasy, a następne porównać e według wybranego ryteru znaleźć nalepszy podzał. Podeśce tae est naczęśce neożlwe lub znaczne utrudnone ze względu na lość nezbędnych oblczeń, a co za ty dze czasochłonność procedury. 4 42 Lczbę ożlwych lasyfac zboru n-eleentowego do las wyraża tzw. lczba Strlnga II rodzau: n Sn = ( ) ( )!. = W przypadu, gdy ne est znana optyalna lczba las, należałoby rozpatrzyć Sn przypadów, gdze: S n n= Sn. = Dla newele lczby obetów prowadz to do znalezena nalepsze lasyfac (z puntu wdzena oreślonego ryteru) w sończony czase. Dla węsze lczby rozpatrywanych obetów wyaga to edna czasu oblczeń wyrażonego w dnach, latach, a nawet setach lat. Dla zboru 7 obetów (n = 7) wyagałoby to rozpatrzena S 7 = 82 864 869 804 przypadów lasyfac, co nawet przy założenu, że oputer oże wyznaczyć 000 odennych lasyfac na seundę, zaęłoby ponad 2 lata 7 esęcy. Trudno zaaceptować ta czasochłonną procedurę. 43 W zwązu z neożnoścą wyznaczena func aośc lasyfac dla wszystch ożlwych podzałów stosue sę etody teracyno-optyalzacyne. Zaleta tach procedur sprowadza sę do znaczne rótszego czasu oblczeń (w neorzystny przypadu ogranczonego asyalną lczbą terac procedury). Wadą est natoast ożlwość znalezena edyne asu loalnego func oreślaące aość lasyfac. Nabardze popularną etodą z te grupy est tzw. etoda średnch, znana w różnych warantach. 44

Herarchczne etody lasyfac Step 0 Step Step 2 Step 3 Step 4 Drugą grupą etod lasyfac, rozpatrywaną w nneszy opracowanu, są herarchczne etody lasyfac. a a b Metody herarchczne dzel sę na: b a b c d e ) łączena (agloerac) załada sę, że ażdy obet na początu procedury stanow osobne supso, a następne w olenych roach poszczególne obety supsa łączy sę w grupy wyższego rzędu aż do uzysana supsa obeuącego wszyste analzowane obety, 2) podzału załada sę początowo, że wszyste obety należą do ednego supsa, a następne w olenych roach procedury zbór ten dzal sę na ne lczne aż do uzysana sups ednoeleentowych. c d e d e c d e W dalsze częśc przedstawone zostaną wadoośc na teat etod agloeracynych. 45 46 Dzę wyorzystanu wynów etody herarchczne ożlwy est równeż podzał zboru obetów na nezaweraące sę lasy (ta podzał, a uzysue sę w etodach neherarchcznych). 0 Dagra dla 7 przyp. Metoda Warda Odległośc euldesowe W celu uzysana podzału strutury herarchczne na sups należy przecąć - nadłuższych powązań ędzy supsa poszczególnych rzędów. Lczbę ustala sę a pror lub na podstawe ryterów foralnych. Odległość wąz. 8 6 4 2 5 las Możlwe są oczywśce nne techn podzału strutury herarchczne na lasy. 0 POLONIA WARTA VI POLISA Ż HEROS-LI REJENT L PZU ŻYCI COMMERCI GERLING NATIONAL AMPLICO FILAR ŻY COMPENSA ROYAL PB CIGNA ST ERGO HES WINTERTH ALLIANZ 47 48

Analza dysrynacyna Idea analzy dysrynacyne w analze wsaźnowe polega na przyporządowanu dane spół (na podstawe wynów wybranych wsaźnów) do ednego z wcześne ustalonych podzborów. Podzbory te uzależnone są w ogólnośc od przyętego ryteru, lecz w onteśce analzy spółe eden podzbór zawerać a spół dobre, tóre pownno sę zaupć, a drug spół złe, tóre należy sprzedać lub ponąć w zaupach (załaday nesorzystane z róte sprzedaży). Ustalene, do tórego podzboru a zostać przydzelona analzowana spóła, odbywa sę na podstawe ryteru dysrynac wartośc func dysrynacyne. 49 dobre spół analza dysrynacyna złe spół 50 Naczęśce rozważa sę lnową postać func dysrynacyne: Z( ) = a + a22+... + a, gdze: Z() funca dysrynacyna dla spół, a, a2,..., a współczynn dysrynacyne,, 2,..., zenne obaśnaące, dla tórych doonuey dysrynac (wybrane wsaźn fnansowe), lczba uwzględnanych cech (wsaźnów). Pratyczne zastosowane etody dysrynac sprowadza sę w ty przypadu do oszacowana paraetrów func ( a, a2,..., a ) na podstawe tzw. zboru uczącego zbadana znau func po podstawenu atualnych wartośc wsaźnów oreślaących ondycę analzowane fry. 5 Do wyznaczena wartośc współczynnów func dysrynacyne nwestor us dysponować nforaca o hstorycznych wartoścach wsaźnów fnansowych oraz nforaca o późneszych zanach ursów spółe w zadany horyzonce, co stanow podstawę podzału e post spółe na dobre (należące do podzboru) złe (należące do podzboru). Za ryteru dysrynac przyue sę naczęśce stopę zwrotu dla spół. Do grupy spółe atracynych dla nwestora dobrych (podzbór) zalcza sę zazwycza te spół, tóre w orese stanowący próbę uczącą osągnęły stopę zwrotu równą lub węszą od wybranego ndesu (naczęśce ndesu WIG). Do podzboru spółe neatracynych złych (podzbór ) zalcza sę pozostałe. Czasa postulue sę bardze soplowane warun przydzału spółe do odpowednch podzborów, tóre uwzględnałyby równeż ryzyo w raach tworzena zborów uczących. 52

Zaletą func dysrynacyne est prostota oblczeń (oczywśce z wyorzystane techn oputerowe) nterpretac otrzyanych rezultatów. Dodatowo przedstawona została naprostsza wersa ryteru dysrynacynego. W pratyce w oolcach zera powstae tzw. obszar nepewnośc, w tóry stnee znaczne prawdopodobeństwo błędnego przydzału do spółe dobrych lub złych. Nezbędne est stosowane bardze rygorystycznych ryterów. 53 54 Porządowane lnowe Drugą rozpatrywaną grupą etod tasonocznych są etody szeregowana obetów. Metody porządowana lnowego wyorzystue sę do uszeregowana zboru obetów o własnoścach opsanych przez wele zennych od obetu uznawanego za nalepszy do obetu nagorszego, gdze ryteru oceny stanow pewna zenna syntetyczna (agregatowa) wyznaczana na podstawe cech cząstowych. W przypadu trywalny porządowane oże sę odbywać na podstawe poedyncze zenne. Dzę wyno uzysany w procedurze porządowana lnowego ożlwa est równeż lasyfaca obetów. Za lnowe uporządowane obetów (ranng) uznae sę uszeregowane, w tóry: a) ażdy obet a co nane ednego sąsada oraz co nawyże dwóch sąsadów, b) z tego, że -ty obet sąsadue z -ty obete wyna, że -ty est sąsade -tego, c) stneą co nawyże dwa obety aące ednego sąsada. Możlwe est złaane zasady a) wówczas, gdy różne obety uzysuą dentyczną wartość zenne agregatowe zauą e aequo pewne esce w ranngu. W przypadu analz welowyarowych doonywanych na podstawe zennych wyrażonych na salach ocnych (przedzałowych lub lorazowych) est to sytuaca właścwe nespotyana. 55 56

Rozpatrue sę techn porządowana lnowego oparte na zennych agregatowych (syntetycznych) wyznaczanych na podstawe etod wyorzystuących do porównań poęce wzorca lub na podstawe etod bezwzorcowych. Przed wyznaczene zennych syntetycznych nezbędne est: a) ustalene charateru zennych zaana zennych będących destyulanta nonanta na styulanty, b) wyznaczene systeu wag, tóry odzwercedlałby ważność dane cechy uwypulał lub osłabał e wpływ na ostateczną wartość ary agregatowe, c) noralzaca przelczonych zennych. 57 Nezbędne lub przydatne do salowana wynów procedury est równeż oreślene współrzędnych obetów odelowych, tzw. wzorca oraz antywzorca. Naczęśce stosue sę ostatne podeśce, tóre est w pratyce nałatwesze. W przypadu, gdy wszyste zenne przeształcone zostały na styulanty: wzorce est (naczęśce abstracyny) punt o współrzędnych będących nalepszy (asyalny) realzaca poszczególnych znoralzowanych cech w analzowany zborze obetów; z + 0 = a z, =, 2, 3,,, =, 2, 3,, n, antywzorce est (naczęśce abstracyny) punt o współrzędnych będących nagorszy (nalny) realzaca poszczególnych znoralzowanych cech w analzowany zborze obetów; z 0 = n z, =, 2, 3,,, =, 2, 3,, n. 58 Metody bez wzorca Naczęśce wyorzystywaną bezwzorcową etodą porządowana lnowego est etoda su standaryzowanych. Dla ażdego z obetów wyznacza sę arę agregatową będącą średną (naczęśce ważoną) zennych z. Naczęśce orzysta sę z foruły ważone średne arytetyczne: = w z = q, =, 2, 3,, n. Podeśce to est poprawne w przypadu zennych z wyrażonych na salach zarówno lorazowych, a przedzałowych. W przypadu, gdy (zgodne z przyętą onwencą) wszyste zenne przeształcone zostały na styulanty, wyższa wartość zenne syntetyczne q, oznacza lepszą ocenę danego obetu oraz wyższą pozycę w ranngu. 59 W celu łatwesze nterpretac wynów na podstawe zenne agregatowe wyznacza sę tzw. arę rozwou według następuących wzorów: gdze: d () q q0 + q 0 q 0 q =, ( =, 2, 3,, n), = oraz q 0 w z 0 + + 0 w z0 = =, gdze: z + o oraz z o to odpowedno współrzędne wzorca oraz antywzorca, a q + o q o to wartośc func agregatowe dla wzorca antywzorca. () Mara rozwou d zawera sę w przedzale [0,], przy czy 0 uzysue punt (naczęśce abstracyny) będący antywzorce, a punt (równeż naczęśce abstracyny) będący wzorce. = 60

Metoda wzorca rozwou Załada sę ponowne, że dysponuey znoralzowany zenny, tóre aą charater styulant, oraz że zgodne z wcześneszy rozwązana wyznaczone zostały współrzędne wzorca ( z + 0 ) oraz antywzorca ( z 0 ). W perwszy rou dla poszczególnych obetów wyznacza sę ważoną odległość od wzorca (lub rzadze antywzorca). Naczęśce wyorzystue sę odległość euldesową, lecz ożna orzystać taże z nnych ar. d 0 = w z z + 0 = 2 ( ) 2, ( =, 2,, n). I węsza odległość puntu od wzorca, ty oczywśce nższa pozyca w uzysany ranngu obetów. 6 Ostateczne dla łatwesze nterpretac wyznacza sę taże w ty przypadu tzw. arę rozwou: d d =, (2) 0 d 0 gdze d0 to odpowedno ważona odległość ędzy wzorce antywzorce: 2 2 + d0 = w( z0 z0 ). = Mara ta przyue wartość 0 dla antywzorca oraz dla wzorca. I wyższa wartość ary rozwou, ty wyższa pozyca w ranngu danego obetu. 62 Stosowane ar rozwou w lasyfac Otrzyana w procese porządowana lnowego zenna syntetyczna (ara agregatowa lub ara rozwou) oże być wyorzystana do podzału obetów na lasy, us sę ona charateryzować edna odpowedn pozoe zennośc oraz odpowedn zróżncowane wartośc różnc zenne syntetyczne dla sąsaduących obetów. 0 ne nadae sę 0 nadae sę do lasyfac 63 Ocena etod tasonocznych Na zaończene ażde procedury tasonoczne należy zbadać poprawność wynów grupowana lub porządowana obetów. Osobne ary stosue sę do oceny poprawnośc procedur grupowana porządowana lnowego. Wspólną wadą prezentowanych ar oceny aośc wynów est to, że w przypadu ch stosowana trudno est oreślć rytyczne wartośc ernów, powyże lub ponże tórych wyn ońcowy procedury pownno sę uznać za zadowalaący zaaceptować lub uznać za nezadowalaący odrzucć. Możlwe est natoast na ch podstawe wsazane nalepszego podzału lub uporządowana pośród welu opconalnych wynów. 64

Mern poprawnośc wynów grupowana Ja uż wsponano, ern poprawnośc wynów grupowana wyorzystue sę: a) do wyboru nalepszego wynu grupowana spośród lu uzysanych dla różnych etod lub dla różnych paraetrów weścowych, b) ao funce ryteru celu w optyalzacyno-teracynych etodach grupowana. Naczęśce wyorzystue sę w ty zarese: ary hoogencznośc poszczególnych sups, ary heterogencznośc ędzy lasa, ary poprawnośc supeń, ary dyspers wewnątrzgrupowe, ary dyspers ędzygrupowe. Mary te są zwązane z postulate, by obety z te sae lasy były a nabardze podobne, a obety z różnych las a nabardze sę różnły. 65 Mary hoogencznośc erzą podobeństwo (ednorodność, spóność, zwartość) obserwac wewnątrz poszczególnych las, natoast ary heterogencznośc (separowalnośc) erzą pozo wzaenego nepodobeństwa dla różnych las. Dla ażde z las w przypadu ar hoogencznośc oraz dla ażde z par las w przypadu ar heterogencznośc wyznacza sę odpowedne ary cząstowe. Mary te stanową bazę do wyznaczena suarycznych ar hoogencznośc heterogencznośc będących podstawą oceny uzysanych wynów grupowana. 66 Małe wartośc ar hoogencznośc wsazuą na duży stopeń podobeństwa, a ty say na ałe zróżncowane obetów wewnątrz poszczególnych grup. Spośród dwóch podzałów na K las ten est lepszy, dla tórego wartość suarycznego erna hoogencznośc est nesza. Duże wartośc ar heterogencznośc wsazuą newel pozo podobeństwa grup (duże zróżncowane grup). Spośród dwóch podzałów na K las, ten est lepszy, dla tórego wartość suarycznego erna heterogencznośc est węsza. Dobra procedura grupowana pownna prowadzć edna do wynu, w tóry ednocześne uzysuey wyso pozo zróżncowana obetów w raach różnych las, a newel pozo zróżncowana w raach te sae lasy. Ocena tego wyogu ożlwa est za poocą ar poprawnośc supeń. 67 Mary poprawnośc supeń Mary poprawnośc supeń (MPS) defnue sę ao loraz dowolne suaryczne ary hoogencznośc przez dowolną suaryczną arę heterogencznośc: dowolna suaryczna ara hoogencznośc MPS=. dowolna suaryczna ara heterogencznośc Spośród dwóch podzałów na K las ten est lepszy, dla tórego wartość dowolne ary poprawnośc supeń est nesza. Oczywśce wnos uzysane dla różne zdefnowanych ar suaryczne hoogencznośc heterogencznośc ogą być w ogólnośc sprzeczne. 68

Optyalna lczba las a le tu est las? W sytuac, gdy ne est znana narzucona odgórne lczba las, nezbędne stae sę wyznaczene dodatowo zarówno optyalne lczby las, a optyalnego przydzału obetów do poszczególnych las. Taże w ty przypadu przydatne ogą być ary hoogencznośc heterogencznośc. Do oreślena optyalne lczby supeń ożna wyorzystać następuące narzędza: a) ndes Davsa-Bouldnga, b) ndes Dunna. 69 70 Mary aośc porzadowana lnowego Możlwe do wyorzystana w prosty sposób ary aośc uporządowana lnowego operaą sę na zgodnośc odwzorowana acerzy odległośc w przestrzenach R (-wyarowa przestrzeń cech opsuących obety) R (ednowyarowa przestrzeń zenne syntetyczne). dale leża obety w przestrzen welowyarowe cech, ty bardze pownna różnć sę zenna agregatowa Ne ożna zaponać, że ostatn etape procedury grupowana lub porządowana pownna być erytoryczna nterpretaca uzysanych wynów. Naczęśce (w zależnośc od zdefnowana ary) nesze wartośc ernów, ty lepe zenna syntetyczna oddae odległośc ędzy obeta w welowyarowe przestrzen cech ty lepsza ocena aośc uporządowana lnowego. 7 72