Metody klasyfikacji i klasteryzacji obiektów wielocechowych.

Podobne dokumenty
Budowanie macierzy danych geograficznych Procedura normalizacji Budowanie wskaźnika syntetycznego

Badanie rozwoju społeczno-gospodarczego województw - wpływ metodyki badań na uzyskane wyniki

Zielone powiaty województwa śląskiego

Politechnika Białostocka, Wydział Zarządzania, Katedra Informatyki Gospodarczej i Logistyki

Wykład 4: Statystyki opisowe (część 1)

Statystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Metodologia Green Energy Index

INNOWACYJNOŚĆ WOJEWÓDZTW W POLSCE

5. Rozwiązywanie układów równań liniowych

OCENA SYTUACJI NA LOKALNYM RYNKU PRACY Z WYKORZYSTANIEM METOD WIELOWYMIAROWEJ ANALIZY PORÓWNAWCZEJ

Wykład 3: Prezentacja danych statystycznych

Metodologia Rankingu Gmin Małopolski 2017

Proces badania statystycznego z wykorzystaniem miernika syntetycznego (wg procedury Z. Zioło)

Wielowymiarowa analiza regionalnego zróżnicowania rolnictwa w Polsce

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Statystyki opisowe i szeregi rozdzielcze

Syntetyczna ocena dystansu Polski od krajów Unii Europejskiej na podstawie wybranych aspektów ochrony środowiska

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

Analiza wielokryterialna wstęp do zagadnienia

Wielowymiarowa analiza poziomu ubóstwa w województwie podlaskim w latach

1. Klasyfikacja stóp zwrotu 2. Zmienność stóp zwrotu 3. Mierniki ryzyka 4. Mierniki wrażliwości wyceny na ryzyko rynkowe

ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Operacjonalizacja zmiennych

Analiza współzależności dwóch cech I

Sytuacja młodych na rynku pracy

Metodologia Rankingu Gmin Małopolski 2016

Ocena i porównywanie obiektów przy wykorzystaniu metody Perkala. M. Dacko

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Dynamika zmian warunków społecznogospodarczych w gminach powiatu krakowskiego w latach

METODY BADAŃ NA ZWIERZĘTACH ze STATYSTYKĄ wykład 3-4. Parametry i wybrane rozkłady zmiennych losowych

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Zadania ze statystyki, cz.6

ANALIZA STANU OPIEKI ZDROWOTNEJ ŚLĄSKA NA TLE KRAJU METODĄ TAKSONOMICZNĄ

OCENA STABILNOŚCI SYTUACJI FINANSOWEJ PRZEDSIĘBIORSTW SEKTORA PRZEMYSŁU SPOŻYWCZEGO NA PODSTAWIE TMAI

Sztuczna Inteligencja Tematy projektów Sieci Neuronowe

Wycena nieruchomości za pomocą wyboru wielokryterialnego w warunkach niepewności rozmytej oraz klasycznie: metodą pp i kcś

Wymagania edukacyjne z matematyki klasa II technikum

PORZĄDKOWANIE LINIOWE BŁĘDY PRZY INTERPRETACJI WYNIKÓW ORAZ SPOSÓB ICH ELIMINACJI

Współczynnik korelacji. Współczynnik korelacji jest miernikiem zależności między dwiema cechami Oznaczenie: ϱ

Poniżej przedstawiony został podział wymagań na poszczególne oceny szkolne:

Prognozowanie popytu. mgr inż. Michał Adamczak

Ryzyko i efektywność. Ćwiczenia ZPI. Katarzyna Niewińska, ćwiczenia do wykładu Zarządzanie portfelem inwestycyjnym 1

Próbny egzamin z matematyki dla uczniów klas II LO i III Technikum. w roku szkolnym 2012/2013

Analiza struktury i przeciętnego poziomu cechy

Matematyka 2 wymagania edukacyjne

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

PRZESTRZENNO-CZASOWA ANALIZA ZRÓŻNICOWANIA POZIOMU ROZWOJU ODNAWIALNYCH ŹRÓDEŁ ENERGII

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

Sztuczna inteligencja : Algorytm KNN

Analiza korelacji

MATEMATYKA Wymagania edukacyjne i zakres materiału dla klasy drugiej poziom podstawowy w roku szkolnym 2013/2014 ZAKRES MATERIAŁU, TREŚCI NAUCZANIA

Poziom życia ludności Polski i pozostałych krajów Unii Europejskiej analiza taksonomiczna

Badania sondażowe. Schematy losowania. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

3.3.1 Metody porównań rynkowych

08. Normalizacja wyników testu

PLAN WYNIKOWY DLA KLASY DRUGIEJ POZIOM PODSTAWOWY I ROZSZERZONY. I. Proste na płaszczyźnie (15 godz.)

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY III

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Rozkłady i ich dystrybuanty 16 marca F X (t) = P (X < t) 0, gdy t 0, F X (t) = 1, gdy t > c, 0, gdy t x 1, 1, gdy t > x 2,

KLASA II TECHNIKUM POZIOM PODSTAWOWY PROPOZYCJA POZIOMÓW WYMAGAŃ

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

BANK NAJLEPSZY DLA ROLNIKA

LOGISTYKA DYSTRYBUCJI II ćwiczenia 3 WYBÓR DOSTAWCY USŁUG WIELOKRYTERIALNE MODELE DECYZYJNE. AUTOR: dr inż. ROMAN DOMAŃSKI WYBÓR DOSTAWCY USŁUG

Prawdopodobieństwo czerwonych = = 0.33

Wprowadzenie Pojęcia podstawowe Szeregi rozdzielcze STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP.

MINISTER INWESTYCJI I ROZWOJU 1)

Zadania ze statystyki cz.5 I rok socjologii miary związków między zmiennymi jakościowymi

Metody numeryczne Wykład 4

Egzamin ustny z matematyki semestr II Zakres wymaganych wiadomości i umiejętności

Własności i charakterystyki czwórników

Rachunek prawdopodobieństwa WZ-ST1-AG--16/17Z-RACH. Liczba godzin stacjonarne: Wykłady: 15 Ćwiczenia: 30. niestacjonarne: Wykłady: 9 Ćwiczenia: 18

WIELOWYMIAROWA ANALIZA STATYSTYCZNA POZIOMU ROZWOJU DEMOGRAFICZNEGO SZCZECINA NA TLE INNYCH MIAST WOJEWÓDZKICH W POLSCE

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Statystyka. Opisowa analiza zjawisk masowych

L.Kowalski zadania z rachunku prawdopodobieństwa-zestaw 3 ZADANIA - ZESTAW 3

WYKORZYSTANIE METODY WZORCA ROZWOJU DO KLASYFIKOWANIA PRZEDSIĘBIORSTW POD WZGLĘDEM POZIOMU ZARZĄDZANIA WIEDZĄ

Skrypt 29. Statystyka. Opracowanie L2

Hierarchiczna analiza skupień

Metody mieszana. Wartość

Wybrane rozkłady zmiennych losowych. Statystyka

Regresja i Korelacja

b) Niech: - wśród trzech wylosowanych opakowań jest co najwyżej jedno o dawce 15 mg. Wówczas:

Graficzna prezentacja danych statystycznych

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Ćwiczenia 1-2 Analiza rozkładu empirycznego

Powtórzenie. Ćwiczenia ZPI. Katarzyna Niewińska, ćwiczenia do wykładu Zarządzanie portfelem inwestycyjnym 1

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Zmienna losowa dwuwymiarowa i korelacja

ĆWICZENIE 11 ANALIZA KORELACJI I REGRESJI

Zajęcia 1. Rzetelność

WYMAGANIA EDUKACYJNE Z MATEMATYKI DLA KLASY DRUGIEJ LICEUM OGÓLNOKSZTAŁCĄCEGO ZAKRES PODSTAWOWY

Transkrypt:

Metody klasyfikacji i klasteryzacji obiektów wielocechowych

Zakres szkolenia Podstawowe pojęcia związane z klasyfikacją wielocechową Proste metody porządkowania liniowego (ratingu) Metody grupowania (klasteryzacji) 2

Przykład Celem badania jest ocena pewnej grupy przedsiębiorstw tej samej branży. Aby dokonać takiej oceny konieczna jest znajomość danych dotyczących pewnej kluczowej zmiennej, na przykład zysku. Znając zysk każdego przedsiębiorstwa możliwe jest pogrupowanie przedsiębiorstw w grupy lub uporządkowanie przedsiębiorstw względem wielkości zysku. Zysk w mln. zł. Spółka E 155 Spółka F 67 Spółka D 170 Spółka C 150 Spółka B 120 Spółka A 100 3

Rozwiązanie zagadnienia komplikuje się, jeżeli zmienną, na podstawie której należy dokonać oceny nie jest tylko zysk lecz pojawia się zmienna dodatkowa, np. wartość aktywów. Zysk w mln. zł. Aktywa w mld. zł. Spółka E 155 1,2 Spółka F 67 1 Spółka D 170 0,6 Spółka C 150 0,9 Spółka B 120 2,1 Spółka A 100 2,5 4

Problem klasyfikacji tych przedsiębiorstw potwierdza poniższy wykres. Zysk w mln. zł. Aktyw a w mld. zł. 180 3 160 140 2,5 120 2 100 80 Zysk w mln. zł. 1,5 Aktyw a w mld. zł. 60 1 40 20 0,5 0 Spółka E Spółka F Spółka D Spółka C Spółka B Spółka A 0 Spółka E Spółka F Spółka D Spółka C Spółka B Spółka A 5

Kolejny problem pojawia się jeżeli byśmy chcieli dodać kolejną zmienną np. obciążenia kredytowe. O ile zmienne zysk i aktywa są zmiennymi pozytywnymi (atrakcyjność przedsiębiorstwa rośnie wraz ze ich wzrostem), to zmienna obciążenia kredytowe jest zmienna negatywną (atrakcyjność przedsiębiorstwa maleje wraz ze jej wzrostem). Pojawia się zatem problem odpowiedniego jej przekształcenia. Zmienne pozytywne w analizie danych określane są mianem stymulanty Zmienne negatywne w analizie danych określane są mianem destymulanty 6

Podstawowe problemy doprowadzenia do porównywalności, które należy rozwiązać, aby stosować mierniki syntetyczne to: sprowadzić wszystkie zmienne do jednej uniwersalnej jednostki (np. dwie zmienne, pierwsza wyrażona w zł. druga np. w liczbie pracowników) Normalizacja (standaryzacja zmiennej). przekształcić zmienne na stymulanty. NORMALIZACJA Umożliwia sprowadzenie wyników różnych zmiennych do porównywalności. Przekształca wyniki pomiarów na skalę rozkładu normalnego ze średnią 0. z ij xij a b = p = 1; a = x ; b = p S ( ) j x j 7

WRynkowa Chinamob 90167 telmexic 25223 skteleco 15276 KoTeleco 13892 TP.S.A. 7282 Tmalaysi 6457 KtFretel 5704 TelNotre 5556 M-Cell 4290 MATAV 3257 T_Argent 3091 BrasilTl 2875 CeskyTel 2855 AdvInfSr 2558 Philipin 2168 średnia 12710 SD 22351 Wrynkowa znormalizowana Chinamob 3,47 telmexic 0,56 skteleco 0,11 KoTeleco 0,05 TP.S.A. -0,24 Tmalaysi -0,28 KtFretel -0,31 TelNotre -0,32 M-Cell -0,38 MATAV -0,42 T_Argent -0,43 BrasilTl -0,44 CeskyTel -0,44 AdvInfSr -0,45 Philipin -0,47 8

Destymulanty i stymulanty Przekształcenie destymulanty w stymulanty może przebiegać zgodnie z poniższą formułą: x ij = max i x ij x ij Lub: x ij = 1 x ij

Proste metody syntetyczne Dla celów stworzenia prostego rankingu można posłużyć się prostą metodą porządkowania opisaną w poniższych krokach: 1. Zbadać zróżnicowanie badanych cech (za pomocą współczynnika zmienności; przyjmuje się w badaniach dobra zmienna ma wartość V x >10%) 2. Przekształcić destymulanty na stymulanty 3. Dokonać normalizacji 4. Obliczyć miernik s i ze wzoru: s i 1 = xij p wyższy wynik miernika s i oznacza lepszą pozycję obiektu (spółki) w rankingu 10

Zadanie. Korzystając z danych: Przeprowadź prosta klasyfikację i przygotuj ranking przedsiębiorstw uwzględniający wszystkie posiadane zmienne korzystając z prostej formuły miernika s i Zmienne w analizie: WRynkowa CAkcji Zmiana Wksięgow C/Z Rentowno sprzedaż zysk aktywa dochódak Założenie: dla zmiennych branych pod uwagę powinien zachodzić warunek: Vx > 10% Modyfikacja uwzględniająca różne wagi poszczególnych zmiennych. Często w rzeczywistości poszczególne zmienne (cechy) nie wpływają w jednakowym stopniu na ostateczny wynik (mają różną wagę). Na podstawie tej sugestii pojawiła się metoda syntetyczna z możliwością nadania wag poszczególnym zmiennym. Wadą tej metody jest konieczność znajomości wag przed przystąpieniem do obliczeń. 11

Syntetyczny miernik wzorcowy (metoda porządkowania liniowego Hellwiga) Metoda porządkowania liniowego Metoda ta należy do grupy metod porządkowania liniowego. Wynikiem jej jest uporządkowanie obiektów od najgorszego do najlepszego (utworzony zostaje ranking). Cechą charakterystyczną tej metody jest to, iż wszystkie zmienne są jednakowo ważne (mają te same wagi). Zastosowanie metody Hellwiga należy rozpocząć od określenia które z cech są stymulantami, a które destymulantami. Po przeprowadzeniu procedury normalizacji należy wyznaczyć wzorce dla poszczególnych cech: Dla destymulant : x 0k =min{x ij } Dla stymulant : x 0k =max{xij} 12

Syntetyczny miernik wzorcowy Obliczenia należy wykonać zgodnie z formułami: S 1 n = ( di d ) n 0 0 0 = i 1 d 1 n n 0 = d i 0 = i 1 2 d i = 1 d d i0 d = ( x x ) i0 ij 0 j i 0 2 d = d + 2 S 0 0 0 Wynikiem procedury będzie ranking obiektów (firm). Każdy obiekt w wyniku obliczeń uzyska wartość d z przedziału <0; 1>. Im wyższy wynik d tym obiekt (firma) jest wyżej w klasyfikacji. 13

Zadanie. Zastosuj miernik syntetyczny do klasyfikacji spółek. Wyniki: Miernik syntetyczny spółki Hellwiga d i telmexic 0,47 Chinamob 0,36 skteleco 0,27 KoTeleco 0,23 AdvInfSr 0,23 TP.S.A. 0,19 T_Argent 0,19 TelNotre 0,18 KtFretel 0,18 MATAV 0,15 Philipin 0,15 BrasilTl 0,14 Tmalaysi 0,14 M-Cell 0,11 CeskyTel 0,07 14

W literaturze wyróżnia się dwie podstawowe klasy metod klasyfikacji: 1. Klasyfikację, na podstawie której dokonuje się tylko przydzielenia obiektu do grupy (tworzone są np. trzy grupy: firmy słabe, przeciętne, dobre 2. Porządkowanie liniowe, na podstawie którego tworzy się ranking (każdy obiekt (firma) ma indywidualną pozycję w rankingu. Istnieje możliwość utworzenia na podstawie tego rankingu grup. Tworzenie grup na podstawie rankingu. Podział na grupy metodą naukową możliwy jest poprzez zastosowanie kwartyli na danych dotyczących wskaźników d i 15

Zadanie. Bazując na rankingu utworzonym dla spółek utwórz 4 grupy firm stosując dobór do grupy na podstawie kwartyli. spółki telmexic 0,47 Chinamob 0,36 skteleco 0,27 KoTeleco 0,23 AdvInfSr 0,23 TP.S.A. 0,19 T_Argent 0,19 TelNotre 0,18 KtFretel 0,18 MATAV 0,15 Philipin 0,15 BrasilTl 0,14 Tmalaysi 0,14 M-Cell 0,11 CeskyTel 0,07 d i wartość d i kwartyl 1 0,141 kwartyl 2 0,184 kwartyl 3 0,227

Zadanie. Bazując na rankingu utworzonym dla spółek utwórz 4 grupy firm stosując dobór do grupy na podstawie kwartyli. spółki telmexic 0,47 Chinamob 0,36 skteleco 0,27 KoTeleco 0,23 AdvInfSr 0,23 TP.S.A. 0,19 T_Argent 0,19 TelNotre 0,18 KtFretel 0,18 MATAV 0,15 Philipin 0,15 BrasilTl 0,14 Tmalaysi 0,14 M-Cell 0,11 CeskyTel 0,07 d i wartość d i kwartyl 1 0,141 kwartyl 2 0,184 kwartyl 3 0,227