OCENA STABILNOŚCI WYNIKÓW KLASYFIKACJI Z WYKORZYSTANIEM ANALIZY REPLIKACJI

Podobne dokumenty
SYMULACYJNA OPTYMALIZACJA WYBORU PROCEDURY KLASYFIKACYJNEJ DLA DANEGO TYPU DANYCH CHARAKTERYSTYKA PROBLEMU

OCENA WYBRANYCH PROCEDUR ANALIZY SKUPIEŃ DLA DANYCH PORZĄDKOWYCH. 1. Wstęp

SYMULACYJNA OPTYMALIZACJA WYBORU PROCEDURY KLASYFIKACYJNEJ DLA DANEGO TYPU DANYCH OPROGRAMOWANIE KOMPUTEROWE I WYNIKI BADAŃ

strona 1 / 11 Autor: Walesiak Marek Subdyscyplina: Klasyfikacja i analiza danych Publikacje:

Zastosowania statystyki i matematyki w ekonomii. Marek Walesiak. Akademia Ekonomiczna we Wrocławiu. 1. Wstęp

strona 1 / 12 Autor: Walesiak Marek Publikacje:

KLASYFIKACJA SPEKTRALNA A SKALE POMIARU ZMIENNYCH 1 1. WPROWADZENIE 2. TYPY SKAL POMIAROWYCH I ICH CHARAKTERYSTYKA

Hierarchiczna analiza skupień

Czym jest analiza skupień?

Spis treści. Summaries

WYBÓR GRUP METOD NORMALIZACJI WARTOŚCI ZMIENNYCH W SKALOWANIU WIELOWYMIAROWYM

Elementy statystyki wielowymiarowej

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Agnieszka Nowak Brzezińska

UOGÓLNIONA MIARA ODLEGŁOŚCI -BADANIA SYMULACYJNE 1. l. Wprowadzenie 2

CLUSTERING. Metody grupowania danych

METODY ANALIZY SKUPIEŃ W KLASYFIKACJI MARKERÓW MAP GOOGLE

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

PRACE NAUKOWE UNIWERSYTETU EKONOMICZNEGO WE WROCŁAWIU Nr 7 (1207) TAKSONOMIA 15 Klasyfikacja i analiza danych - teoria i zastosowania.

Podejścia w skalowaniu wielowymiarowym obiektów symbolicznych

Marta Dziechciarz Duda SEGMENTACJA RYNKU DÓBR TRWAŁEGO UŻYTKOWANIA NA PODSTAWIE DANYCH NIEMETRYCZNYCH. 1. Wstęp

WYKAZ REFERATÓW WYGŁOSZONYCH NA KONFERENCJACH

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Recenzenci Stefan Mynarski, Waldemar Tarczyński. Redaktor Wydawnictwa Anna Grzybowska. Redaktor techniczny Barbara Łopusiewicz. Korektor Barbara Cibis

Instytut Politechniczny Państwowa Wyższa Szkoła Zawodowa. Diagnostyka i niezawodność robotów

BADANIE ZAUFANIA DO INSTYTUCJI FINANSOWYCH W POLSCE Z WYKORZYSTANIEM ANALIZY KORESPONDENCJI

Agnieszka Nowak Brzezińska Wykład III

Rozpoznawanie obrazów

Marek Walesiak UOGÓLNIONA MIARA ODLEGŁOŚCI GDM W STATYSTYCZNEJ ANALIZIE WIELOWYMIAROWEJ Z WYKORZYSTANIEM PROGRAMU R

Metoda określania pozycji wodnicy statków na podstawie pomiarów odległości statku od głowic laserowych

Agnieszka Nowak Brzezińska Wykład III

METODY SKALOWANIA WIELOWYMIAROWEGO OBIEKTÓW SYMBOLICZNYCH

Statystyczna analiza poziomu rozwoju społeczno-gospodarczego w Polsce - w ujęciu regionalnym

Matematyka - Statystyka matematyczna Mathematical statistics 2, 2, 0, 0, 0

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

ZESZYTY NAUKOWE UNIWERSYTETU SZCZECIŃSKIEGO

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

WYBRANE ZAGADNIENIA KLASYFIKACJI OBIEKTÓW Z WYKORZYSTANIEM PROGRAMU KOMPUTEROWEGO CLUSTERSIM DLA ŚRODOWISKA R

Metody systemowe i decyzyjne w informatyce

Pomiar podobieństwa w procesie ustalania wartości rynkowej lokali mieszkalnych

Analiza skupień. Idea

Tabela 1. Macierz preferencji dotycząca pięciu przykładowych produktów (obiektów) i sześciu respondentów

Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015

Skalowanie wielowymiarowe idea

WYKAZ PRAC PUBLIKOWANYCH

WYKAZ REFERATÓW WYGŁOSZONYCH NA KONFERENCJACH

Badanie rozwoju społeczno-gospodarczego województw - wpływ metodyki badań na uzyskane wyniki

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

Zagadnienie klasyfikacji (dyskryminacji)

FILTROWANIE ZBIORU OFERT NIERUCHOMOŚCI Z WYKORZYSTANIEM INFORMACJI O PREFERENCJACH 1

PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCŁAWIU Nr 780 PROGNOZOWANIE W ZARZĄDZANIU FIRMĄ 1997

Wykład 10 Skalowanie wielowymiarowe

Sterowanie wielkością zamówienia w Excelu - cz. 3

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Kilka uwag o testowaniu istotności współczynnika korelacji

Statystyka w pracy badawczej nauczyciela

Graficzna prezentacja danych statystycznych

I KONFERENCJA KOŁA NAUKOWEGO STATYSTYKÓW

Taksonomia numeryczna co to jest?

DOPUSZCZALNE DZIAŁANIA NA LICZBACH W BADANIACH MARKETINGOWYCH Z PUNKTU WIDZENIA SKAL POMIAROWYCH * 1. Rola skal pomiarowych w badaniach marketingowych

W1. Wprowadzenie. Statystyka opisowa

WSTĘP. Uogólniona miara_walesiak_księga1.indb :55:55

Analiza skupień. Idea

METODY INŻYNIERII WIEDZY

Importowanie danych do SPSS Eksportowanie rezultatów do formatu MS Word... 22

WYKAZ PUBLIKACJI I. Artykuły Ia. Opublikowane przed obroną doktorską

Analiza skupień (Cluster analysis)

STATYSTYKA MATEMATYCZNA ZESTAW 0 (POWT. RACH. PRAWDOPODOBIEŃSTWA) ZADANIA

Granular Computing 9999 pages 15 METODY SZTUCZNEJ INTELIGENCJI - PROJEKTY

PRACE NAUKOWE AKADEMII EKONOMICZNEJ WE WROCŁAWIU. Ekonometria 13. Marek Walesiak PROBLEMY DECYZYJNE W PROCESIE KLASYFIKACJI ZBIORU OBIEKTÓW. l.

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

STATYSTYKA I DOŚWIADCZALNICTWO

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

PORZĄDKOWANIE LINIOWE BŁĘDY PRZY INTERPRETACJI WYNIKÓW ORAZ SPOSÓB ICH ELIMINACJI

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Eksploracja danych - wykład II

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Syntetyczna ocena dystansu Polski od krajów Unii Europejskiej na podstawie wybranych aspektów ochrony środowiska

Niezawodność diagnostyka systemów laboratorium. Ćwiczenie 2

WYKAZ PUBLIKACJI UWAGA! Kolor czerwony oznacza dostępność pełnej wersji publikacji

Badania eksperymentalne

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Stanisław Cichocki. Natalia Neherebecka. Zajęcia 15-17

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium IX: Analiza skupień

METODY INŻYNIERII WIEDZY

Wykrywanie nietypowości w danych rzeczywistych

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

PRZEWODNIK PO PRZEDMIOCIE. Statystyka opisowa. Zarządzanie. niestacjonarne. I stopnia. dr Agnieszka Strzelecka. ogólnoakademicki.

WIELOWYMIAROWA ANALIZA STATYSTYCZNA POZIOMU ROZWOJU DEMOGRAFICZNEGO SZCZECINA NA TLE INNYCH MIAST WOJEWÓDZKICH W POLSCE

Statystyczna analiza rozwoju społeczeństwa informacyjnego województw Polski w latach 2008 i 2012

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Rok akademicki: 2030/2031 Kod: ZZP MK-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

Lekcja 5: Sieć Kohonena i sieć ART

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

ALGORYTM RANDOM FOREST

Akademia Górniczo-Hutnicza

Transkrypt:

Marek Walesiak Akademia Ekonomiczna im Oskara Langego we Wrocławiu OCENA STABILNOŚCI WYNIKÓW KLASYFIKACJI Z WYKORZYSTANIEM ANALIZY REPLIKACJI l Wprowadzenie W typowym studium klasyfikacyjnym wyodrębnia się siedem etapów (por np [Milligan 1996, s 342-343], [Walesiak 2005]): wybór obiektów i zmiennych charakteryzujących obiekty do klasyfikacji, wybór fonnuły nonnalizacji wartości zmiennych, wybór miary odległości, wybór metody klasyfikacji, ustalenie liczby klas, ocena wyników klasyfikacji, opis (interpretacja) i profilowanie klas Ocenę wyników klasyfikacji można przeprowadzić min wykorzystując analizę replikacji Replikacja dotyczy przeprowadzenia procesu klasyfikacji zbioru,obiektów na podstawie dwóch prób wylosowanych z danego zbioru danych, a następnie poddania ocenie zgodności otrzymanych rezultatów Poziom zgodności wyników dwóch podziałów oceniany zazwyczaj z wykorzystaniem skorygowanego indeksu Randa odzwierciedla poziom stabilności przeprowadzonej klasyfikacji zbioru obiektów 2 Procedura analizy replikacji Fonnalnie analizę replikacji zaproponowano w pracach [McIntyre, Blashfield 1980] oraz [Morey, Blashfield, Skinner 1983] Procedura replikacji składa się z następujących etapów [Breckenridge 2000, s 262-263], [Milligan 1996, s 368-369], [Gordon 1999, s 184]: 1 Podzielić losowo zbiór danych (zbiór n obiektów opisanych m zmiennymi) na dwa podzbiory A (podstawowy) i B (replikacyjny) opisane tym samym zbiorem zmiennych

68 Marek Walesiak 2 Zastosować wybraną metodę klasyfikacji (np metodę k-średnich, k-medoidów, hierarchiczne metody aglomeracyjne) do podziału zbioru A na ustaloną liczbę klas u Wcześniej należy podjąć decyzję dotyczącą wyboru formuły normalizacji wartości zmiennych, miary odległości oraz liczby skupień Wyznaczyć dla danych metrycznych środki ciężkości (centroids) dla poszczególnych klas lub obiekty reprezentatywne dla klas (usytuowane centralnie zwane "centrotypes" lub "medoids") dla danych metrycznych lub niemetrycznych Obiektem usytuowanym centralnie w klasie (medoid) jest ten, dla którego suma odległości od pozostałych obiektów danej klasy jest najmniejsza 3 Tę sarną procedurę klasyfikacyjną zastosować do podziału zbioru B na u klas 4 Obliczyć odległości obiektów ze zbioru B od środków ciężkości klas lub od obiektów usytuowanych centralnie w klasach wyznaczonych na podstawie podzbioru A Przydzielić obiekty z podzbioru B do klas zawierających najbliższy środek ciężkości (najbliższą medoidę) Prowadzi to do podziału podzbioru B na nie więcej niż u klas Otrzymujemy podział zbioru B na klasy na podstawie charakterystyk (środki ciężkości lub medoidy) zbioru A 5 Powtórzyć kroki 1-4 S razy (S -liczba symulacji) 6 Obliczyć, np za pomocą skorygowanej miary Randa (zob [Hubert, Arabie 1985]), średnią zgodność wyników dwóch podziałów podzbioru B Poziom zgodności wyników dwóch podziałów podzbioru B odzwierciedla poziom stabilności przeprowadzonej klasyfikacji zbioru obiektów 3 Analiza replikacji w pakiecie clustersim środowiska R Procedura służąca ocenie wyników klasyfikacji (analiza replikacji) zawarta jest w pakiecie clustersim (tabela 1) Pakiet clustersim l dostępny jest na stronie http://wwwr-projectorg oraz na stronie http://wwwaejgorapllkeii/ clustersim Funkcja replicationmod pakietu clustersim umożliwia wykorzystanie w analizie replikacji: - danych metrycznych i niemetrycznych, - środków ciężkości klas (dla danych metrycznych) lub obiektów reprezentatywnych dla klas (dla danych metrycznych lub niemetrycznych), - 11 formuł normalizacji wartości zmiennych dla danych metrycznych, 7 miar odległości dla danych ilorazowych, 5 dla danych przedziałowych i mieszanych, po l dla danych porządkowych i nominalnych wielostanowych i 10 dla danych binarnych, - 9 metod klasyfikacji l Charakterystykę wybranych elementów pakietu autorstwa M Walesiaka i A Dudka zawiera artykuł [Walesiak, Dudek 2006]

Ocena stabilności wyników klasyfikacji 69 Analiza replikacji z wykorzystaniem składni funkcji replicationmod pakietu c1ustersim replicationmod{x, v=um ll, u=2, centrotypes="centroids", normalization=null, distance=null, method="kmeans", 8=10, fixedasample=null) danych v typ danych: metryczne (" r" ilorazowe, "i" przedziałowe, "m" mieszane), niemetryczne ("0" porządkowe, "n" - nominalne wielostanowe, "b" binarne) lu liczba klas centrotypes, IIcentroids" I "medoids l1 normalization distance method 8 Tabela l formuły normalizacyjne dla danych metrycznych: dane ilorazowe: "no" bez normalizacji, "n6" (x/sd), "n7" - (x/range), "na" - (x/max), "n9" - (x/mean), "nlo" - (x/sum), "nl1" - x/sqrt(ssq) dane przedziałowe lub mieszane (ilorazowe i przedziałowe): "no" - bez normalizacji, "nl" - (x-mean)/sd, "n2" - (x-me)/mad, "n3" - (x-mean)/ range, "n4" - (x-min)/range, "ns" - (x-mean)/max[abs(x-mean)] NULL dla metody k-średnich (" kmeans"), Miary odległości dla danych: I ilorazowych: "dl" - miejska, "d2" - Euklidesa, "d3" - Czebyszewa, (max), "d4" -kwadrat Euklidesa, "ds" -GDMI, "d6" Canberra,"d7" - Braya-Curtisa; przedzialowych i mieszanych: "dl", "d2", "d3", "d4", "ds"; porządkowych: "da" -GDM2; nominalnych wielostanowych: "d9" - Sokala i Michenera; binarnych: "bl" =Jaccarda; "b2" =Sokala i Michenera; "b3" =Sokala i Sneatha (1); "b4" = Rogersa i Tanimoto; "bs" =Czekanowskiego; "b6" =Gowera i Legendre (I); "b7" == Ochiai; "ba" =Sokala i Sneatha (2); "b9" =Phi Pearsona; "blo" =Gowera i Legendre (2) IfixedAsample ~ metoda klasyfikacji: k-średnich (" kmeans" - domyślnie), najbliższego sąsiada (" single"), najdalszego sąsiada (" compl ete"), średniej grupowej l ("average"), ważonej średniej grupowej ("mcquitty"),medianowej l ("median"), centroidalnej ("centroid"), Warda ("Ward"), k-medoidów i ("pam") liczba symulacji Źródło: opracowanie własne numery obiektów dobrane losowo do podzbioru A (NULL) lub numery i obiektów dobrane arbitralnie do podzbioru A

70 Marek Walesiak 4 Przykładowe składnie poleceń z wykorzystaniem funkcji replicationmod pakietu clustersim Za pomocą trójwymiarowej zmiennej losowej o rozkładzie normalnym wygenerowano po 30 obserwacji dla pięciu skupień słabo separowalnych o wydłużonym kształcie Przyjęto następujące wektory wartości oczekiwanych dla skupień (4,5; 4,5; 4,5), (-2, 2, -2), (2, -2,2), (O, O, O), (-4,5; -4,5; -4,5) oraz identyczne macierze kowariancji L (a jj = 1, a jl =0,9) (rys 1) 6 4 2 o -2 --'4-6 VI -r f 1-r ł" " ~~ _,e : ~ _ :r, -6-4 -2 O 2 4 6,y j1"fi o:ł- :, q łl! '! ' J!> 6 :r:i 4" 'r'= :' Aj \\ 4 ~'J 2 lit I :, " ' I V3 O # ~ -' ",r -2 JW- c :II 'Ii t -4-6 I < 1- i',: J * y' V2,:I",, d,,!i,,'* ti'ł "", I' ~' 'P',:r ' ~ -6-4 -2 O 2 4 6-6 -4-2 O 2 4 6 Rys l 150 obserwacji trzech zmiennych w układach dwuwymiarowych Źródło: opracowanie własne z wykorzystaniem programu R 6 4 2 O -2-4 -6 Oceny podziału zbioru 150 obiektów na pięć przeprowadzono wykorzystu replicationmod z pakietu clustersim jąc funkcję

Ocena stabilności wyników klasyfikacji 71 Przykład l > 1ibrary(cluster8im) > x <- readcsv2("c:/danecsv", header=true, stripwhite=true, rownames=l) > x <- asmatrix(x) > options(outdec = ",") > w <- replicationmod(x, v="i", u=s, centrotypes="centroids", normalization=null, distance="ds", rnethod="pam", 8=10, fixedasample=null) > print(w$crand) W wyniku zastosowania tej procedury otrzymuje się: [1] 0,950652 Zatem wartość skorygowanego indeksu Randa świadczy o wysokiej stabilności podziału zbioru 150 obiektów na pięć klas Zdecydowana większość funkcji programu R zwraca złożone obiekty lub listy zawierające wiele informacji wygenerowanych przez wykonywany algorytm Funkcja rep1icationmod pakietu clustersim wywołana poleceniem names (w) zawiera: A - trójwymiarową tablicę zawierającą macierze danych dla podzbioru obiektów typu A w poszczególnych symulacjach (pierwszy wymiar oznacza numer symulacji, drugi numer obiektu, a trzeci numer zmiennej), B - trójwymiarową tablicę zawierającą macierze danych dla podzbioru obiektów typu B w poszczególnych symulacjach (pierwszy wymiar oznacza numer symulacji, drugi numer obiektu, a trzeci numer zmiennej), ce?ntroid - trójwymiarową tablicę zawierającą środki ciężkości u klas dla podzbioru obiektów typu A w każdej symulacji (pierwszy wymiar oznacza numer symulacji, drugi numer klasy, a trzeci numer zmiennej), medoid - trójwymiarową tablicę zawierającą obserwacje na obiektach reprezentatywnych dla u klas i podzbioru obiektów typu A w każdej symulacji (pierwszy wymiar oznacza numer symulacji, drugi numer klasy, a trzeci numer zmiennej), clusteringa - dwuwymiarową tablicę zawierającą zaklasyfikowanie obiektów podzbioru A w poszczególnych symulacjach (pierwszy wymiar oznacza numer symulacji, drugi zaś numer obiektu), clusteringb - dwuwymiarową tablicę zawierającą zaklasyfikowanie obiektów podzbioru B w poszczególnych symulacjach (pierwszy wymiar oznacza numer symulacji, drugi zaś numer obiektu), c1usteringbb dwuwymiarową tablicę zawierającą zaklasyfikowanie obiektów podzbioru B w poszczególnych symulacjach zgodnie z krokiem 4 procedury (pierwszy wymiar oznacza numer symulacji, drugi zaś numer obiektu),

72 Marek Walesiak crand - średnią wartość skorygowanego indeksu Randa obliczoną dla S symulacji Wydanie polecenia np print (w$centroid) spowoduje wypisanie trójwymiarowej tablicy zawierającej środki ciężkości u klas dla podzbioru obiektów typu A Zapisanie środków ciężkości klas w osobnym pliku na dysku, zgodnie z formatem csv, wymaga dodania do składni polecenia: > writetable«w$centroid), file="c:/w_centroidcsv", sep=;"i", dec=",", colnarnes=false) 5 Podsumowanie W artykule na podstawie anglojęzycznej literatury przedmiotu zaprezentowano procedurę analizy replikacji służącą ocenie wyników klasyfikacji, scharakteryzowano możliwości funkcji replicationmod pakietu clustersim realizującej analizę replikacji, a także zaprezentowano przykładowe składnie poleceń (procedury) pozwalające potencjalnemu użytkownikowi na realizację analizy replikacji w zagadnieniu klasyfikacji Literatura Breckenridge JN [2000], Validating Cluster Analysis: Consistent Replication and Symmetry, "Multivariate Behavioral Research", 35 (2) Gordon AD [1999], Classification, Chapman and HaIl/CRC, London Hubert L, Arabie P [1985], Comparing Partitions, "Journal of Classification", vol 2, nr I Mclntyre RM, Blashfield RK [1980], A Nearest-centroid Techniquefor Evaluating the Minimum-variance Clustering Procedure, "Multivariate BehavioraI Research", 15 (2) Milligan GW [1996], Clustering Validation: Results and Implicationsfor AppUed Analyses [w:] Clustering and Classijication, red P Arabie, LJ Hubert, G de Soete, World Scientific, Singapore Morey LC, Blashfield RK, Skinner HA [1983], A Comparison ofcluster Analysis Techniques within a Squential Validation Framework, "Multivariate Behavioral Research", 18 (July) Walesiak M [2005], Rekomendacje w zakresie strategii postępowania w procesie klasyfikacji zbioru obiektów [w:] Przestrzenno-czasowe modelowanie i prognozowanie zjawisk gospodarczych, red A Zeliaś, Wydawnictwo AE w Krakowie, Kraków Walesiak M, Dudek A [2006], Symulacyjna optymalizacja wyboru procedury klasyfikacyjnej dla danego typu danych - oprogramowanie komputerowe i wyniki badań [w:] Klasyfikacja i analiza danych teoria i zastosowania, red K Jajuga, M Walesiak, Taksonomia 13, Prace Naukowe AE we Wrocławiu, Wrocław, nr 1126