Hierarchiczna analiza skupień

Podobne dokumenty
Zagadnienie klasyfikacji (dyskryminacji)

Czym jest analiza skupień?

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

STATYSTYKA I DOŚWIADCZALNICTWO

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Elementy statystyki wielowymiarowej

Adrian Horzyk

Analiza skupień. Idea

Agnieszka Nowak Brzezińska

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

Sztuczna inteligencja : Algorytm KNN

Testy nieparametryczne

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III

Sieci Kohonena Grupowanie

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Optymalizacja ciągła

Analiza składowych głównych

Sortowanie. LABORKA Piotr Ciskowski

KORELACJE I REGRESJA LINIOWA

ANALIZA STRUKTURY WIEKOWEJ ORAZ PŁCIOWEJ CZŁONKÓW OFE Z WYKORZYSTANIEM METOD TAKSONOMICZNYCH

Wykład 10 Skalowanie wielowymiarowe

Co to jest grupowanie


METODY INŻYNIERII WIEDZY

Prawdopodobieństwo czerwonych = = 0.33

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

STATYSTYKA I DOŚWIADCZALNICTWO

JEDNORÓWNANIOWY LINIOWY MODEL EKONOMETRYCZNY

Grupowanie danych. Wprowadzenie. Przykłady

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Zmienne zależne i niezależne

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

TEORETYCZNE PODSTAWY INFORMATYKI

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY INŻYNIERII WIEDZY

Metody iteracyjne rozwiązywania układów równań liniowych (5.3) Normy wektorów i macierzy (5.3.1) Niech. x i. i =1

Skalowanie wielowymiarowe idea

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

Ważne rozkłady i twierdzenia c.d.

Matematyka dyskretna. Andrzej Łachwa, UJ, /14

Na A (n) rozważamy rozkład P (n) , który na zbiorach postaci A 1... A n określa się jako P (n) (X n, A (n), P (n)

Metoda analizy hierarchii Saaty ego Ważnym problemem podejmowania decyzji optymalizowanej jest często występująca hierarchiczność zagadnień.

4.3 Grupowanie według podobieństwa

Elementy modelowania matematycznego

Uczenie sieci radialnych (RBF)

Wstęp do teorii niepewności pomiaru. Danuta J. Michczyńska Adam Michczyński

dr Mariusz Grządziel 15,29 kwietnia 2014 Przestrzeń R k R k = R R... R k razy Elementy R k wektory;

Algorytm wstecznej propagacji błędów dla sieci RBF Michał Bereta

Mail: Pokój 214, II piętro

Wstęp do sieci neuronowych, wykład 8 Uczenie nienadzorowane.

Statystyka. Wykład 7. Magdalena Alama-Bućko. 16 kwietnia Magdalena Alama-Bućko Statystyka 16 kwietnia / 35

Analizy wariancji ANOVA (analysis of variance)

Statystyka opisowa. Wykład I. Elementy statystyki opisowej

Optymalizacja wielokryterialna

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Natalia Neherbecka. 11 czerwca 2010

Rozpoznawanie obrazów

Macierze. Rozdział Działania na macierzach

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium IX: Analiza skupień

a 11 a a 1n a 21 a a 2n... a m1 a m2... a mn a 1j a 2j R i = , C j =

Klasyfikacja LDA + walidacja

Propensity score matching (PSM)

Rozkłady zmiennych losowych

Testowanie hipotez statystycznych.

Teoria błędów. Wszystkie wartości wielkości fizycznych obarczone są pewnym błędem.

Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Eksploracja danych. Grupowanie wykład 1

Testowanie hipotez statystycznych.

Analiza skupień. Idea

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Weryfikacja hipotez statystycznych

Matematyka dyskretna. Andrzej Łachwa, UJ, A/14

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

KLASYFIKACJA SPÓŁEK PUBLICZNYCH NA PODSTAWIE ICH POZYCJI KONKURENCYJNEJ W SEKTORZE BUDOWLANYM

Definicje PN ISO Definicje PN ISO 3951 interpretacja Zastosowanie normy PN-ISO 3951:1997

Zaawansowane metody numeryczne

Wykład 6 Centralne Twierdzenie Graniczne. Rozkłady wielowymiarowe

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Metoda Karnaugh. B A BC A

Wstęp do Techniki Cyfrowej... Teoria automatów

Drzewa spinające MST dla grafów ważonych Maksymalne drzewo spinające Drzewo Steinera. Wykład 6. Drzewa cz. II

Wstęp do sieci neuronowych, wykład 07 Uczenie nienadzorowane.

PDF created with FinePrint pdffactory Pro trial version

1 Podstawy rachunku prawdopodobieństwa

Analiza składowych głównych. Wprowadzenie

Transkrypt:

Hierarchiczna analiza skupień

Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym sensie bliskie. Skupiamy się tutaj na problemie klasyfikacji, gdzie nasz materiał (dane) nie są poklasyfikowane liczba i skład klas są nieznane. Jest to sytuacja odmienna do dyskryminacji, gdzie grupy są znane a priori, a naszym celem jest zaproponowanie metody klasyfikacji dla nowych obserwacji predykcja. 2

Podobieństwo obserwacji 3 Podobieństwo obserwacji będziemy mierzyć za pomocą odległości między nimi. Duża odległość oznacza małe podobieństwo i odwrotnie. Odległości są wyznaczane dla każdej pary obserwacji i możemy je zapisać w macierzy odległości o wymiarach nxn: 0 d d 12 1n d 0 d dn1 dn2 0 21 2n - odległość między i-tą i j- tą obserwacją Pozostaje więc zdefiniować metrykę służącą do pomiaru odległości między obserwacjami... d ij

Metryki odległości (1) Najczęściej stosowane sposoby określania odległości opierają się na następujących metrykach: p 2 1) odległość euklidesowa: d ( ) ij = x l 1 il x = jl p 2) odległość miejska: d ij = x l 1 il x = jl 4

Metryki odległości (2) 3) odległość Minkowskiego: Jeśli przyjmiemy p =1, to otrzymamy odległość miejską, a gdy p =2, otrzymujemy odległość Euklidesową. n 1/ p ( ) p ij = l= 1 il jk d x x 5

Odległość Minkowskiego - uwaga Najbardziej naturalny sposób określania odległości opiera się na metryce euklidesowej. Kiedy stosujemy w analizie odległość Minkowskiego (niezależnie od stałej p), to: 1) wszystkie rozpatrywane zmienne muszą być mierzone w tych samych jednostkach miary lub muszą być niemianowane; 2) wartości poszczególnych zmiennych powinny mieć te same rzędy wielkości; w przeciwnym razie zmienne, których wartości mają wyższe rzędy wielkości miałyby większą wagę w wyznaczanej odległości; 6

Zmienne jakościowe (1) 7 Czasami obiekty są porównywane ze sobą na podstawie występowania lub braku pewnych cech - podobne obiekty mają wiele wspólnych cech. Występowanie lub brak pewnych charakterystyk może być opisane za pomocą zmiennych zerojedynkowych wartość 1, jeżeli dana cecha występuje oraz 0 w przypadku jej braku. Zmiennna 1 2 3 4 5 obiekt i 1 0 0 1 1 obiekt j 1 1 0 1 0 Kwadrat odległości Euklidesowej w tej sytuacji oznacza liczbę niezgodnych wartości zmiennych dla obu obiektów. 2 5 2 2 2 2 2 2 ij l= 1 il jl d = ( x x ) = (1 1) + (0 1) + (0 0) + (1 1) + (1 0) = 2

Zmienne jakościowe (2) Podejście takie ma poważną wadę: wspólne wystąpienia 1-1 i 0-0 mają takie same wagi. W wielu praktycznych przypadkach wystąpienie 1-1 jest o wiele większym dowodem na podobieństwo obiektów niż pojawienie się 0-0. Tablica częstości połączeń dla obiektów i oraz j: Obiekt i Obiekt j 1 0 1 a b 0 c d 8

Miary podobieństwa na bazie tablicy częstości 9 a + d Równe wagi dla wystąpień 1-1 i 0-0. a + b + c + d 2( a + d) Podwójna waga dla wystąpień 1-1 i 0-0. 2( a + d) + b + c a + d Podwójna waga dla 1-0 i 0-1. a + 2( b + c) + d a Brak wystąpień 0-0 w liczniku. a + b + c + d a Brak wystąpień 0-0 w liczniku i mianowniku a + b + c (wystąpienia 0-0 są traktowane jako nieważne).

Metody hierarchiczne (1) Metody hierarchiczne polegają na tym, że tworzy się hierarchię klasyfikacji. Jeśli mamy n obserwacji, to uzyskana hierarchia liczy n klasyfikacji składających się odpowiednio z 1, 2, 3,..., n klas. Klasyfikacja zawierająca jedną klasę stanowi zbiór wszystkich obserwacji, natomiast złożona z n klas zawiera wyłącznie klasy jednoelementowe (klasa = pojedyncza obserwacja). 10

Metody hierarchiczne (2) W zależności od sposobu otrzymania ciągu klasyfikacji wyróżnia się dwa rodzaje metod hierarchicznych: 11 aglomeracyjne (grupowania) podziału

Metody aglomeracyjne - algorytm 1) Tworzymy macierz odległości wymiaru n x n. 2) Zakładamy, że każda obserwacja sama tworzy klasę, czyli mamy n klas jednoelementowych. 3) W każdym etapie grupowania znajdujemy taką parę klas, między którymi odległość jest najmniejsza. Obie klasy następnie łączymy w jedną, czyli liczba klas zmniejsza się o 1 (po r-tym etapie grupowania liczba klas jest równa n r). 4) Następnie musimy określić odległość nowo powstałej klasy od pozostałych klas. Odległości zapisujemy w nowej macierzy odległości, która jest wymiaru (n-r) x (n-r). 5) Procedurę opisaną w punktach 3) i 4) powtarzamy aż do uzyskania klasy zawierającej wszystkie obserwacje (czyli n 1 krotnie). 12

Rodzaje analizy hierarchicznej Wielość technik hierarchicznej analizy skupień bierze się z wielu istniejących metod mierzenia odległości między skupieniem jednoelementowym (pojedynczą obserwacją) a skupieniem zawierającym kilka obserwacji, lub między dwoma grupami wieloelementowymi. 13

Metoda najbliższego sąsiada Odległość między skupieniami i oraz j jest równa najmniejszej spośród nn i j odległości między parami obserwacji z których jedna pochodzi z i-tego a druga j-tego skupienia. D KL = min i C K, j C L d ij 14

Metoda najdalszego sąsiada Odległość między skupieniami i oraz j jest równa największej spośród nn i j odległości między parami obserwacji z których jedna pochodzi z i-tego a druga j-tego skupienia. D KL = max i C j C K, L d ij 15

Metoda średniej Odległość między skupieniami i oraz j jest równa uśrednionej wartości nn i j odległości między parami obserwacji z których jedna pochodzi z i-tego a druga j-tego skupienia. 16 D KL 1 = n n K L i C j C K L d ij

Metoda środka ciężkości Odległość między klasami jest określona jako odległość między środkami ciężkości (wektorami średnich) tych dwóch klas. D = ( x x ) KL ki li i 2 17

Metoda Warda Do oszacowania odległości między skupieniami wykorzystuje się podejście analizy wariancji. Metoda ta bowiem zmierza do minimalizacji sumy kwadratów odchyleń wewnątrz skupień. Na każdym etapie spośród wszystkich możliwych do łączenia par skupień wybiera się tą, która w rezultacie łączenia daje skupienie o minimalnym zróżnicowaniu. 18

Problemy z metodami hierarchicznymi Nie ma metody zawsze dającej lepsze rezultaty niż inne. Efektywność metody zależy w dużej mierze od charakteru danych. Na przykład: w przypadku występowania obserwacji nietypowych lepsze wyniki w porównaniu z metodą Warda daje metoda najbliższego sąsiada, ale jeśli dane zawierają kilka skupień zamaskowanych losowym szumem, to sytuacja jest odwrotna. Symulacje: najlepsze Warda, średniej grupowej, najdalszego sąsiedztwa. Efektywność i czytelność metod hierarchicznych maleje wraz ze wzrostem liczby obserwacji. Nie umożliwiają korekty już utworzonych skupień, w związku z tym błędne przypisanie do skupienia nie może zostać skorygowane w kolejnym kroku. 19