Czym jest analiza skupień?



Podobne dokumenty
Hierarchiczna analiza skupień

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Elementy statystyki wielowymiarowej

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Zmienne zależne i niezależne

Idea. Algorytm zachłanny Algorytmy hierarchiczne Metoda K-średnich Metoda hierarchiczna, a niehierarchiczna. Analiza skupień

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

STATYSTYKA I DOŚWIADCZALNICTWO

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Inżynieria biomedyczna, I rok, semestr letni 2014/2015 Analiza danych pomiarowych. Laboratorium IX: Analiza skupień

Wykład 5: Statystyki opisowe (część 2)

CLUSTERING. Metody grupowania danych

Testy nieparametryczne

Jednoczynnikowa analiza wariancji

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Analiza skupień. Idea

STATYSTYKA I DOŚWIADCZALNICTWO

Analiza współzależności zjawisk. dr Marta Kuc-Czarnecka

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Zagadnienie klasyfikacji (dyskryminacji)

Zadanie 1. Za pomocą analizy rzetelności skali i wspólczynnika Alfa- Cronbacha ustalić, czy pytania ankiety stanowią jednorodny zbiór.

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Statystyczna analiza danych w programie STATISTICA (wykład 2) Dariusz Gozdowski

Testowanie hipotez statystycznych

Wykład Centralne twierdzenie graniczne. Statystyka matematyczna: Estymacja parametrów rozkładu

Przykład 1. (A. Łomnicki)

Analiza składowych głównych. Wprowadzenie

Poznań, 14 grudnia Case Study 2 Analiza skupień

Testowanie hipotez dla dwóch zmiennych zależnych. Moc testu. Minimalna liczność próby; Regresja prosta; Korelacja Pearsona;

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Agnieszka Nowak Brzezińska

Tablica Wzorów Rachunek Prawdopodobieństwa i Statystyki

PDF created with FinePrint pdffactory Pro trial version

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Inteligentna analiza danych

Korelacja oznacza współwystępowanie, nie oznacza związku przyczynowo-skutkowego

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Analizy wariancji ANOVA (analysis of variance)

Analiza składowych głównych

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 11-12

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Zadania ze statystyki cz.8. Zadanie 1.

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Agnieszka Nowak Brzezińska Wykład III

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Wydział Matematyki. Testy zgodności. Wykład 03

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

Ważne rozkłady i twierdzenia c.d.

Statystyka. Opisowa analiza zjawisk masowych

Metody Statystyczne. Metody Statystyczne

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

ANALIZA CZYNNIKÓW ROKOWNICZYCH I METOD LECZENIA U CHORYCH NA ZIARNICĘ ZŁOŚLIWĄ

Skalowanie wielowymiarowe idea

STATYSTYKA MATEMATYCZNA

Metodologia badań psychologicznych. Wykład 12. Korelacje

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

WIELKA SGH-OWA POWTÓRKA ZE STATYSTYKI. Test zgodności i analiza wariancji Analiza wariancji

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

Statystyka. #6 Analiza wariancji. Aneta Dzik-Walczak Małgorzata Kalbarczyk-Stęclik. rok akademicki 2015/ / 14

Przedmowa Wykaz symboli Litery alfabetu greckiego wykorzystywane w podręczniku Symbole wykorzystywane w zagadnieniach teorii

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) założenie: znany rozkład populacji (wykorzystuje się dystrybuantę)

KORELACJE I REGRESJA LINIOWA

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Rozkłady statystyk z próby

JEDNOCZYNNIKOWA ANOVA

MODELE LINIOWE. Dr Wioleta Drobik

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

AKADEMIA GÓRNICZO-HUTNICZA Wydział Matematyki Stosowanej ROZKŁAD NORMALNY ROZKŁAD GAUSSA

REGRESJA I KORELACJA MODEL REGRESJI LINIOWEJ MODEL REGRESJI WIELORAKIEJ. Analiza regresji i korelacji

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

TESTY NIEPARAMETRYCZNE. 1. Testy równości średnich bez założenia normalności rozkładu zmiennych: Manna-Whitney a i Kruskala-Wallisa.

Wprowadzenie do teorii ekonometrii. Wykład 1 Warunkowa wartość oczekiwana i odwzorowanie liniowe

ANALIZA STRUKTURY WIEKOWEJ ORAZ PŁCIOWEJ CZŁONKÓW OFE Z WYKORZYSTANIEM METOD TAKSONOMICZNYCH

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Mikroekonometria 5. Mikołaj Czajkowski Wiktor Budziński

Zadania ze statystyki, cz.6

Techniki grupowania danych w środowisku Matlab

Wprowadzenie do analizy korelacji i regresji

Metoda największej wiarygodności

Wnioskowanie statystyczne. Statystyka w 5

STATYSTYKA MATEMATYCZNA

Właściwości testu Jarque-Bera gdy w danych występuje obserwacja nietypowa.

Agnieszka Nowak Brzezińska Wykład III

1 Podstawy rachunku prawdopodobieństwa

Weryfikacja hipotez statystycznych

Grupowanie danych. Wprowadzenie. Przykłady

Definicja testu psychologicznego

STATYSTYKA MATEMATYCZNA

Transkrypt:

Statystyczna analiza danych z pakietem SAS Analiza skupień metody hierarchiczne Czym jest analiza skupień? wielowymiarowa technika pozwalająca wykrywać współzależności między obiektami; ściśle związana z zagadnieniami klasyfikowania i porządkowania otaczającej rzeczywistości; Definicja ANALIZA SKUPIEŃ to grupa metod służących do utworzenia (oby) sensownej i interpretowalnej klasyfikacji początkowo niesklasyfikowanego zbioru danych z wykorzystaniem wartości zmiennych obserwowanych na poziomie każdego indywidualnego obiektu. B. S. Everitt (1998), The Cambridge Dictionary of Statistics

Jak działa analiza skupień? nie zakładamy a priori żadnej informacji o właściwościach grup ani o ich liczbie; podział w oparciu o informację zawartą w samych obiektach; dzielimy obiekty tak, aby podobne do się siebie znalazły się w tej samej grupie, a znacznie różniące się znalazły się w innych grupach; Cele analizy skupień eksploracja danych grupowanie obiektów lub ustalenie określonej struktury hierarchicznej z zbiorze obiektów w postaci drzewa binarnego; porównanie istniejącej typologii obiektów (opartej na podstawach teoretycznych) z wynikami grupowania empirycznego; dokonanie agregacji danych w jednorodne grupy również do dalszej analizy (zastąpienie obiektów przez obiekty uśrednione dla poszczególnych grup); Podstawowy podział metody hierarchiczne; metody niehierarchiczne (dzielące);

Rodzaje metod hierarchicznych Iteracja Aglomeracyjne Podziałowe 1 3 4 Grupowanie hierarchiczne w praktyce metody hierarchiczne są kręgosłupem analizy skupień najpowszechniej stosowane; niedoskonałości: trudno wskazać jednoznacznie najlepszą metodę hierarchiczną; przenoszenie / nawarstwianie błędów; Czaso- i zasobochłonne przy dużych zbiorach danych; Alternatywa = metody dzielące Metody dzielące (nazywane również grupowaniem optymalizacyjnym) dzielą zbiór obserwacji na określoną liczbę skupień minimalizując pewne kryterium (funkcję celu); Dwa popularne kryteria to: podobieństwo wewnątrz skupień; oddzielenie/separacja skupień;

Problemy z metodami dzielącymi narzucają pewne założenia dotyczące kształtu skupień; wymagają założenia liczby skupień przed rozpoczęciem analizy; wyniki mogą być uzależnione od: wyboru początkowych środków ciężkości, obecności obserwacji nietypowych; kolejności obserwacji w zbiorze; Wsadowe struktury danych - przykłady Macierz danych Macierz odległości (niepodobieństwa) lub macierz korelacji Własności dobrej miary podobieństwa 1. Symetria: d(x,y) = d(y,x). Nierówność trójkątna: d(x,y) d(x,z) + d(y,z) 3. Rozróżnialność innych: jeśli d(x,y) 0 to x y 4. Nierozróżnialność identycznych: jeśli x = y, to d(x,y) = 0. Czasem najprostsze stosowane miary podobieństwa, (np. współczynnik korelacji liniowej Pearsona) nie spełniają jednego lub więcej z powyższych kryteriów.

Odległość euklidesowa Przypomnijmy twierdzenie Pitagorasa: (x 1, x ) (0, 0) h = x 1 + x x 1 Odległość euklidesowa między punktami x i w w przestrzeni p-wymiarowej dana jest wzorem: x h= p E = k w k ) k= 1 d (x i= 1 ( x i = x 0) i= 1 i Miary oparte na odległości euklidesowej d kwadrat odległości euklidesowej; standaryzowana odległość euklidesowa; = x w ( ) x +... + ( w ) p x w = ( 1 1 p p k k SE ) s1 sp k= 1 sk Odległość miejska (w 1,w ) (x 1,x ) = x Odległość miejska (Manhattan) między dwoma punktami jest mierzona wzdłuż prostopadłych osi. d M p k= 1 k w k

Miary podobieństwa dla zmiennych nominalnych Pary obserwacji mogą być porównywane przez występowanie lub brak pewnych charakterystyk. Wtedy podobne elementy będą miały więcej wspólnych charakterystyk niż elementy niepodobne. Przykłady miar dla zmiennych nominalnych: Odległość Hamminga; Odległość Levenshteina (tzw. odległość edycyjna); Efekt kolejności W niektórych przypadkach kolejność obserwacji może mieć wpływ na wyniki; Ta sama analiza zastosowana na tym samym zbiorze danych jedynie o zmienionej kolejności obserwacji może dać całkowicie różne skupienia!; Aglomeracyjna metoda hierarchiczna 1. Zacznij od liczby skupień równej liczbie obserwacji (N) oraz symetrycznej macierzy odległości (albo podobieństw) - N N.. Znajdź w macierzy odległości parę skupień będących najbliżej siebie. 3. Połącz skupienia z punktu (.) w jedno nowe skupienie. Uaktualnij macierz odległości dla liczby skupień zmniejszonej o 1. 4. Powtórz kroki (.) i (3.) N-1 razy.

Dendrogram grupowania hierarchicznego Cel praktyczny W praktyce większość badaczy stosujących analizę skupień jest zainteresowanych podziałem analizowanej grupy obserwacji na określoną jako optymalną liczbę grup. Sprowadza się to do obcięcia dendrogramu na jakimś określonym poziomie. Rodzaje analizy hierarchicznej Wielość technik hierarchicznej analizy skupień bierze się z wielu istniejących metod mierzenia odległości między skupieniem jednoelementowym (pojedynczą obserwacją) a skupieniem zawierającym kilka obserwacji, lub między dwoma grupami wieloelementowymi.

Metoda najbliższego sąsiedztwa (single linkage) Odległość między skupieniami to odległość między dwoma najbliższymi obiektami. Cluster K Cluster L D KL D KL = min i CK min j CL d( xi, x j ) (METHOD=SINGLE) Metoda najbliższego sąsiedztwa Ma wiele teoretycznie pożądanych własności, ale wypada słabo w symulacjach Monte Carlo; Nie narzucając żadnych ograniczeń na kształt skupień jest w stanie odkryć zwarte grupy o kształcie rozciągniętym i nieregularnym; Metoda najdalszego sąsiedztwa (complete linkage) Odległość między skupieniami to odległość między dwoma najdalszymi obiektami. Cluster K D KL (METHOD=COMPLETE) DKL = max i CKmax j CL d( xi, xj) Cluster L

Metoda najdalszego sąsiedztwa Mocno obciążona w stronę uzyskiwania zwartych grup o w przybliżeniu równych średnicach; Nawet nieskrajne obserwacje odstające mogą w dużym stopniu zaburzać wynik; Metoda średniej grupowej (average linkage) Odległość między skupieniami to średnia arytmetyczna odległości między wszystkimi parami obiektów należącymi do różnych skupień. Cluster K d(x i,x j ) (METHOD=AVERAGE) d( xi x j ) D 1 KL = n n, K L i C K j C L Cluster L Metoda średniej grupowej Ma tendencję do łączenia grup z małą wariancją i jest nieznacznie obciążona w kierunku uzyskiwania skupień o równej wariancji; Ponieważ bierze ona pod uwagę wszystkie elementy skupienia, a nie pojedyncze obserwacje, jest bardziej od innych metod odporna na występowanie obserwacji nietypowych;

Metoda środka ciężkości (centroid linkage) Odległość między skupieniami jest zdefiniowana jako kwadrat odległości euklidesowej między środkami ciężkości obu skupień ( x i x ). Cluster K X D KL K L (METHOD=CENTROID) D KL K L = x x Cluster L X Metoda środka ciężkości Ponieważ porównuje środki ciężkości jest również dość odporna na występowanie obserwacji nietypowych; W innych aspektach może nie dawać tak dobrych wyników jak metoda Warda lub średniej grupowej; Przy łączeniu dwóch grup nierównej wielkości mniejsza z nich staje się w znacznym stopniu zdominowana przez większą; Metoda mediany (median method) Odległość między skupieniami to odległość środkowa (w sensie mediany) między obiektami z różnych skupień. Cluster K D KL Cluster L Cluster M D JK Cluster J D JL D JM (METHOD=MEDIAN) D = JK + D JL D 4 KL

Metoda mediany Wypada słabo w symulacjach Monte Carlo; Ma mało (jeśli w ogóle) zalet w porównaniu z pozostałymi metodami; Grupa powstała z połączenia dwóch innych może być interpretowana jako pośrednia pozycja między połączonymi skupieniami; Metoda Warda (minimalnej wariancji) Znajdowane są środki ciężkości skupień i odległości od nich, które następnie są sumowane (jako miarę należy w tej metodzie wybrać kwadrat odległości euklidesowej wtedy interpretacją metody Warda jest minimalizacja wewnątrzgrupowej wariancji) ANOVA ANOVA D (METHOD=WARD) KL x K x L = 1 1 + n K n L Metoda Warda ma tendencję do łączenia grup o małej liczbie obserwacji i jest mocno obciążona w kierunku uzyskiwania skupień o zbliżonym kształcie i mniej więcej równej liczbie obserwacji; Jest również bardzo wrażliwa na obserwacje nietypowe;

Problemy z metodami hierarchicznymi Nie ma metody zawsze dającej lepsze rezultaty niż inne metody Symulacje: najlepsze Warda, średniej grupowej, najdalszego sąsiedztwa; Efektywność i czytelność metod hierarchicznych maleje wraz ze wzrostem liczby obserwacji; Nie umożliwiają korekty już utworzonych skupień, w związku z tym błędne przypisanie do skupienia nie może zostać skorygowane w kolejnym kroku; Określenie liczby skupień Odpowiedzi na pytanie Ile mamy segmentów? można szukać stosując różne kryteria: dendrogram; cubic clustering criterium Sarle a; statystyka pseudo-f; test pseudo-t ; Interpretowanie dendrogramu

Cubic Clustering Criterion Sarla Cubic clustering criterion Sarla (CCC) testuje następującą hipotezę: H 0 = dane pochodzą z rozkładu jednostajnego; H 1 = dane pochodzą z mieszanych wielowymiarowych rozkładów normalnych o równych wariancjach i prawdopodobieństwie wylosowania. Dodatnie wartości CCC oznaczają, że uzyskana wartość R jest większa niż oczekiwana w przypadku rozkładu jednostajnego (wtedy odrzucamy H 0 ). Graficzna interpretacja CCC Sarla Statystyka Pseudo-F Statystyka pseudo-f statistic (lub PSF) mierzy rozdzielenie między grupami na bieżącym poziomie hierarchii; Wysokie wartości wskazują, że średnie wartości rozpatrywanych zmiennych różnią istotnie się między grupami; Nie ma rozkładu F Snedecora;

Kryterium Pseudo-F Potencjalne rozwiązania Statystyka Pseudo-T Statystyka pseudo-t jest wariantem testu T Hotellinga. jeśli wartość statystyki pseudo-t jest duża, rozpatrywane w danym kroku dwa skupienia nie powinny być połączone, ponieważ średnie wartości rozpatrywanych zmiennych różnią się istotnie między nimi; jeśli wartość statystyki jest mała, rozpatrywane w danym kroku dwa skupienia mogą być bezpiecznie połączone; Kryterium Pseudo-T Potencjalne rozwiązania

Dziękuję za uwagę