Techniki grupowania danych w środowisku Matlab

Podobne dokumenty
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Klasteryzacja danych

CLUSTERING. Metody grupowania danych

Elementy statystyki wielowymiarowej

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Monitorowanie i Diagnostyka w Systemach Sterowania

KP, Tele i foto, wykład 3 1

Doświadczalnictwo leśne. Wydział Leśny SGGW Studia II stopnia

1.UKŁADY RÓWNAŃ LINIOWYCH

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

46 Olimpiada Biologiczna

Literatura. Leitner R., Zacharski J., Zarys matematyki wyŝszej dla studentów, cz. III.

Laboratorium nr 5. Temat: Funkcje agregujące, klauzule GROUP BY, HAVING

4.3 Grupowanie według podobieństwa

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SPRAWDZENIE PRAWA OHMA POMIAR REZYSTANCJI METODĄ TECHNICZNĄ

Egzamin ze Statystyki, Studia Licencjackie Stacjonarne czerwiec 2007 Temat A

ANALIZA HIERARCHICZNA PROBLEMU W SZACOWANIU RYZYKA PROJEKTU INFORMATYCZNEGO METODĄ PUNKTOWĄ. Joanna Bryndza

1. Eliminuje się ze zbioru potencjalnych zmiennych te zmienne dla których korelacja ze zmienną objaśnianą jest mniejsza od krytycznej:

Diary przydatne polecenie. Korzystanie z funkcji wbudowanych i systemu pomocy on-line. Najczęstsze typy plików. diary nazwa_pliku

Analiza składowych głównych. Wprowadzenie

KNIME podstawy obsługi programu. Pracownia Chemometrii Środowiska Katedra Chemii i Radiochemii Środowiska Wydział Chemii UG

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Co to jest grupowanie

Wykład 10 Skalowanie wielowymiarowe

Zestaw 12- Macierz odwrotna, układy równań liniowych

Układy równań liniowych. Ax = b (1)

WSKAZÓWKI DO WYKONANIA SPRAWOZDANIA Z WYRÓWNAWCZYCH ZAJĘĆ LABORATORYJNYCH

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

Uczenie sieci radialnych (RBF)

Hierarchiczna analiza skupień

PROJEKT CZĘŚCIOWO FINANSOWANY PRZEZ UNIĘ EUROPEJSKĄ. Opis działania raportów w ClearQuest

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Pzetestuj działanie pętli while i do...while na poniższym przykładzie:

Porównanie modeli statystycznych. Monika Wawrzyniak Katarzyna Kociałkowska

Egzamin ze statystyki, Studia Licencjackie Stacjonarne. TEMAT C grupa 1 Czerwiec 2007

STATYSTYKA I DOŚWIADCZALNICTWO

TEORETYCZNE PODSTAWY INFORMATYKI

LABORATORIUM AUDIOLOGII I AUDIOMETRII

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

KLASYFIKACJA. Słownik języka polskiego

INSTRUKCJE ITERACYJNE

Temat: BADANIE NIEZALEśNOŚCI DWÓCH CECH JAKOŚCIOWYCH TEST CHI KWADRAT. Anna Rajfura 1

Laboratorium nr 1. i 2.

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

Wszystkie wyniki w postaci ułamków należy podawać z dokładnością do czterech miejsc po przecinku!

Rozdział 22 Pole elektryczne

Równania kwadratowe. Zad. 4: (profil matematyczno-fizyczny) Dla jakich wartości parametru m równanie mx 2 + 2x + m 2 = 0 ma dwa pierwiastki mniejsze

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Zadania po 4 punkty. 7. Na rysunku z prawej dana jest gwiazda pięcioramienna ABCDE. Kąt przy wierzchołku C ma miarę: A) 22 B) 50 C) 52 D) 58 E) 80

Zadanie 1. Analiza Analiza rozkładu

Wymagania na poszczególne oceny szkolne dla klasy VI. (na podstawie Grażyny Koba, Teraz bajty. Informatyka dla szkoły podstawowej.

Czym jest analiza skupień?

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI

Obszar pierwszy to pasek narzędzi (rys. 1) zawierający skróty do najczęściej uŝywanych funkcji. Rys. 1 Pasek Narzędzi

Algorytm grupowania danych typu kwantyzacji wektorów

Definicja pochodnej cząstkowej

1 : m z = c k : W. c k. r A. r B. R B B 0 B p. Rys.1. Skala zdjęcia lotniczego.

2. Permutacje definicja permutacji definicja liczba permutacji zbioru n-elementowego

WYKORZYSTANIE NARZĘDZIA Solver DO ROZWIĄZYWANIA ZAGADNIENIA Problem przydziału

Regresja wielokrotna jest metodą statystyczną, w której oceniamy wpływ wielu zmiennych niezależnych (X1, X2, X3,...) na zmienną zależną (Y).

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Akademia Górniczo-Hutnicza

Luty 2001 Algorytmy (4) 2000/2001

Teraz bajty. Informatyka dla szkoły podstawowej. Klasa VI

Instrukcja automatycznego tworzenia pozycji towarowych SAD na podstawie danych wczytywanych z plików zewnętrznych (XLS).

Wymagania egzaminacyjne z matematyki. Klasa 3C. MATeMATyka. Nowa Era. Klasa 3

jest rozwiązaniem równania jednorodnego oraz dla pewnego to jest toŝsamościowo równe zeru.

KORELACJE I REGRESJA LINIOWA

Testy nieparametryczne

Eksploracja danych w środowisku R

Psychometria PLAN NAJBLIŻSZYCH WYKŁADÓW. Co wyniki testu mówią nam o samym teście? A. Rzetelność pomiaru testem. TEN SLAJD JUŻ ZNAMY

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

Politechnika Poznańska Instytut Technologii Mechanicznej. Laboratorium Programowanie obrabiarek CNC. Nr 2

pedagogicznego sprawowanego w roku szkolnym 2009/2010.

Algorytmy wyznaczania centralności w sieci Szymon Szylko

Predykcja a kozy - studium przypadku

Wyniki pomiarów okresu drgań dla wahadła o długości l = 1,215 m i l = 0,5 cm.

Katalog wymagań programowych na poszczególne stopnie szkolne. Matematyka. Poznać, zrozumieć

Komunikaty statystyczne medyczne

1. Grupowanie Algorytmy grupowania:

Algorytm grupowania danych typu kwantyzacji wektorów

CMAES. Zapis algorytmu. Generacja populacji oraz selekcja Populacja q i (t) w kroku t generowana jest w następujący sposób:

46 Olimpiada Biologiczna

08. Normalizacja wyników testu

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Podstawowe definicje statystyczne

5.4. ROZKŁAD WIELOMIANU NA CZYNNIKI

Tutaj powinny znaleźć się wyniki pomiarów (tabelki) potwierdzone przez prowadzacego zajęcia laboratoryjne i podpis dyżurujacego pracownika obsługi

ρ siła związku korelacyjnego brak słaba średnia silna bardzo silna

I.1.1. Dietetyk 322[12]

InŜynieria ruchu str. 114

Taksonomia numeryczna co to jest?

Ćw. 2: Analiza błędów i niepewności pomiarowych

Transkrypt:

Techniki grupowania danych w środowisku Matlab 1. Normalizacja danych. Jedne z metod normalizacji: = = ma ( y =, rσ ( = ( ma ( = min = (1 + e, min ( = σ wartość średnia, r współczynnik, σ odchylenie standardowe y 1 Do normalizacji danych przed grupowaniem moŝemy zastosować funkcję zscore przekształcającej dane w zbiorze uŝywając tej samej skali proporcjonalnej. Z = zscore(d, gdzie D jest zbiorem danych. Wynikiem jest odchylenie wartości zawartych w kaŝdej kolumnie od jej średniej znormalizowanej przez jej odchylenie standardowe. JeŜeli w zbiorze danych znajduje się kolumna V to Z dla niej wynosi: (V-mean(V./std(V. 2. Określenie podobieństwa pomiędzy danymi w zbiorze danych. Do określenia podobieństwa pomiędzy kaŝdą parą danych w zbiorze posłuŝymy się funkcją pdist tworząc macierz odległości. Dane są tym bardziej podobne do siebie, im odległość między nimi jest mniejsza. Y=pdist(Z,Typodleglosci, gdzie Z jest zbiorem danych. 1

Typodleglosci (przykładowe Tabela 1. Sposoby obliczania odległości. Wzór Nazwa 'euclidean' Odległość Euklidesowa 'seuclidean' 'cityblock' Standaryzowana odległość Euklidesowa Odległość miejska 'cosine' Jeden minus kosinus kąta pomiędzy punktami 'correlation' 'hamming' Jeden minus korelacja pomiędzy punktami Odległość Hamminga 3. Grupowanie danych. Po określeniu odległości pomiędzy danymi w zbiorze danych naleŝy zdecydować, w jaki sposób dane powinny być pogrupowane. Do tego celu uŝywamy funkcji linkage, która korzystając z odległości wyznaczonych pomiędzy danymi grupuje je tworząc drzewo hierarchiczne. Tworzenie drzewa zaleŝy od zastosowanej metody. Z = linkage(y, Nazwametody, gdzie Y macierz odległości Tabela 2. Metody grupowania elementów zbioru. Nazwametody 'single' 'complete' 'average' 'weighted' Sposób grupowania elementów zbioru ze sobą NajbliŜsza odległość Najdalsza odległość Odległość średnia Wagowa odległość średnia Pogrupowane dane moŝna wyświetlić w postaci drzewa za pomocą funkcji dendrogram. H=dendrogram(Z. 4. Weryfikacja sposobu grupowania. Za pomocą funkcji cophenet porównujemy dwa zbiory wartości i obliczamy korelację pomiędzy nimi. Im wartość owej korelacji jest bliŝsza jedności tym lepiej sposób grupowania danych odzwierciedla faktyczne podobieństwa między danymi. C = cophenet(z,y, gdzie Z zawiera dane zgrupowane w postaci drzewa hierarchicznego, a Y jest macierzą odległości. 2

5. Tworzenie zadanej liczby grup. Za pomocą funkcji cluster moŝemy narzucić podział danych na zadaną liczbę grup. T = cluster(z,'cutoff',prógwspółczynnikaniespójności, próg współczynnika niespójności wiąŝący się z wysokością drzewa wymusza grupowanie danych posiadających jego wartość mniejszą niŝ progowa. T = cluster(z,'maclust',zadanaliczbagrup, wymuszenie podziału danych na zadaną liczbę grup. Ćwiczenia. PoniŜsza tabela obrazuje natęŝenie ruchu ulicznego na trzech skrzyŝowaniach w mieście zaleŝne od godziny pomiaru. Tabela 3. Dane testowe. Godzina/ Nr 1 skrzyŝowania 2 3 1 11 11 9 2 7 13 11 3 14 17 20 4 11 13 9 5 43 51 69 6 38 46 76 7 61 132 186 8 75 135 180 9 38 88 115 10 28 36 55 11 12 12 14 12 18 27 30 13 18 19 29 14 17 15 18 15 19 36 48 16 32 47 10 17 42 65 92 18 57 66 151 19 44 55 90 20 114 145 257 21 35 58 68 22 11 12 15 23 13 9 15 24 10 9 7 Poleceniem load count.dat wczytujemy dane testowe do przestrzeni roboczej środowiska Matlab. Ćwiczenie 1. Dokonać normalizacji danych. Wyświetlić dane w postaci punktów w przestrzeni (funkcja plot3. 3

Dobrać odpowiedni typ odległości oraz metodę wyznaczaniu podobieństwa pomiędzy danymi w zbiorze testowym tak, aby współczynnik korelacji cophenet a był optymalny. Ćwiczenie 2. Wyświetlić drzewo hierarchiczne. Dobrać próg współczynnika niespójności tak, by utworzyć 2, 4, 6 i 8 grup danych. Ćwiczenie 3. Pogrupować natęŝenia ruchu dla kaŝdego skrzyŝowania osobno, wyznaczyć godziny największego i najmniejszego natęŝenia ruchu (grupy godzin. Wyświetlić drzewa hierarchiczne dla kaŝdego skrzyŝowania osobno. 6. Grupowanie danych za pomocą algorytmu k średnich. Algorytm k średnich traktuje dane jako miejsce (punkt w przestrzeni i tworząc grupy dba by elementy w grupie były blisko siebie i wystarczająco daleko od elementów z innych grup. KaŜdy klaster (dane zgrupowane reprezentowany jest przez jego elementy oraz przez środek klastra. Środek klastra jest to punkt gdzie suma odległości wszystkich elementów od niego jest minimalna. I = kmeans(x,liczbagrup,'distance',typodleglosci, gdzie X reprezentuje dane do klasteryzacji, 'distance' realizacja wybranego rodzaju obliczania odległości do środka klastra Typy odległości: -'sqeuclidean' -'cityblock' -'cosine' -'correlation' -'Hamming' Otrzymawszy pogrupowane dane moŝemy wyświetlić je w postaci zarysu grup. Funkcja silhouette wyświetla miarę jak blisko kaŝdy punkt naleŝący do grupy jest oddalony od punktów z grup sąsiadujących. Wyświetlany wynik zawiera się w przedziale <-1:1>, przy czym wartości mniejsze niŝ zero i zmierzające do -1 oznaczają, Ŝe dany punkt został umieszczony w niewłaściwym klastrze (grupie. [silh,h] = silhouette(x,i,typyodległosci WyróŜniamy następujące rodzaje odległości: -'Euclidean' -'sqeuclidean' -'cityblock' -'cosine' -'correlation' -'Hamming' 4

7. Określanie poprawnej liczby klastrów. Chcąc określić czy załoŝona przy wywołaniu funkcji kmeans liczba klastrów jest prawidłowa obliczamy średnią wartość zwracaną przez funkcję silhouette. Im większa wartość średnia tym liczba klastrów jest bardziej poprawna. S=means(silh Ćwiczenie 4. Określić optymalny typ odległości przy grupowaniu kmeans dla wszystkich skrzyŝowań łącznie Wyświetlić zarysy klastrów Ćwiczenie 5. Określić prawidłową liczbę klastrów dla wszystkich skrzyŝowań łącznie. Określić prawidłową liczbę klastrów dla pierwszych dwóch skrzyŝowań. Które charakteryzuje się większą róŝnorodnością danych? 5