Grupowanie sekwencji czasowych

Podobne dokumenty
Optymalizacja harmonogramów budowlanych - problem szeregowania zadań

MODYFIKACJA KOSZTOWA ALGORYTMU JOHNSONA DO SZEREGOWANIA ZADAŃ BUDOWLANYCH

wtedy i tylko wtedy, gdy rozwiązanie i jest nie gorsze od j względem k-tego kryterium. 2) Macierz części wspólnej Utwórz macierz

Matematyka dyskretna. Wykład 2: Kombinatoryka. Gniewomir Sarbicki

Optymalizacja harmonogramów budowlanych - problem szeregowania zadań

Prawdopodobieństwo i statystyka

BELKI CIĄGŁE STATYCZNIE NIEWYZNACZALNE

jest scharakteryzowane przez: wektor maksymalnych żądań (ang. claims), T oznaczający maksymalne żądanie zasobowe zadania P j

( ) + ( ) T ( ) + E IE E E. Obliczanie gradientu błędu metodą układu dołączonego

4. Weryfikacja modelu

Prognozowanie notowań pakietów akcji poprzez ortogonalizację szeregów czasowych 1

A. Cel ćwiczenia. B. Część teoretyczna

TEORIA OBWODÓW I SYGNAŁÓW LABORATORIUM

σ-ciało zdarzeń Niech Ω będzie niepustym zbiorem zdarzeń elementarnych, a zbiór F rodziną podzbiorów zbioru Ω spełniającą warunki: jeśli A F, to A F;

Algorytm wyznaczania krotności diagnostycznej struktury opiniowania diagnostycznego typu PMC 1

DSP-MATLAB, Ćwiczenie 5, P.Korohoda, KE AGH. Ćwiczenie 5. Przemysław Korohoda, KE, AGH

Podstawy rachunku prawdopodobieństwa (przypomnienie)

Metoda rozwiązywania układu równań liniowych z symetryczną, nieokreśloną macierzą współczynników ( 0 )

Colloquium 3, Grupa A

Algebra liniowa z geometrią analityczną

P k k (n k) = k {O O O} = ; {O O R} =

Sterowanie Ciągłe. Używając Simulink a w pakiecie MATLAB, zasymulować układ z rysunku 7.1. Rys.7.1. Schemat blokowy układu regulacji.

Komputerowa reprezentacja oraz prezentacja i graficzna edycja krzywoliniowych obiektów 3d

L.Kowalski zadania z rachunku prawdopodobieństwa-zestaw 1 ZADANIA - ZESTAW 1. . (odp. a)

Ćwiczenie 4 Badanie wpływu asymetrii obciążenia na pracę sieci

PROCENTY, PROPORCJE, WYRAŻENIA POTEGOWE

4.15 Badanie dyfrakcji światła laserowego na krysztale koloidalnym(o19)

WPŁYW SZUMÓW KOLOROWYCH NA DZIAŁANIE FILTRU CZĄSTECZKOWEGO

R w =

Metody komputerowe i obliczeniowe Metoda Elementów Skoczonych. Element jednowymiarowy i jednoparametrowy : spryna

Wykorzystanie metody DEA w przestrzenno-czasowej analizie efektywności inwestycji

Detekcja i śledzenie ruchomych obiektów w obrazie

REFERAT PRACY MAGISTERSKIEJ Symulacja estymacji stanu zanieczyszczeń rzeki z wykorzystaniem sztucznych sieci neuronowych.

(U.3) Podstawy formalizmu mechaniki kwantowej

Metody numeryczne. Instytut Sterowania i Systemów Informatycznych Wydział Elektrotechniki, Informatyki i Telekomunikacji Uniwersytet Zielonogórski

KONCEPCJA SYSTEMU BONIFIKAT DLA ODBIORCÓW ZA NIEDOTRZYMANIE PRZEZ DOSTAWCĘ WYMAGANEGO POZIOMU JAKOŚCI NAPIĘCIA

Wykres linii ciśnień i linii energii (wykres Ancony)

ANALIZA WIELOKRYTERIALNA

OPTYMALIZACJA PRZEPUSTOWOŚCI SIECI KOMPUTEROWYCH ZA POMOCĄ ALGORYTMÓW GENETYCZNYCH

Zastosowanie metody PCA do opisu wód naturalnych

Informatyka medyczna

Bilansowanie hierarchicznej struktury zasobów w planowaniu przedsięwzięć inżynieryjno-budowlanych

Materiały do wykładów na temat Obliczanie sił przekrojowych i momentów przekrojowych. dla prętów zginanych.

WYKŁAD 5 METODY OPTYMALIZACJI NIELINIOWEJ BEZ OGRANICZEŃ

PLAN WYKŁADU OPTYMALIZACJA GLOBALNA ALGORYTM MRÓWKOWY (ANT SYSTEM) ALGORYTM MRÓWKOWY. Algorytm mrówkowy

Koła rowerowe malują fraktale

Koła rowerowe kreślą fraktale

CYKLICZNY PROBLEM PRZEPŁYWOWY Z PRZEZBROJENIAMI MASZYN

ZASADY WYZNACZANIA BEZPIECZNYCH ODSTĘPÓW IZOLACYJNYCH WEDŁUG NORMY PN-EN 62305

Programowanie wielocelowe lub wielokryterialne

DRGANIA WŁASNE RAM OBLICZANIE CZĘSTOŚCI KOŁOWYCH DRGAŃ WŁASNYCH

Hierarchiczna analiza skupień

STATYSTYKA OPISOWA ZARZĄDZANIE

Wstęp. Przygotowanie materiału doświadczalnego do badań. Zastosowanie logiki rozmytej do obliczeń

PORÓWNANIE WYBRANYCH ALGORYTMÓW OPTYMALIZACJI ROZPŁYWU MOCY W SYSTEMIE ELEKTROENERGETYCZNYM A COMPARISON OF SELECTED OPTIMAL POWER FLOW ALGORITHMS

Wpływ zamiany typów elektrowni wiatrowych o porównywalnych parametrach na współpracę z węzłem sieciowym

LZNK. Rozkªad QR. Metoda Householdera

koszt kapitału D/S L dźwignia finansowa σ EBIT zysku operacyjnego EBIT firmy. Firmy Modele struktury kapitału Rys Krzywa kosztów kapitału.

1 Przestrzeń zdarzeń elementarnych

OCENA JAKOŚCI PROCESU LOGISTYCZNEGO PRZEDSIĘBIORSTWA PRZEMYSŁOWEGO METODĄ UOGÓLNIONEGO PARAMETRU CZĘŚĆ II

Wyznaczenie prędkości pojazdu na podstawie długości śladów hamowania pozostawionych na drodze

Pomiary napięć przemiennych

PRAKTYCZNY PRZYKŁAD OCENY ŚRODOWISKOWEGO RYZYKA ZDROWOTNEGO

P(T) = P(T M) = P(T A) = P(T L) = P(T S) = P(T L M) = P(T L A) = P(T S M) = P(T S A) =

ZL - STATYSTYKA - Zadania do oddania

(u) y(i) f 1. (u) H(z -1 )

METODA PROJEKTOWANIA REJONU ZMIANY KIERUNKU TRASY KOLEJOWEJ

Znaczenie kapitału ludzkiego w budowie spójności społeczno-gospodarczej w wymiarze lokalnym (na przykładzie woj. mazowieckiego)

A4: Filtry aktywne rzędu II i IV

Materiały dydaktyczne. Matematyka. Semestr III. Wykłady

ZARYS METODY OPISU KSZTAŁTOWANIA SKUTECZNOŚCI W SYSTEMIE EKSPLOATACJI WOJSKOWYCH STATKÓW POWIETRZNYCH

NUMERYCZNA SYMULACJA STOPNIOWEGO USZKADZANIA SIĘ LAMINATÓW KOMPOZYTOWYCH NUMERICAL SIMULATION OF PROGRESSIVE DAMAGE IN COMPOSITE LAMINATES

β blok sprzężenia zwrotnego

Restauracja a poprawa jakości obrazów

WSPOMAGANIE DECYZJI W OBSZARZE WYZNACZANIA TRAS POJAZDÓW

Luty 2001 Algorytmy (4) 2000/2001

Modelowanie przez zjawiska przybliżone. Modelowanie poprzez zjawiska uproszczone. Modelowanie przez analogie. Modelowanie matematyczne

jednoznacznie wyznaczają wymiary wszystkich reprezentacji grup punktowych, a związki ortogonalności jednoznacznie wyznaczają ich charaktery

Kierunki racjonalizacji jednostkowego kosztu produkcji w przedsiębiorstwie górniczym

Zofia MIECHOWICZ, Zielona Góra. v 1. v 2

Metody probabilistyczne Rozwiązania zadań

Metody optymalizacji nieliniowej (metody programowania nieliniowego) Ewa Niewiadomska-Szynkiewicz Instytut Automatyki i Informatyki Stosowanej

Uwaga 1.1 Jeśli R jest relacją w zbiorze X X, to mówimy, że R jest relacją w zbiorze X. Rozważmy relację R X X. Relację R nazywamy zwrotną, gdy:

Zastosowanie syntetycznych mierników dynamiki struktury w analizie zmian aktywności ekonomicznej ludności wiejskiej

Programowanie wielocelowe lub wielokryterialne

wagi cyfry pozycje

Sieci Kohonena Grupowanie

ZASTOSOWANIE ALGORYTMÓW GENETYCZNYCH DO OPTYMALIZACJI SIECI KOMPUTEROWYCH

RACHUNEK PRAWDOPODOBIEŃSTWA WYKŁAD 5.

ROZDZIAŁ 10 METODA KOMPONOWANIA ZESPOŁU CZYNNIKI EFEKTYWNOŚCI SKŁADU ZESPOŁU

Analiza nośności poziomej pojedynczego pala

Równania rekurencyjne 1 RÓWNANIA REKURENCYJNE

Kody Huffmana oraz entropia przestrzeni produktowej. Zuzanna Kalicińska. 1 maja 2004

Badanie stacjonarności szeregów czasowych w programie GRETL

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

ładunek do przewiezienia dwie możliwości transportu

Matematyka dyskretna. Andrzej Łachwa, UJ, /10

Agnieszka Nowak Brzezińska

PODZIAŁ DANYCH NA KLASY

FILTRACJA KALMANA W TECHNICE NA PRZYKŁADZIE URZĄDZENIA SST

Transkrypt:

BIULETYN INSTYTUTU AUTOMATYKI I ROBOTYKI NR 3, 006 Grupowanie sewencji czasowych Tomasz PAŁYS Załad Automatyi, Instytut Teleinformatyi i Automatyi WAT, ul. Kalisiego, 00-908 Warszawa STRESZCZENIE: W artyule przedstawiono metody grupowania sewencji czasowych. Oryginalność tego problemu polega na tym, że grupowane elementy stanowią sewencję, a uzysane grupy mogą stanowić tylo segmenty sewencji. Przedstawiono dwie metody grupowania sewencji czasowych. Pierwsza metoda umożliwia uzysanie grup rozłącznych. W wyniu zastosowania drugiej metody otrzymujemy grupy, tóre mogą się na siebie naładać. SŁOWA KLUCZOWE: grupowanie sewencji, grupowanie z naładaniem. Wprowadzenie Celem grupowania jest podział zbioru obietów na grupy (supienia) złożone z obietów jednorodnych bądź podobnych. Wszystie znane metody grupowania nie uwzględniają olejności puntów w sewencji. W artyule zostaną przedstawione dwie metody grupowania sewencji puntów: hierarchiczna metoda grupowania rozłącznego, hierarchiczna metoda grupowania z naładaniem. Do sonstruowania metody grupowania sewencji czasowych przyjęto jao wyjściową metodę hierarchiczną []. Przyjmuje się, że dane wejściowe procesu grupowania stanowi zbiór puntów: O = {o, o,..., o t,..., o T }, gdzie: T liczba puntów. Proces grupowania metodą hierarchiczną odbywa się przez olejne łączenie położonych najbliżej siebie grup. Grupowanie ończy się po uzysaniu jednej grupy złożonej ze wszystich puntów. Tai sposób postępowania prowadzi do utworzenia drzewa grupowania, tóre umożliwia uzysanie podziału na żądaną liczbę grup albo grup o zadanych właściwościach. Aby ocenić jaość grupowania, można posłużyć się współczynniiem orelacji grupowania (ang. cophenetic correlation coefficient) lub współczynniiem 09

T. Pałys niezgodności grupowania (ang. inconsistency coefficient) [4], [5].. Grupowanie sewencji czasowych Przedstawione niżej metody grupowania sewencji czasowych bazują na hierarchicznej metodzie grupowania rozłącznego puntów, tórej opis można znaleźć w [3], [], []. Dane wejściowe procesu grupowania stanowi sewencja puntów O (a nie zbiór puntów). Dopasowanie do onretnego zadania jest możliwe poprzez odpowiedni dobór metryi, czyli sposobu oreślania odległości pomiędzy puntami przestrzeni cech oraz odpowiedni dobór sposobu oreślenia odległości pomiędzy poszczególnymi grupami [], [3], []. Opracowane metody grupowania sewencji czasowych, w odróżnieniu od metody bazowej, polegają na łączeniu tylo grup sąsiednich. Dwie grupy nazwano sąsiednimi pod waruniem, że w jednej z nich istnieje punt, tóry w drugiej grupie ma swój poprzedni albo następni (w sewencji)... Hierarchiczna metoda grupowania rozłącznego sewencji puntów Niech d(o n, o z ) oznacza odległość pomiędzy puntami w przestrzeni D wymiarowej, gdzie: o n o n D = L R, o on D z o z D = L R. ( ) ozd Przez G n oznaczono grupę o numerze n, T n jej liczebność (n =,..., N) ( n o ), z,..., T element grupy G n o indesie z, a dist(g n, G ) niech oznacza a { } z n odległość pomiędzy grupą G n a G. Wstępnie przyjmuje się, że ażdy punt stanowi oddzielną grupę. Punt o grupę G, punt o grupę G, itd. Na tej podstawie należy wyznaczyć odległości pomiędzy puntem sewencji a jego następniiem. Istotne są tylo odległości pomiędzy sąsiednimi puntami a w onsewencji przyjętego założenia pomiędzy sąsiednimi grupami. Następnie, według jednego wybranego sposobu oreślania odległości pomiędzy grupami, należy wyznaczyć wetor odległości dist(g n, G n+ ) pomiędzy grupami G n i G n+. W tej sytuacji ażdy element wetora odpowiada odległości pomiędzy grupą a jej następniiem: pierwszy element odległość pomiędzy grupą G a grupą G, drugi element odległość pomiędzy grupą G a grupą G 3 itd. Stosowne zależności, niezbędne 0 Biuletyn Instytutu Automatyi i Robotyi, 3/006

Grupowanie sewencji czasowych do wyznaczenia odległości pomiędzy puntami oraz grupami, zostały przedstawione w [3]. Dane wejściowe jednego rou grupowania stanowi wetor odległości dist(g r, G s ) pomiędzy sąsiednimi grupami. Po wyszuaniu pary sąsiednich grup (G p, G q ), tóre są położone najbliżej siebie, następuje połączenie ich w jedną grupę G p G q i zostaje oreślony nowy wetor odległości. Zmianie ulegają jedynie odległości do sąsiadów grupy G p G q. Wartości dist(g r, G p G q ) wyznacza się na podstawie znanych wartości: dist(g r, G p ), dist(g r, G q ) oraz dist(g p, G q ). Grupowanie ończymy po uzysaniu jednej grupy, złożonej ze wszystich puntów. Algorytm grupowania rozłącznego sewencji puntów metodą hierarchiczną przedstawiono poniżej. Strutury danych Stałe: O = (o,..., o T ) sewencja puntów obserwacji, T liczba elementów sewencji O. Zmienne: Y olumnowy wetor odległości sładający się z T elementów, W macierz pomocnicza sładająca się z T wierszy i olumn, olumna numer macierzy W będzie zawierała indesy grup, a olumna numer liczbę elementów grupy, numer olejnego etapu grupowania, N liczba grup w etapie grupowania, Z macierz grupowania, sładająca się z 4 olumn i olejno w ażdym etapie zwięszanej liczbie wierszy, i, j indesy sąsiednich grup najbliżej siebie położonych, ν odległość pomiędzy sąsiednią parą grup najbliżej siebie położoną. Obliczenia wstępne Przyjmuje się, że ażdy punt stanowi oddzielną grupę. Punt o grupę G, punt o grupę G, itd. Na tej podstawie należy wyznaczyć odległości pomiędzy puntem sewencji a jego następniiem. Następnie, według jednego wybranego sposobu oreślania odległości pomiędzy grupami, należy wyznaczyć wetor odległości Y = [dist(g n, G n+ )] T x T, gdzie: n =,..., T. Każdy element wetora odpowiada odległości pomiędzy grupą a jej następniiem: pierwszy element odległość pomiędzy grupą G a grupą G, drugi element odległość pomiędzy grupą G a grupą G 3 itd. Wiersze macierzy pomocniczej W będą opisywać grupy. Pierwszy element wiersza, to indes grupy, a drugi liczba elementów grupy. Ponieważ na początu jest N = T grup, dlatego macierz W Biuletyn Instytutu Automatyi i Robotyi, 3/006

T. Pałys ma T wierszy. Wygląda ona następująco: W = L L. T Ostatnia czynność etapu wstępnego, to oreślenie wartości zmiennej, w tórej będzie przechowywany olejny numer etapu grupowania := 0. Etap grupowania Zwięszamy numer etapu grupowania := +. Znajdujemy dwie sąsiednie grupy położone najbliżej siebie. Sprowadza się do wyznaczenia najmniejszego elementu v w wetorze odległości oraz jego numeru wiersza i: gdzie: n=,..., N ( n) i= arg min Y, ( ) ( i) v= Y ( 3 ) v= dist( G W( i,), G W( i+,) ) najmniejsza odległość pomiędzy sąsiednimi grupami w rou, jest to odległość pomiędzy grupą o indesie W(i, ) a jej następniiem, czyli grupą o indesie W(i +, ). Grupy o indesie W(i, ) i W(i +, ) łączy się w jedną grupę. Zmniejszamy liczbę grup N := N, a wynii grupowania zapisujemy jao nowy wiersz macierzy Z: Z(, ) := W(i, ); Z(, ) := W(i +, ); Z(, 3) := v; Z(, 4) := N. Zgodnie z wybraną wcześniej metodą grupowania, uatualniamy odległości pomiędzy połączoną grupą a pozostałymi grupami, tzn. Y(z) = dist(g W(z, ), G W(i, ) G W(i+, ) ), dla z =,..., i, i +,..., N. Dodatowo należy usunąć z macierzy Y wiersz o numerze i. Uatualniamy macierz pomocniczą W, indes nowo utworzonej grupy oraz liczbę jej elementów: W(i, ) := T +, W(i, ) := W(i, ) + W(i +, ). Należy jeszcze usunąć wiersz numer i + z macierzy W. Etap ońcowy algorytmu Kolejne etapy grupowania powtarzamy do momentu, aż uzysamy jedną grupę, czyli gdy N =. W wyniu otrzymujemy macierz Z, tóra opisuje drzewo grupowania. Biuletyn Instytutu Automatyi i Robotyi, 3/006

Grupowanie sewencji czasowych W przypadu metody grupowania sewencji czasowych należy wyznaczyć T liczb reprezentujących odległości pomiędzy sąsiednimi puntami sewencji i wyonać T roów grupowania dla wyznaczenia drzewa grupowania. Przyład grupowania sewencji puntów w cztery grupy przedstawiono na rys.. Uzysano następujące grupy:,, 3, 4, 5; 6, 7, 8, 9, 0;, ; 3, 4, 5. Na rys. przedstawiono drzewo grupowania, na podstawie tórego doonano podziału w cztery grupy... Hierarchiczna metoda grupowania z naładaniem sewencji puntów Przedstawiony poniżej algorytm umożliwia grupowanie sewencji puntów z naładaniem (wyniiem grupowania nie muszą być zbiory rozłączne). Grupowanie rozłączne sewencji puntów metodą hierarchiczną polega na łączeniu w ażdym rou grupowania dwóch sąsiednich grup, tóre są położone najbliżej siebie. Na ażdym etapie grupowania uzysuje się grupy rozłączne. W wielu przypadach orzystniej jest zrezygnować z tego założenia i dopuścić możliwość naładania się grup. Każdy etap grupowania z naładaniem polega na znalezieniu dwóch par sąsiednich grup, tóre leżą najbliżej siebie. Wyni poszuiwań to pary sąsiednich grup: (G m, G n ) i (G p, G q ), m < n, p < q, o odległościach l mn i l pq, przy czym l mn < l pq. Należy rozważyć następujące przypadi: ) istnieje grupa wchodząca w sład obu par, czyli: (m = q albo n = q) albo (m = p albo n = p), ) nie zachodzi pierwszy przypade. Wystąpienie pierwszego przypadu oznacza, że grupa G p albo G q, jest położona względnie bliso grup G m i G n. W tym przypadu tworzy się dwie nowe grupy: G m G n oraz G p G q. Zajście drugiego przypadu oznacza, że w miejsce grupy G m tworzy się tylo grupę G m G n. Na ażdym etapie grupowania, oprócz połączenia dwóch sąsiednich grup w jedną, zapewniono dodatowe połączenie jednej z nich do swojego sąsiada. Zasady łączenia grup są podobne ja w przypadu metody opisanej powyżej. Istotą algorytmu jest łączenie tylo grup sąsiednich, w wyniu czego uwzględniona zostaje olejność puntów w sewencji. Kolejne etapy algorytmu grupowania z naładaniem sewencji puntów przedstawiono poniżej. Biuletyn Instytutu Automatyi i Robotyi, 3/006 3

T. Pałys 5 4 3 7 5 o() 0 5 3 4 8 6 0 3 9 4 - - - - 0 3 4 5 o() Rys.. Grupowanie sewencji puntów w cztery grupy rozłączne 3,5 4 3,5 0 9 8 0,5 7 5 3 6 4 0 3 4 5 6 7 8 9 0 3 4 5 t Rys.. Drzewo grupowania 4 Biuletyn Instytutu Automatyi i Robotyi, 3/006

Grupowanie sewencji czasowych Strutury danych Stałe: O = (o,..., o T ) sewencja puntów obserwacji, T długość sewencji O. Zmienne: Y olumnowy wetor odległości sładający się z T elementów, W macierz pomocnicza sładająca się z T wierszy i olumn, olumna numer macierzy W będzie zawierała indesy grup a olumna numer liczbę elementów grupy, numer olejnych etapów grupowania, N liczba grup w etapie grupowania, d liczba wyonanych nałożeń, Z macierz grupowania, sładająca się z 4 olumn i olejno w ażdym etapie zwięszanej liczbie wierszy, i, j indesy najbliżej siebie położonych sąsiednich grup, i, j indesy drugiej w olejności pary sąsiednich grup najbliżej siebie położonych, ν odległość pomiędzy sąsiednią parą grup najbliżej siebie położonych, ν odległość pomiędzy drugą w olejności parą sąsiednich grup najbliżej siebie położonych. Obliczenia wstępne Obliczenia wstępne przebiegają ta samo, ja w przypadu hierarchicznej metody grupowania rozłącznego. Dodatowo należy ustalić liczbę nałożeń d := 0. Etap grupowania Zwięszamy numer etapu grupowania := +. Znajdujemy najbliżej położoną siebie sąsiednią parę grup: gdzie: n=,..., N ( n) i = arg min Y, ( 4 ) ( i ) v = Y, ( 5 ) (, + ) v dist G W G W najmniejsza odległość pomiędzy = ( i,) ( i,) sąsiednią parą grup w rou. Grupy o indesie W(i, ) i W(i +, ) łączymy w jedną grupę. Zmniejszamy liczbę grup N := N a wyni grupowania zapisujemy w macierzy Z: Biuletyn Instytutu Automatyi i Robotyi, 3/006 5

T. Pałys Z( + d, ) := W(i, ), Z( + d, ) := W(i +, ), Z( + d, 3) := v, Z( + d, 4) := N. Następnie odnajdujemy drugą w olejności, sąsiednią parę grup najbliżej siebie położonych: i = arg min Y n ( 6 ) gdzie: v ( ) n=,..., i, i+,..., N ( i ) = Y ( 7 ) (, + ) v dist G W G W odległość pomiędzy drugą = ( i,) ( i,) w olejności parą sąsiednich grup w etapie. Jeżeli i = i +, to grupę o indesie W(i, ) łączymy z grupą o indesie W(i, ). Występuje tu zjawiso naładania się grup. Elementy grupy o indesie W(i, ) będą występować co najwyżej w dwóch grupach, co zostaje zapisane następująco: d := d +. Uatualniamy macierz Z: Z( + d, ) := W(i, ), Z( + d, ) := W(i, ), Z( + d, 3) := v, Z( + d, 4) := N, oraz macierz pomocniczą W, czyli indes nowo utworzonej grupy oraz liczbę jej elementów: W(i, ) := T + + d, W(i, ) := W(i, ) + W(i, ). Jeżeli i + = i, to grupę o indesie W(i +, ) łączymy z grupą o indesie W(i +, ). Występuje tu zjawiso naładania się grup. Elementy grupy o indesie W(i +, ) będą występować co najwyżej w dwóch grupach, co zapisujemy: d := d +. Uatualniamy macierz Z: Z( + d, ) := W(i +, ), Z( + d, ) := W(i +, ), Z( + d, 3) := v, Z( + d, 4) := N. oraz macierz pomocniczą W, czyli indes nowo utworzonej grupy oraz liczbę elementów grupy: W(i +, ) := T + + d, W(i +, ) := W(i +, ) + W(i +, ). Zgodnie z wybranym sposobem oreślania odległości pomiędzy grupami [3] należy uatualnić odległości pomiędzy nowo utworzoną grupą a pozostałymi grupami i usunąć z macierzy Y wiersz i. Na oniec etapu uatualniamy 6 Biuletyn Instytutu Automatyi i Robotyi, 3/006

Grupowanie sewencji czasowych macierz pomocniczą W, czyli indes nowo utworzonej grupy i liczbę jej elementów. Jeżeli nastąpiło nałożenie dwóch grup, to: W(i, ) := T + + d, w przeciwnym przypadu: W(i, ) := T + + d. Liczba elementów nowo utworzonej grupy jest równa: W(i, ) := W(i, ) + W(i +, ), Na oniec usuwamy wiersz numer i + z macierzy W. Etap ońcowy algorytmu Kolejne etapy grupowania powtarzamy do momentu, aż uzysamy jedną grupę, czyli gdy N =. W wyniu otrzymujemy macierz Z, tóra opisuje drzewo grupowania. Przyład grupowania puntów w trzy grupy przedstawiono na rys. 3. Uzysano następujące grupy (punty: 7, 8, 9 wchodzą w sład dwóch grup):,, 3; 4, 5, 6, 7, 8, 9; 7, 8, 9, 0. Grupy wydzielono na podstawie drzewa grupowania, tóre przedstawiono na rys. 4. 4 4 0 0 8 9 o() 8 6 6 7 4 0 5 3 0 5 0 5 o() Rys. 3. Grupowanie sewencji puntów w trzy grupy Biuletyn Instytutu Automatyi i Robotyi, 3/006 7

T. Pałys dist(gr, Gs) Rys. 4. Drzewo grupowania.3. Wsaźnii grupowania Do oceny jaości grupowania zaproponowano procedury środowisa MATLAB z przybornia Statistics Toolbox. Oceniając jaość grupowania można posłużyć się współczynniiem orelacji grupowania (ang. cophenetic correlation coefficient) oraz współczynniiem niezgodności grupowania (ang. inconsistency coefficient). Poniżej róto przedstawiono zasady przeprowadzania obliczeń. Współczynni orelacji grupowania c wyznaczamy następująco [4]. Niech K oznacza liczbę etapów grupowania. Parę puntów, tórą można utworzyć na etapie grupowania oznaczmy przez (o n, o s ), a zbiór wszystich możliwych par Ĝ. Liczbę możliwych par, tóre można utworzyć na etapie, oznaczamy następująco: {( ) (,) (,) } = Gˆ, Gˆ = o, o : o G o G o o, ( 8 ) u n s n Z s Z n s gdzie: u liczba elementów zbioru Ĝ, etap grupowania, =,..., K, K liczba etapów grupowania (liczba wierszy macierzy Z), 8 Biuletyn Instytutu Automatyi i Robotyi, 3/006

Grupowanie sewencji czasowych Ĝ zbiór par puntów z grup łączonych na etapie, Z(, ) indes pierwszej grupy łączonej na etapie, Z(, ) indes drugiej grupy łączonej na etapie. Liczba połączeń pomiędzy puntami na wszystich etapach grupowania jest równa: = K = U u. ( 9 ) Niech S d oznacza sumę odległości pomiędzy parami puntów na wszystich etapach grupowania : S = K d n s = ( o, ) ˆ n os G natomiast R d sumę ich wadratów: R K d = d n s = ( o, ) ˆ n os G d( o, o ) ( 0 ) ( o, o ). ( ) Przez S z oznaczmy analogiczną do S sumę odległości po grupowaniu: = K S u Z (,3), ( ) z = a odpowiednią sumę wadratów tych odległości przez: z = K = [ (,3)] R u Z. ( 3 ) Z olei przez S dz oznaczmy sumę iloczynów odległości przed grupowaniem i odległości po grupowaniu: K ( ) Sdz = d( on, os ) Z,3. ( 4 ) = (, ) ˆ o n os G Biorąc pod uwagę wyznaczone powyżej wielości, współczynni orelacji grupowania c wyznaczamy następująco: Sdz Sd Sz c= U. ( 5 ) Rd Sd Rz Sz U U Współczynni orelacji grupowania przyjmuje wartości z przedziału 0,. Wyższa wartość współczynnia c oznacza lepsze dopasowanie metryi i sposobu łączenia w grupy do sewencji puntów. Czym mniejsza wartość c, tym gorsze grupowanie puntów. Współczynni niezgodności grupowania [4] na głęboość h opisuje ażdy etap grupowania. Odbywa się to przez porównanie odległości pomiędzy Biuletyn Instytutu Automatyi i Robotyi, 3/006 9

T. Pałys dwoma połączonymi grupami na etapie, ze średnią odległością łączenia w grupie pierwszej i drugiej. Niech Z % oznacza zbiór odległości pomiędzy łączonymi grupami na etapie. Pierwszy element zbioru Z % to Z(, 3). Następnie sprawdzamy grupę o indesie Z(, ). Jeżeli indes tej grupy jest więszy od T (długość sewencji puntów), to obliczamy numer etapu, na tórym powstała grupa: s = Z(, ) T, a odległość Z(s, 3) dodajemy do zbioru Z %. W ten sam sposób sprawdzamy grupę o indesie Z(, ). Jeżeli indes grupy jest więszy od T, to grupa powstała na etapie s = Z(, ) T, a do zbioru Z % dodajemy odległość Z(s, 3). Ta utworzony zbiór Z % posłuży do wyznaczenia współczynnia niezgodności grupowania na głęboość h =. Jeżeli chcemy wyznaczyć współczynni niezgodności grupowania na głęboość h = 3, to musimy jeszcze sprawdzić grupy o indesie: Z(s, ) i Z(s, ) a taże: Z(s, ) i Z(s, ). W przypadu, gdy ich indesy są więsze od T, to do zbioru Z % należy dołączyć odpowiednie odległości. W przypadu zadania więszej głęboości h postępujemy analogicznie do sposobu opisanego powyżej. Przyjmijmy, że zbiór Z % zawiera ũ elementów: Z % = l, l,..., l. ( 6 ) { } u Wyznaczamy sumę wartości elementów zbioru %Z : u = % S l ( 7 ) i i= oraz sumę ich wadratów: = % u i i= R l ( 8 ) Wartość średnią odległości łączenia grup na etapie wyznaczamy następująco: E( Z % ) = S ( 9 ) u% a wariancję odległości łączonych grup: ( % S V Z ) = R, dla u > u% % u ( 0 ) Ostatecznie wyznaczamy współczynni niezgodności grupowania na etapie według następującego wzoru: (,3) E( ) = Z Z % Y, ( ) V ( Z% ) 0 Biuletyn Instytutu Automatyi i Robotyi, 3/006

Grupowanie sewencji czasowych gdzie: =,..., T etap grupowania grupowania, Y współczynni niezgodności grupowania na etapie, Z(, 3) odległość pomiędzy grupami połączonymi na etapie, E( Z % ) średnia odległość łączenia grup na etapie, V ( Z % ) odchylenie standardowe łączenia grup na etapie. Doonanie oceny jaości grupowania polega na obliczeniu współczynnia Y od pierwszego do ostatniego etapu grupowania. W przypadu oreślenia jego masymalnej wartości podział na grupy wyznacza ten etap grupowania, dla tórego otrzymano zadaną wartość współczynnia niezgodności grupowania. 3. Podsumowanie Podstawą do opracowania metod grupowania sewencji czasowych była hierarchiczna metoda grupowania. W celu uwzględnienia olejności puntów sewencji grupowanie ograniczono tylo do grup sąsiednich. W ażdym etapie grupowania łączone są dwie najbliżej położone siebie grupy sąsiednie. W wyniu tego otrzymuje się drzewo grupowania, na podstawie tórego można otrzymać żądaną liczbę grup albo grupy o zadanych właściwościach. W wyniu zastosowania hierarchicznej metody grupowania rozłącznego sewencji puntów uzysuje się grupy rozłączne. W hierarchicznej metodzie grupowania z naładaniem sewencji puntów umożliwiono łączenie jednej grupy z dwoma sąsiadami pod waruniem, że są one położone dostatecznie bliso. Literatura [] Everitt B., Landau S. Leese M.: Cluster Analysis, 4 th edition, Edward Arnold Publishers Ltd., London 00. [] Koronaci J., Ćwi J.: Statystyczne systemy uczące się, Wydawnictwa Nauowo Techniczne, Warszawa 005. [3] Kwiatowsi W.: Metody automatycznego rozpoznawania wzorców, Instytut Automatyi i Robotyi WAT, Warszawa 00. [4] Mathwors, Inc: Statistics Toolbox User's Guide, http://www.mathwors.com/access/helpdes/help/pdf_doc/stats/stats.pdf, MathWors, 005. Biuletyn Instytutu Automatyi i Robotyi, 3/006

T. Pałys [5] Pałys T.: Zastosowanie metody grupowania sewencji czasowych w rozpoznawaniu mowy na podstawie urytych modeli Marowa, Rozprawa dotorsa, WAT. Warszawa, 006. [6] Wiśniewsi A. M.: Metody oceny systemów rozpoznawania mówców, Biuletyn Instytutu Automatyi i Robotyi WAT, 3/000, ss. 3-35. Warszawa, 000 Clustering of Time Sequences ABSTRACT: Methods of time sequences grouping are presented in this paper. The originality of the problem lies in that the clustered elements determine time sequence, and received groups may determine only segments of a sequence. Two time sequences grouping methods have been elaborated. The first one gives possibility to receive separate groups. By the use of the second one it is possible to obtain groups which overlaps one another. KEYWORDS: clustering of sequences, overlap clustering Recenzent: prof. dr hab. inż. Włodzimierz KWIATKOWSKI Praca wpłynęła do redacji: 8..006 Biuletyn Instytutu Automatyi i Robotyi, 3/006