Grupowanie sekwencji czasowych

BIULETYN INSTYTUTU AUTOMATYKI I ROBOTYKI NR 3, 006 Grupowanie sewencji czasowych Tomasz PAŁYS Załad Automatyi, Instytut Teleinformatyi i Automatyi WAT, ul. Kalisiego, 00-908 Warszawa STRESZCZENIE: W artyule przedstawiono metody grupowania sewencji czasowych. Oryginalność tego problemu polega na tym, że grupowane elementy stanowią sewencję, a uzysane grupy mogą stanowić tylo segmenty sewencji. Przedstawiono dwie metody grupowania sewencji czasowych. Pierwsza metoda umożliwia uzysanie grup rozłącznych. W wyniu zastosowania drugiej metody otrzymujemy grupy, tóre mogą się na siebie naładać. SŁOWA KLUCZOWE: grupowanie sewencji, grupowanie z naładaniem. Wprowadzenie Celem grupowania jest podział zbioru obietów na grupy (supienia) złożone z obietów jednorodnych bądź podobnych. Wszystie znane metody grupowania nie uwzględniają olejności puntów w sewencji. W artyule zostaną przedstawione dwie metody grupowania sewencji puntów: hierarchiczna metoda grupowania rozłącznego, hierarchiczna metoda grupowania z naładaniem. Do sonstruowania metody grupowania sewencji czasowych przyjęto jao wyjściową metodę hierarchiczną []. Przyjmuje się, że dane wejściowe procesu grupowania stanowi zbiór puntów: O = {o, o,..., o t,..., o T }, gdzie: T liczba puntów. Proces grupowania metodą hierarchiczną odbywa się przez olejne łączenie położonych najbliżej siebie grup. Grupowanie ończy się po uzysaniu jednej grupy złożonej ze wszystich puntów. Tai sposób postępowania prowadzi do utworzenia drzewa grupowania, tóre umożliwia uzysanie podziału na żądaną liczbę grup albo grup o zadanych właściwościach. Aby ocenić jaość grupowania, można posłużyć się współczynniiem orelacji grupowania (ang. cophenetic correlation coefficient) lub współczynniiem 09

T. Pałys niezgodności grupowania (ang. inconsistency coefficient) [4], [5].. Grupowanie sewencji czasowych Przedstawione niżej metody grupowania sewencji czasowych bazują na hierarchicznej metodzie grupowania rozłącznego puntów, tórej opis można znaleźć w [3], [], []. Dane wejściowe procesu grupowania stanowi sewencja puntów O (a nie zbiór puntów). Dopasowanie do onretnego zadania jest możliwe poprzez odpowiedni dobór metryi, czyli sposobu oreślania odległości pomiędzy puntami przestrzeni cech oraz odpowiedni dobór sposobu oreślenia odległości pomiędzy poszczególnymi grupami [], [3], []. Opracowane metody grupowania sewencji czasowych, w odróżnieniu od metody bazowej, polegają na łączeniu tylo grup sąsiednich. Dwie grupy nazwano sąsiednimi pod waruniem, że w jednej z nich istnieje punt, tóry w drugiej grupie ma swój poprzedni albo następni (w sewencji)... Hierarchiczna metoda grupowania rozłącznego sewencji puntów Niech d(o n, o z ) oznacza odległość pomiędzy puntami w przestrzeni D wymiarowej, gdzie: o n o n D = L R, o on D z o z D = L R. ( ) ozd Przez G n oznaczono grupę o numerze n, T n jej liczebność (n =,..., N) ( n o ), z,..., T element grupy G n o indesie z, a dist(g n, G ) niech oznacza a { } z n odległość pomiędzy grupą G n a G. Wstępnie przyjmuje się, że ażdy punt stanowi oddzielną grupę. Punt o grupę G, punt o grupę G, itd. Na tej podstawie należy wyznaczyć odległości pomiędzy puntem sewencji a jego następniiem. Istotne są tylo odległości pomiędzy sąsiednimi puntami a w onsewencji przyjętego założenia pomiędzy sąsiednimi grupami. Następnie, według jednego wybranego sposobu oreślania odległości pomiędzy grupami, należy wyznaczyć wetor odległości dist(g n, G n+ ) pomiędzy grupami G n i G n+. W tej sytuacji ażdy element wetora odpowiada odległości pomiędzy grupą a jej następniiem: pierwszy element odległość pomiędzy grupą G a grupą G, drugi element odległość pomiędzy grupą G a grupą G 3 itd. Stosowne zależności, niezbędne 0 Biuletyn Instytutu Automatyi i Robotyi, 3/006

Grupowanie sewencji czasowych do wyznaczenia odległości pomiędzy puntami oraz grupami, zostały przedstawione w [3]. Dane wejściowe jednego rou grupowania stanowi wetor odległości dist(g r, G s ) pomiędzy sąsiednimi grupami. Po wyszuaniu pary sąsiednich grup (G p, G q ), tóre są położone najbliżej siebie, następuje połączenie ich w jedną grupę G p G q i zostaje oreślony nowy wetor odległości. Zmianie ulegają jedynie odległości do sąsiadów grupy G p G q. Wartości dist(g r, G p G q ) wyznacza się na podstawie znanych wartości: dist(g r, G p ), dist(g r, G q ) oraz dist(g p, G q ). Grupowanie ończymy po uzysaniu jednej grupy, złożonej ze wszystich puntów. Algorytm grupowania rozłącznego sewencji puntów metodą hierarchiczną przedstawiono poniżej. Strutury danych Stałe: O = (o,..., o T ) sewencja puntów obserwacji, T liczba elementów sewencji O. Zmienne: Y olumnowy wetor odległości sładający się z T elementów, W macierz pomocnicza sładająca się z T wierszy i olumn, olumna numer macierzy W będzie zawierała indesy grup, a olumna numer liczbę elementów grupy, numer olejnego etapu grupowania, N liczba grup w etapie grupowania, Z macierz grupowania, sładająca się z 4 olumn i olejno w ażdym etapie zwięszanej liczbie wierszy, i, j indesy sąsiednich grup najbliżej siebie położonych, ν odległość pomiędzy sąsiednią parą grup najbliżej siebie położoną. Obliczenia wstępne Przyjmuje się, że ażdy punt stanowi oddzielną grupę. Punt o grupę G, punt o grupę G, itd. Na tej podstawie należy wyznaczyć odległości pomiędzy puntem sewencji a jego następniiem. Następnie, według jednego wybranego sposobu oreślania odległości pomiędzy grupami, należy wyznaczyć wetor odległości Y = [dist(g n, G n+ )] T x T, gdzie: n =,..., T. Każdy element wetora odpowiada odległości pomiędzy grupą a jej następniiem: pierwszy element odległość pomiędzy grupą G a grupą G, drugi element odległość pomiędzy grupą G a grupą G 3 itd. Wiersze macierzy pomocniczej W będą opisywać grupy. Pierwszy element wiersza, to indes grupy, a drugi liczba elementów grupy. Ponieważ na początu jest N = T grup, dlatego macierz W Biuletyn Instytutu Automatyi i Robotyi, 3/006

T. Pałys ma T wierszy. Wygląda ona następująco: W = L L. T Ostatnia czynność etapu wstępnego, to oreślenie wartości zmiennej, w tórej będzie przechowywany olejny numer etapu grupowania := 0. Etap grupowania Zwięszamy numer etapu grupowania := +. Znajdujemy dwie sąsiednie grupy położone najbliżej siebie. Sprowadza się do wyznaczenia najmniejszego elementu v w wetorze odległości oraz jego numeru wiersza i: gdzie: n=,..., N ( n) i= arg min Y, ( ) ( i) v= Y ( 3 ) v= dist( G W( i,), G W( i+,) ) najmniejsza odległość pomiędzy sąsiednimi grupami w rou, jest to odległość pomiędzy grupą o indesie W(i, ) a jej następniiem, czyli grupą o indesie W(i +, ). Grupy o indesie W(i, ) i W(i +, ) łączy się w jedną grupę. Zmniejszamy liczbę grup N := N, a wynii grupowania zapisujemy jao nowy wiersz macierzy Z: Z(, ) := W(i, ); Z(, ) := W(i +, ); Z(, 3) := v; Z(, 4) := N. Zgodnie z wybraną wcześniej metodą grupowania, uatualniamy odległości pomiędzy połączoną grupą a pozostałymi grupami, tzn. Y(z) = dist(g W(z, ), G W(i, ) G W(i+, ) ), dla z =,..., i, i +,..., N. Dodatowo należy usunąć z macierzy Y wiersz o numerze i. Uatualniamy macierz pomocniczą W, indes nowo utworzonej grupy oraz liczbę jej elementów: W(i, ) := T +, W(i, ) := W(i, ) + W(i +, ). Należy jeszcze usunąć wiersz numer i + z macierzy W. Etap ońcowy algorytmu Kolejne etapy grupowania powtarzamy do momentu, aż uzysamy jedną grupę, czyli gdy N =. W wyniu otrzymujemy macierz Z, tóra opisuje drzewo grupowania. Biuletyn Instytutu Automatyi i Robotyi, 3/006

Grupowanie sewencji czasowych W przypadu metody grupowania sewencji czasowych należy wyznaczyć T liczb reprezentujących odległości pomiędzy sąsiednimi puntami sewencji i wyonać T roów grupowania dla wyznaczenia drzewa grupowania. Przyład grupowania sewencji puntów w cztery grupy przedstawiono na rys.. Uzysano następujące grupy:,, 3, 4, 5; 6, 7, 8, 9, 0;, ; 3, 4, 5. Na rys. przedstawiono drzewo grupowania, na podstawie tórego doonano podziału w cztery grupy... Hierarchiczna metoda grupowania z naładaniem sewencji puntów Przedstawiony poniżej algorytm umożliwia grupowanie sewencji puntów z naładaniem (wyniiem grupowania nie muszą być zbiory rozłączne). Grupowanie rozłączne sewencji puntów metodą hierarchiczną polega na łączeniu w ażdym rou grupowania dwóch sąsiednich grup, tóre są położone najbliżej siebie. Na ażdym etapie grupowania uzysuje się grupy rozłączne. W wielu przypadach orzystniej jest zrezygnować z tego założenia i dopuścić możliwość naładania się grup. Każdy etap grupowania z naładaniem polega na znalezieniu dwóch par sąsiednich grup, tóre leżą najbliżej siebie. Wyni poszuiwań to pary sąsiednich grup: (G m, G n ) i (G p, G q ), m < n, p < q, o odległościach l mn i l pq, przy czym l mn < l pq. Należy rozważyć następujące przypadi: ) istnieje grupa wchodząca w sład obu par, czyli: (m = q albo n = q) albo (m = p albo n = p), ) nie zachodzi pierwszy przypade. Wystąpienie pierwszego przypadu oznacza, że grupa G p albo G q, jest położona względnie bliso grup G m i G n. W tym przypadu tworzy się dwie nowe grupy: G m G n oraz G p G q. Zajście drugiego przypadu oznacza, że w miejsce grupy G m tworzy się tylo grupę G m G n. Na ażdym etapie grupowania, oprócz połączenia dwóch sąsiednich grup w jedną, zapewniono dodatowe połączenie jednej z nich do swojego sąsiada. Zasady łączenia grup są podobne ja w przypadu metody opisanej powyżej. Istotą algorytmu jest łączenie tylo grup sąsiednich, w wyniu czego uwzględniona zostaje olejność puntów w sewencji. Kolejne etapy algorytmu grupowania z naładaniem sewencji puntów przedstawiono poniżej. Biuletyn Instytutu Automatyi i Robotyi, 3/006 3

T. Pałys 5 4 3 7 5 o() 0 5 3 4 8 6 0 3 9 4 - - - - 0 3 4 5 o() Rys.. Grupowanie sewencji puntów w cztery grupy rozłączne 3,5 4 3,5 0 9 8 0,5 7 5 3 6 4 0 3 4 5 6 7 8 9 0 3 4 5 t Rys.. Drzewo grupowania 4 Biuletyn Instytutu Automatyi i Robotyi, 3/006

Grupowanie sewencji czasowych Strutury danych Stałe: O = (o,..., o T ) sewencja puntów obserwacji, T długość sewencji O. Zmienne: Y olumnowy wetor odległości sładający się z T elementów, W macierz pomocnicza sładająca się z T wierszy i olumn, olumna numer macierzy W będzie zawierała indesy grup a olumna numer liczbę elementów grupy, numer olejnych etapów grupowania, N liczba grup w etapie grupowania, d liczba wyonanych nałożeń, Z macierz grupowania, sładająca się z 4 olumn i olejno w ażdym etapie zwięszanej liczbie wierszy, i, j indesy najbliżej siebie położonych sąsiednich grup, i, j indesy drugiej w olejności pary sąsiednich grup najbliżej siebie położonych, ν odległość pomiędzy sąsiednią parą grup najbliżej siebie położonych, ν odległość pomiędzy drugą w olejności parą sąsiednich grup najbliżej siebie położonych. Obliczenia wstępne Obliczenia wstępne przebiegają ta samo, ja w przypadu hierarchicznej metody grupowania rozłącznego. Dodatowo należy ustalić liczbę nałożeń d := 0. Etap grupowania Zwięszamy numer etapu grupowania := +. Znajdujemy najbliżej położoną siebie sąsiednią parę grup: gdzie: n=,..., N ( n) i = arg min Y, ( 4 ) ( i ) v = Y, ( 5 ) (, + ) v dist G W G W najmniejsza odległość pomiędzy = ( i,) ( i,) sąsiednią parą grup w rou. Grupy o indesie W(i, ) i W(i +, ) łączymy w jedną grupę. Zmniejszamy liczbę grup N := N a wyni grupowania zapisujemy w macierzy Z: Biuletyn Instytutu Automatyi i Robotyi, 3/006 5

T. Pałys Z( + d, ) := W(i, ), Z( + d, ) := W(i +, ), Z( + d, 3) := v, Z( + d, 4) := N. Następnie odnajdujemy drugą w olejności, sąsiednią parę grup najbliżej siebie położonych: i = arg min Y n ( 6 ) gdzie: v ( ) n=,..., i, i+,..., N ( i ) = Y ( 7 ) (, + ) v dist G W G W odległość pomiędzy drugą = ( i,) ( i,) w olejności parą sąsiednich grup w etapie. Jeżeli i = i +, to grupę o indesie W(i, ) łączymy z grupą o indesie W(i, ). Występuje tu zjawiso naładania się grup. Elementy grupy o indesie W(i, ) będą występować co najwyżej w dwóch grupach, co zostaje zapisane następująco: d := d +. Uatualniamy macierz Z: Z( + d, ) := W(i, ), Z( + d, ) := W(i, ), Z( + d, 3) := v, Z( + d, 4) := N, oraz macierz pomocniczą W, czyli indes nowo utworzonej grupy oraz liczbę jej elementów: W(i, ) := T + + d, W(i, ) := W(i, ) + W(i, ). Jeżeli i + = i, to grupę o indesie W(i +, ) łączymy z grupą o indesie W(i +, ). Występuje tu zjawiso naładania się grup. Elementy grupy o indesie W(i +, ) będą występować co najwyżej w dwóch grupach, co zapisujemy: d := d +. Uatualniamy macierz Z: Z( + d, ) := W(i +, ), Z( + d, ) := W(i +, ), Z( + d, 3) := v, Z( + d, 4) := N. oraz macierz pomocniczą W, czyli indes nowo utworzonej grupy oraz liczbę elementów grupy: W(i +, ) := T + + d, W(i +, ) := W(i +, ) + W(i +, ). Zgodnie z wybranym sposobem oreślania odległości pomiędzy grupami [3] należy uatualnić odległości pomiędzy nowo utworzoną grupą a pozostałymi grupami i usunąć z macierzy Y wiersz i. Na oniec etapu uatualniamy 6 Biuletyn Instytutu Automatyi i Robotyi, 3/006

Grupowanie sewencji czasowych macierz pomocniczą W, czyli indes nowo utworzonej grupy i liczbę jej elementów. Jeżeli nastąpiło nałożenie dwóch grup, to: W(i, ) := T + + d, w przeciwnym przypadu: W(i, ) := T + + d. Liczba elementów nowo utworzonej grupy jest równa: W(i, ) := W(i, ) + W(i +, ), Na oniec usuwamy wiersz numer i + z macierzy W. Etap ońcowy algorytmu Kolejne etapy grupowania powtarzamy do momentu, aż uzysamy jedną grupę, czyli gdy N =. W wyniu otrzymujemy macierz Z, tóra opisuje drzewo grupowania. Przyład grupowania puntów w trzy grupy przedstawiono na rys. 3. Uzysano następujące grupy (punty: 7, 8, 9 wchodzą w sład dwóch grup):,, 3; 4, 5, 6, 7, 8, 9; 7, 8, 9, 0. Grupy wydzielono na podstawie drzewa grupowania, tóre przedstawiono na rys. 4. 4 4 0 0 8 9 o() 8 6 6 7 4 0 5 3 0 5 0 5 o() Rys. 3. Grupowanie sewencji puntów w trzy grupy Biuletyn Instytutu Automatyi i Robotyi, 3/006 7

T. Pałys dist(gr, Gs) Rys. 4. Drzewo grupowania.3. Wsaźnii grupowania Do oceny jaości grupowania zaproponowano procedury środowisa MATLAB z przybornia Statistics Toolbox. Oceniając jaość grupowania można posłużyć się współczynniiem orelacji grupowania (ang. cophenetic correlation coefficient) oraz współczynniiem niezgodności grupowania (ang. inconsistency coefficient). Poniżej róto przedstawiono zasady przeprowadzania obliczeń. Współczynni orelacji grupowania c wyznaczamy następująco [4]. Niech K oznacza liczbę etapów grupowania. Parę puntów, tórą można utworzyć na etapie grupowania oznaczmy przez (o n, o s ), a zbiór wszystich możliwych par Ĝ. Liczbę możliwych par, tóre można utworzyć na etapie, oznaczamy następująco: {( ) (,) (,) } = Gˆ, Gˆ = o, o : o G o G o o, ( 8 ) u n s n Z s Z n s gdzie: u liczba elementów zbioru Ĝ, etap grupowania, =,..., K, K liczba etapów grupowania (liczba wierszy macierzy Z), 8 Biuletyn Instytutu Automatyi i Robotyi, 3/006

Grupowanie sewencji czasowych Ĝ zbiór par puntów z grup łączonych na etapie, Z(, ) indes pierwszej grupy łączonej na etapie, Z(, ) indes drugiej grupy łączonej na etapie. Liczba połączeń pomiędzy puntami na wszystich etapach grupowania jest równa: = K = U u. ( 9 ) Niech S d oznacza sumę odległości pomiędzy parami puntów na wszystich etapach grupowania : S = K d n s = ( o, ) ˆ n os G natomiast R d sumę ich wadratów: R K d = d n s = ( o, ) ˆ n os G d( o, o ) ( 0 ) ( o, o ). ( ) Przez S z oznaczmy analogiczną do S sumę odległości po grupowaniu: = K S u Z (,3), ( ) z = a odpowiednią sumę wadratów tych odległości przez: z = K = [ (,3)] R u Z. ( 3 ) Z olei przez S dz oznaczmy sumę iloczynów odległości przed grupowaniem i odległości po grupowaniu: K ( ) Sdz = d( on, os ) Z,3. ( 4 ) = (, ) ˆ o n os G Biorąc pod uwagę wyznaczone powyżej wielości, współczynni orelacji grupowania c wyznaczamy następująco: Sdz Sd Sz c= U. ( 5 ) Rd Sd Rz Sz U U Współczynni orelacji grupowania przyjmuje wartości z przedziału 0,. Wyższa wartość współczynnia c oznacza lepsze dopasowanie metryi i sposobu łączenia w grupy do sewencji puntów. Czym mniejsza wartość c, tym gorsze grupowanie puntów. Współczynni niezgodności grupowania [4] na głęboość h opisuje ażdy etap grupowania. Odbywa się to przez porównanie odległości pomiędzy Biuletyn Instytutu Automatyi i Robotyi, 3/006 9

T. Pałys dwoma połączonymi grupami na etapie, ze średnią odległością łączenia w grupie pierwszej i drugiej. Niech Z % oznacza zbiór odległości pomiędzy łączonymi grupami na etapie. Pierwszy element zbioru Z % to Z(, 3). Następnie sprawdzamy grupę o indesie Z(, ). Jeżeli indes tej grupy jest więszy od T (długość sewencji puntów), to obliczamy numer etapu, na tórym powstała grupa: s = Z(, ) T, a odległość Z(s, 3) dodajemy do zbioru Z %. W ten sam sposób sprawdzamy grupę o indesie Z(, ). Jeżeli indes grupy jest więszy od T, to grupa powstała na etapie s = Z(, ) T, a do zbioru Z % dodajemy odległość Z(s, 3). Ta utworzony zbiór Z % posłuży do wyznaczenia współczynnia niezgodności grupowania na głęboość h =. Jeżeli chcemy wyznaczyć współczynni niezgodności grupowania na głęboość h = 3, to musimy jeszcze sprawdzić grupy o indesie: Z(s, ) i Z(s, ) a taże: Z(s, ) i Z(s, ). W przypadu, gdy ich indesy są więsze od T, to do zbioru Z % należy dołączyć odpowiednie odległości. W przypadu zadania więszej głęboości h postępujemy analogicznie do sposobu opisanego powyżej. Przyjmijmy, że zbiór Z % zawiera ũ elementów: Z % = l, l,..., l. ( 6 ) { } u Wyznaczamy sumę wartości elementów zbioru %Z : u = % S l ( 7 ) i i= oraz sumę ich wadratów: = % u i i= R l ( 8 ) Wartość średnią odległości łączenia grup na etapie wyznaczamy następująco: E( Z % ) = S ( 9 ) u% a wariancję odległości łączonych grup: ( % S V Z ) = R, dla u > u% % u ( 0 ) Ostatecznie wyznaczamy współczynni niezgodności grupowania na etapie według następującego wzoru: (,3) E( ) = Z Z % Y, ( ) V ( Z% ) 0 Biuletyn Instytutu Automatyi i Robotyi, 3/006

Grupowanie sewencji czasowych gdzie: =,..., T etap grupowania grupowania, Y współczynni niezgodności grupowania na etapie, Z(, 3) odległość pomiędzy grupami połączonymi na etapie, E( Z % ) średnia odległość łączenia grup na etapie, V ( Z % ) odchylenie standardowe łączenia grup na etapie. Doonanie oceny jaości grupowania polega na obliczeniu współczynnia Y od pierwszego do ostatniego etapu grupowania. W przypadu oreślenia jego masymalnej wartości podział na grupy wyznacza ten etap grupowania, dla tórego otrzymano zadaną wartość współczynnia niezgodności grupowania. 3. Podsumowanie Podstawą do opracowania metod grupowania sewencji czasowych była hierarchiczna metoda grupowania. W celu uwzględnienia olejności puntów sewencji grupowanie ograniczono tylo do grup sąsiednich. W ażdym etapie grupowania łączone są dwie najbliżej położone siebie grupy sąsiednie. W wyniu tego otrzymuje się drzewo grupowania, na podstawie tórego można otrzymać żądaną liczbę grup albo grupy o zadanych właściwościach. W wyniu zastosowania hierarchicznej metody grupowania rozłącznego sewencji puntów uzysuje się grupy rozłączne. W hierarchicznej metodzie grupowania z naładaniem sewencji puntów umożliwiono łączenie jednej grupy z dwoma sąsiadami pod waruniem, że są one położone dostatecznie bliso. Literatura [] Everitt B., Landau S. Leese M.: Cluster Analysis, 4 th edition, Edward Arnold Publishers Ltd., London 00. [] Koronaci J., Ćwi J.: Statystyczne systemy uczące się, Wydawnictwa Nauowo Techniczne, Warszawa 005. [3] Kwiatowsi W.: Metody automatycznego rozpoznawania wzorców, Instytut Automatyi i Robotyi WAT, Warszawa 00. [4] Mathwors, Inc: Statistics Toolbox User's Guide, http://www.mathwors.com/access/helpdes/help/pdf_doc/stats/stats.pdf, MathWors, 005. Biuletyn Instytutu Automatyi i Robotyi, 3/006

T. Pałys [5] Pałys T.: Zastosowanie metody grupowania sewencji czasowych w rozpoznawaniu mowy na podstawie urytych modeli Marowa, Rozprawa dotorsa, WAT. Warszawa, 006. [6] Wiśniewsi A. M.: Metody oceny systemów rozpoznawania mówców, Biuletyn Instytutu Automatyi i Robotyi WAT, 3/000, ss. 3-35. Warszawa, 000 Clustering of Time Sequences ABSTRACT: Methods of time sequences grouping are presented in this paper. The originality of the problem lies in that the clustered elements determine time sequence, and received groups may determine only segments of a sequence. Two time sequences grouping methods have been elaborated. The first one gives possibility to receive separate groups. By the use of the second one it is possible to obtain groups which overlaps one another. KEYWORDS: clustering of sequences, overlap clustering Recenzent: prof. dr hab. inż. Włodzimierz KWIATKOWSKI Praca wpłynęła do redacji: 8..006 Biuletyn Instytutu Automatyi i Robotyi, 3/006