Zastosowanie algorytmu DTW jako narzędzia w identyfikacji mówcy

Podobne dokumenty
PRACA DYPLOMOWA Inżynierska

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Zagadnienie optymalnych kryteriów identyfikacji osoby na podstawie analizy mowy

58. Otwarte Seminarium z Akustyki, OSA '11, Gdańsk-Jurata, September 2011

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

dr inż. Jacek Naruniec

Omówienie różnych metod rozpoznawania mowy

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Opisy efektów kształcenia dla modułu

TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA

Rozpoznawanie mowy dla języków semickich. HMM - HTK, CMU SPHINX-4, Simon

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

Komputerowe przetwarzanie sygnału mowy

Rozpoznawanie mówcy i emocji

ANALIZA JAKOŚCIOWA I ILOŚCIOWA TESTÓW SZKOLNYCH MATERIAŁ SZKOLENIOWY

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

PROBLEM ROZMIESZCZENIA MASZYN LICZĄCYCH W DUŻYCH SYSTEMACH PRZEMYSŁOWYCH AUTOMATYCZNIE STEROWANYCH

Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Maciej Oleksy Zenon Matuszyk

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Identyfikacja istotnych atrybutów za pomocą Baysowskich miar konfirmacji

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Korpusy mowy i narzędzia do ich przetwarzania

Automatyczna klasyfikacja zespołów QRS

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

Analiza korespondencji

Głos. Proces generacji dźwięku płuca, fałdy głosowe, kanał głosowy rezonatory i artykulatory. Ton krtaniowy Częstotliwości formantowe dla mowy

ALGORYTMY SZTUCZNEJ INTELIGENCJI

5.3. Analiza maskowania przez kompaktory IED-MISR oraz IET-MISR wybranych uszkodzeń sieci połączeń Podsumowanie rozdziału

Rozpoznawanie obrazów

Aproksymacja funkcji a regresja symboliczna

Klasyfikacja publikacji biomedycznych w konkursie JRS 2012 Data Mining Competition - Szkic koncepcji

PRAKTYCZNE ASPEKTY WYKORZYSTYWANIA SYSTEMÓW ROZPOZNAWANIA MOWY OPARTYCH NA HMM

WPŁYW SZYBKOŚCI STYGNIĘCIA NA WŁASNOŚCI TERMOFIZYCZNE STALIWA W STANIE STAŁYM

Akademia Górniczo-Hutnicza im. Stanisława Staszica w Krakowie Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej

Krytyczne czynniki sukcesu w zarządzaniu projektami

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych

Wykład z Podstaw Informatyki dla I roku BO. Piotr Mika

Mowa w protetyce słuchu

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

OPTYMALIZACJA STEROWANIA MIKROKLIMATEM W PIECZARKARNI

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka


Zastosowanie automatycznego rozpoznawania mówców w kryminalistyce

Zastosowanie współczynników HFCC jako cech sygnału mowy w automatycznej detekcji wad wymowy

WYKORZYSTANIE SIECI NEURONOWEJ DO BADANIA WPŁYWU WYDOBYCIA NA SEJSMICZNOŚĆ W KOPALNIACH WĘGLA KAMIENNEGO. Stanisław Kowalik (Poland, Gliwice)

Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Transpozer czasowy mowy

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Program warsztatów CLARIN-PL

Metody numeryczne Technika obliczeniowa i symulacyjna Sem. 2, EiT, 2014/2015

WYBÓR PUNKTÓW POMIAROWYCH

ANALiZA WPŁYWU PARAMETRÓW SAMOLOTU NA POZiOM HAŁASU MiERZONEGO WEDŁUG PRZEPiSÓW FAR 36 APPENDiX G

Hierarchiczna analiza skupień

TEORIA WYTWARZANIA DŹWIĘKÓW

KARTA PRZEDMIOTU. Techniki przetwarzania sygnałów, D1_3

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

MATEMATYCZNY MODEL PĘTLI HISTEREZY MAGNETYCZNEJ

PRZEWODNIK PO PRZEDMIOCIE

PRACA DYPLOMOWA INŻYNIERSKA

dr inż. Ewa Kuśmierek, Kierownik Projektu Warszawa, 25 czerwca 2014 r.

Wykorzystanie testu t dla pojedynczej próby we wnioskowaniu statystycznym

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

BADANIA SYMULACYJNE PROCESU HAMOWANIA SAMOCHODU OSOBOWEGO W PROGRAMIE PC-CRASH

Analiza sprawdzianu 2010 klas szóstych szkoły podstawowej

Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Klasyczne zagadnienie przydziału

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

Wyniki badań reprezentatywnych są zawsze stwierdzeniami hipotetycznymi, o określonych granicach niepewności

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych

Wyznaczanie budżetu niepewności w pomiarach wybranych parametrów jakości energii elektrycznej

Zastosowanie symulacji Monte Carlo do zarządzania ryzykiem przedsięwzięcia z wykorzystaniem metod sieciowych PERT i CPM

Sprawozdanie z laboratoriów HTK!

OKREŚLENIE WPŁYWU WYŁĄCZANIA CYLINDRÓW SILNIKA ZI NA ZMIANY SYGNAŁU WIBROAKUSTYCZNEGO SILNIKA

PYTANIA PRÓBNE DO EGZAMINU NA CERTYFIKAT ZAAWANSOWANY REQB KLUCZ ODPOWIEDZI. Część DODATEK

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

Podsumowanie wyników ankiety

ALGORYTM UZUPEŁNIANIA BRAKUJĄCYCH DANYCH W ZBIORACH REJESTROWANYCH NA STACJACH MONITORINGU POWIETRZA

BADANIA PORÓWNAWCZE PAROPRZEPUSZCZALNOŚCI POWŁOK POLIMEROWYCH W RAMACH DOSTOSOWANIA METOD BADAŃ DO WYMAGAŃ NORM EN

Efekt Lombarda. Czym jest efekt Lombarda?

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Analiza składowych głównych. Wprowadzenie

Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08

Elementy modelowania matematycznego

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.


Transkrypt:

Piotr Żelasko, Agata Trawińska, Bartosz Ziółko, Marcin Czyżyk, Joanna Stanisławek, Elżbieta Ślusarz Zastosowanie algorytmu DTW jako narzędzia w identyfikacji mówcy Wstęp W badaniach fonoskopijnych dotyczących identyfikacji mówców wypracowane zostały różne metodyki badań, w tym najczęściej używana w polskiej praktyce sądowej, tzw. metoda językowo-pomiarowa [2, 3]. Uwzględnia ona analizę zarówno nawyków artykulacyjnych mówiącego, jak i parametrów akustycznych mowy najczęściej struktur formantowych wyekstrahowanych z segmentów samogłoskowych. Analiza nawyków artykulacyjnych ma charakter głównie jakościowy i dokumentowana jest transkrypcją fonetyczną dystynktywnych wymówień. Z kolei analiza akustyczna, niezależnie od używanych parametrów, np. częstotliwości tonu krtaniowego F0, częstotliwości kolejnych formantów F1, F2, F3, F4, współczynników cepstralnych, energii sygnału [11], jako oparta na danych ilościowych jest przedmiotem różnego rodzaju statystycznych opracowań zmierzających do efektywnego i ekonomicznego wykorzystania informacji zawartych w sygnale mowy. Przykładowo, w metodzie językowo-pomiarowej stosowanej w IES gros analizy akustycznej to ekstrakcja częstotliwości formatowych, które mają relatywnie bezpośrednie korelaty artykulacyjne i stąd preferowane są przez językoznawców. Najczęściej, z uwagi na ograniczenia pasma analizowanych nagrań, możliwa jest ekstrakcja czterech najniższych formantów F1 F4. W obszarze identyfikacji mówców używa się także metodologii zupełnie odmiennej niż tradycyjne podejście lingwistyczne. Wraz z rozwojem technik cyfrowych i nauk informatycznych dynamicznie rozwinęły się prace nad systemami automatycznego rozpoznawania mowy, a wypracowane w nich rozwiązania przeniesione zostały do identyfikacji mówców. Systemy takie dokonują parametryzacji sygnału mowy, segmentując sygnał na małe fragmenty (okna czasowe), a następnie przekształcając zawarte w ramce dane tak, by uzyskać reprezentację o chwilowej konfiguracji traktu głosowego. Do takiego opisu używa się często melowych współczynników cepstralnych (Mel Frequency Cepstral Coefficients MFCC) [7] lub kodowania liniową predykcją (Linear Prediction Coding LPC) [8]. W dalszej kolejności przykładowy system może w sposób automatyczny dokonać porównania wcześniej sparametryzowanej ramki z bazą danych popu- lacyjnych, gdzie zawarte są informacje o innych mówcach. Jednym ze sposobów na dokonanie takiego porównania jest zastosowanie ukrytych modeli Markowa (Hidden Markov Model HMM) [1, 9], które pozwalają na oszacowanie prawdopodobieństwa, że konkretny mówca wypowiedział analizowaną część kwestii. Wskutek tego system podejmuje decyzję o zakwalifikowaniu nieznanego mówcy jako tego, który maksymalizuje prawdopodobieństwo wypowiedzenia badanego sygnału mowy [4, 6]. Przedstawiona tu przykładowa procedura bliższa jest weryfikacji, czyli temu, z czym można się spotkać w systemach bankowych, w których posiadacz lub krąg posiadaczy pewnych uprawnień jest znany i ściśle ograniczony, niż właściwej identyfikacji mówcy, w której zbiór osób, spośród których należy zidentyfikować mówcę, jest otwarty; systemy te wykazują się jednak użytecznością przy rozpoznawaniu mówców [9]. Przedstawione w artykule badania są powiązane z pracą inżynierską głównego autora. Stwierdzono w niej m.in., Ryc. 1. Czasowy przebieg formantów F1, F2, F3 i F4 (rosnąco wraz z częstotliwością) dla samogłoski a z kontekstu pas Fig. 1 Time course of F1, F2, F3 and F4 formants (ascending with frequency) for a vowel in pas context Źródło (ryc. 1 2): autorzy PROBLEMY KRYMINALISTYKI 280(2) 2013 53

że im wyższy jest formant, tym bardziej różnicuje on mówców, a wyłączenie F1 z analizy nie pogarsza w znaczącym stopniu rozpoznawalności [13]. Algorytm DTW Przedmiotem badań opisanych w niniejszej publikacji jest możliwość zastosowania algorytmu DTW jako narzędzia przyspieszającego proces identyfikacji nieznanego mówcy w zakresie danych akustycznych i przy założeniu adekwatności fonetycznej wypowiedzi dowodowych i referencyjnych [1, 5]. Standardowe zastosowanie algorytmu to wykorzystanie jego własności dopasowania do siebie dwóch przebiegów czasowych, które są rozsynchronizowane względem siebie lub różnią się od siebie szybkością przebiegu. Takimi przebiegami mogą być np. sparametryzowane sygnały samogłosek jednego mówcy, w przypadku gdy za pierwszym razem mówi wolniej, a za drugim szybciej lub gdy w odmiennych warunkach komunikacyjnych zastosował inne procesy językowe. DTW jest też stosowany np. w dopasowaniu do siebie odpowiednio sparametryzowanych podpisów (przeniesionych do domeny cyfrowej) lub dopasowaniu sekwencji genetycznych [12]. W dużym uproszczeniu sposób działania DTW można opisać następująco: dysponując dwoma sygnałami x i y o długościach, odpowiednio N i M, algorytm układa siatkę o wymiarach N x M, gdzie w każdym jej polu obliczana jest odległość pomiędzy próbkami sygnałów o numerach n i m, gdzie n = 1, 2,, N i m = 1, 2,, M. Następnie poszukiwana jest ścieżka W łącząca punkty (1, 1) i (N, M) w taki sposób, aby koszt przejścia między tymi punktami był jak najmniejszy. Ścieżka ta musi spełniać warunki ciągłości Ryc. 2. Macierz kosztów przejścia z optymalną ścieżką dopasowania DTW. Cieplejsze kolory oznaczają większy koszt przejścia niż kolory chłodniejsze Fig. 2. Transition matrix with optimal DTW matching track. Warm shades indicate higher cost of transition than cold shades Źródło: autorzy i monotoniczności w każdym kroku następny punkt ścieżki musi być określony tak, aby sąsiadował z punktem poprzednim, a indeksy n i m nie mogą maleć. Tak dobrana ścieżka nazywa się optymalną ścieżką dopasowania. Dopasowanie do siebie dwóch sygnałów tą metodą pozwala na określenie odległości między nimi. W tym wypadku jest ona liczona jako suma wartości wszystkich pól, przez które przechodzi ścieżka, znormalizowana względem długości ścieżki. Dysponując zatem dla różnych mówców przebiegami formantowymi różnych samogłosek i zarazem poszczególnych samogłosek z różnych kontekstów fonetycznych, można porównywać badany sygnał z sygnałami referencyjnymi i klasyfikować go jako sygnał tego mówcy, do którego odległość była najmniejsza. W praktyce zaproponowana procedura zakłada obliczenie odległości między wszystkimi sygnałami referencyjnymi (pochodzącymi z nagrań znanego mówcy), a następnie ustalenie osobnego progu rozpoznania dla każdego formantu F1, F2, F3, F4 jako największej odległości występującej w ramach wypowiedzi tego samego mówcy. W dalszej kolejności liczone są odległości między sygnałem testowym (pochodzącym od nieznanego mówcy) a sygnałami referencyjnymi z uwzględnieniem progów klasyfikacji wyliczonych w poprzednim etapie. Jeżeli każdy formant spełni warunek znalezienia się poniżej progu, następuje klasyfikacja mówcy. Wadą tej metody jest brak możliwości klasyfikacji w wypadku, gdy dysponuje się tylko jednym sygnałem referencyjnym nie można wtedy wyznaczyć progu rozpoznania. Testowanie procedury Opisana w publikacji procedura, mająca na celu ułatwienie oraz przyspieszenie procesu identyfikacji mówcy przez selekcję dostatecznych danych akustycznych, testowana jest za pomocą nagrań bezpośrednich wypowiedzi, zarejestrowanych przy użyciu mikrofonu kierunkowego w zaadaptowanym akustycznie pomieszczeniu i zapisanych w formacie WAVE PCM (44,1 khz, 16 bitów). Dane wejściowe to czasowe przebiegi formantów F1, F2, F3 i F4 wyekstrahowane dla samogłosek {a, o, u, e, y, i} występujących w różnych kontekstach fonetycznych. Procedura została przetestowana z użyciem danych wyekstrahowanych z wypowiedzi ośmiu mówców: w sumie uwzględniono 83 warianty realizacyjne sześciu polskich samogłosek występujących w różnych kontekstach, tj. w otoczeniu różnych głosek poprzedzających i następujących, z których każda występowała w dwóch lub trzech powtórzeniach. Weryfikacja poprawności rozpoznania przez algorytm została dokonana przez zebranie dla poszczególnych samogłosek wariantów wyekstrahowanych z takich samych kontekstów i obliczenie odległości DTW pomiędzy nimi, a następnie po kolei odnoszenie ich do progów właściwych dla każdego mówcy. Podczas takiego 54 PROBLEMY KRYMINALISTYKI 280(2) 2013

testowania system rozpoznający może zaklasyfikować mówców poprawnie na dwa sposoby: zaakceptować przebieg należący do tego samego mówcy (true acceptance TA) lub odrzucić przebieg należący do innego mówcy (true rejection TR) oraz popełnić dwa rodzaje błędów: zaakceptować przebieg należący do innego mówcy (false acceptance FA) lub odrzucić przebieg należący do tego samego mówcy (false rejection FR). Miarą rzetelności systemu są parametry: Precision, Recall oraz F, zdefiniowane według podanych poniżej wzorów: Wyniki przedstawione w tabeli 2 to rezultat testowania procedury wyłącznie dla wariantów samogłosek {a, e, y}. Ich ograniczony zbiór został wybrany według kryterium łatwości uzyskiwania parametrów, co z kolei wynika z frekwencyjności i struktury akustycznej tych głosek. W tym wypadku Precision wzrasta do 78%, a Recall pozostaje na poziomie 100%. Ogólna miara jakości procedury F wzrasta z 0,71 do 0,88. Tabela 3 przedstawia wyniki, jakie osiągnęły poszczególne samogłoski, gdy proces identyfikacji został oparty wyłącznie na jednej z nich. Samogłoski {y, a, e} uzyskały najlepsze rezultaty, osiągając parametr F na poziomach kolejno 0,91, 0,90 i 0,83. Identyfikacja oparta na samogłoskach {u, i, o} jest mniej precyzyjna, na co wskazuje osiągana przez nie wartość parametru F jest to kolejno 0,76, 0,72 i 0,59. Najbardziej charakterystyczne są zatem samogłoski y oraz a, a najmniej samogłoska o. w których Precision określa odsetek poprawnie zaakceptowanych przebiegów pośród wszystkich zaakceptowanych przebiegów, Recall określa odsetek poprawnie zaakceptowanych przebiegów wśród przebiegów, które powinny zostać zaakceptowane, a F jest średnią harmoniczną powyższych parametrów i pełni funkcję liczbowego wskaźnika opisującego jakość procedury. Tabela 1 przedstawia liczby poprawnie i niepoprawnie zakwalifikowanych przebiegów dla całego zbioru danych, a także wskaźniki jakości procedury. Precision wyniosło 55,3%, co oznacza, że ze wszystkich zaakceptowanych przebiegów nieco ponad połowa została zaakceptowana poprawnie. Recall wyniosło 100%, więc żaden przebieg, który powinien zostać zakwalifikowany, nie został odrzucony. Podsumowanie Przedstawione powyżej wyniki to rezultaty wstępnych analiz przydatności algorytmu do zastosowań praktycznych. Zauważalny znaczny wzrost parametru Precision przy użyciu części danych potwierdza słuszność proponowanego przez biegłych wyboru przebiegów czasowych wariantów wymawianiowych trzech fonemów samogłosek {a, e, y} jako efektywnych w identyfikacji mówcy. Parametr Recall niezmiennie przyjmuje wartość 100%, ponieważ próg kwalifikacji jest dobrany tak, by samogłoski wyekstrahowane z wypowiedzi tego samego mówcy zawsze zostały zakwalifikowane jako jego. W ramach pracy dyplomowej [13] przeprowadzone zostały ponadto badania na większej liczbie danych pozwoliły one na określenie przydatności poszczególnych formantów przy identyfikacji mówcy. Tabela 1. Wyniki weryfikacji procedury pod kątem rozpoznania mówców dla określonych przez konteksty wariantów samogłosek {a, e, y, i, o, u} (83 warianty) Results of procedure verification in terms of speaker recognition for context-selected vowels {a, e, y, i, o, u} (83 variants) TA TR FA FR Precision Recall F 5547 96465 4455 0 0,55 1 0,71 Źródło: (tab. 1 3): opracowanie własne Tabela 2. Wyniki weryfikacji procedury pod kątem rozpoznania mówców dla określonych przez konteksty wariantów samogłosek {a, e, y} (47 wariantów) Results of procedure verification in terms of speaker recognition for context-selected vowels {a, e, y} (47 variants) TA TR FA FR Precision Recall F 2325 48699 657 0 0,78 1 0,88 PROBLEMY KRYMINALISTYKI 280(2) 2013 55

Wyniki weryfikacji procedury pod kątem rozpoznania mówców przy wyborze pojedynczych samogłosek jako podstawy do identyfikacji Tabela 3. Results of procedure verification in terms of speaker recognition with selection of single vowels as basis for identification Samogłoska TA TR FA FR Precision Recall F a 835 18151 177 0 0,83 1 0,90 o 2327 26694 3202 0 0,42 1 0,59 u 648 14538 408 0 0,61 1 0,76 e 892 16416 356 0 0,71 1 0,83 y 598 13768 124 0 0,83 1 0,91 i 247 6534 188 0 0,57 1 0,72 Otrzymane statystyki rozpoznania wydają się niewystarczająco dobre, by w tej formie zastosować DTW wprost do procesu identyfikacji mówców, a właściwie jego części opartej na danych akustycznych. Możliwe, że zaimplementowanie bardziej złożonej wersji algorytmu (ograniczenia ścieżki, inna metryka itd.), pozwoliłoby uzyskać lepsze rezultaty. Na podstawie zaprezentowanych wyników można jednak wnosić, że zaproponowany algorytm jest użyteczny do ilościowego określenia, które samogłoski i formanty niosą więcej informacji o indywidualizujących nawykach wymówieniowych osoby. Dotychczas przeprowadzone badania pozwalają na jednoczesne zmniejszenie ilości danych, jakie biegły musi poddać, zwykle półautomatycznej, a więc czasochłonnej, analizie akustycznej, oraz zwiększenie precyzji identyfikacji mówcy przez odrzucenie części danych, mało charakterystycznych dla mówców. Część prac była finansowana przez MNiSW w ramach działalności statutowej AGH. BIBLIOGRAFIA 1. L.R. Rabiner, R.W. Schafer, Digital Processing of Speech Signals, New Jersey 1978, 476 489. 2. Trawińska A. (2009): Analiza mowy i nagrań, (w:) Postępy w naukach sądowych, Kała M. (red.), Wydawnictwo Instytutu Ekspertyz Sądowych, Kraków, 117 134. 3. K. Klus, A. Trawińska, Forensic Speaker Identification by the Linguistic-Acoustic Method in KEÚ AND IES (w:) Problems of Forensic Sciences 2009, vol. LXXVIII, 160 174. 4. R. Tadeusiewicz, Sygnał mowy, Wydawnictwo Komunikacji i Łączności, Warszawa 1988, 161 172. 5. H. Sakoe, S. Chiba, Dynamic Programming Algorithm Optimization for Spoken Word Recognition, (w:) IEEE Transatctions of Acoustics, Speech and Signal Processing, vol. ASSP-26, No. 1, Luty 1978. 6. B. Ziółko, M. Ziółko, Przetwarzanie mowy, Wydawnictwa AGH, 2011. 7. S.B. Davis and P. Mermelstein, Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences, IEEE Transactions on Acoustics, Speech and Signal Processing, 1980, vol. ASSP-28, pp. 357 366, no. 4. 8. J. Makhoul, Spectral linear prediction: properties and applications, IEEE Transcations, 1975, vol. ASSP-23, pp. 283 296. 9. B. Ziółko, W. Kozłowski, M. Ziółko, R. Samborski, D. Sierra, J. Gałka, Hybrid Wavelet-Fourier-HMM Speaker Recognition, International Journal of Hybrid Information Technology, vol. 5, No. 4, October, 2011. 10. K. Malik, Uwarunkowania językowe i pozajęzykowe procesu rozpoznania mówcy przez świadka ze słyszenia, Problemy Kryminalistyki nr 271/2011. 11. J. Rzeszotarski, Identyfikacja mówcy celowo zniekształcającego wypowiedzi, Problemy Kryminalistyki nr 255/2007. 12. J. Aach, G. M. Church, Aligning gene expression time series with time warping algorithms, Bioinformatics (2001) 17 (6), 495 508. 13. P. Żelasko, Półautomatyczne rozpoznawanie mówców w kryminologii, Praca inżynierska wykonana w Katedrze Elektroniki, WIEiT AGH, Kraków 2013. Streszczenie W artykule omówiono problemy związane z identyfikacją mówcy i przedstawiono propozycję procedury ułatwiającej proces identyfikacji w części akustycznej. Koncepcja opiera się na metodach programowania dynamicznego, a w szczególności algorytmu znanego jako DTW (dynamic time warping). Przeprowadzone zostały testy wskazujące na przydatność proponowanej procedury przy próbie ustalenia, które samogłoski oraz formanty pozwalają dostatecznie zróżnicować mówców, dostatecznie indywidualizując każdego z nich. 56 PROBLEMY KRYMINALISTYKI 280(2) 2013

Słowa kluczowe: analiza nagrań, DTW, formant, identyfikacja mówcy, metoda językowo-pomiarowa Summary The paper discusses issues concerning forensic speaker identification and proposes a procedure simplifying the process of speaker identification in the acoustic scope. The idea revolves around methods of dynamic programming, especially the DTW (dynamic time warping) algorithm described further in the paper. Tests which were carried out demonstrated the usefulness of the suggested procedure when trying to determine which vowels and formants are the best differentiating and characterizing a speaker. Keywords: recording examination, DTW, formant, speaker identification, linguistic-acoustic method PROBLEMY KRYMINALISTYKI 280(2) 2013 57