151 ZGIEŁK ŹRÓDŁEM INFORMACJI W BADANIACH FONOSKOPIJNYCH Stefan Brachmański Instytut Telekomunikacji, Teleinformatyki i Akustyki Wstęp Politechnika Wrocławska Fonoskopia (gr. phone - dźwięk, skopeo - patrzę) jest działem badań kryminalistycznych, który zajmuje się: - badaniem utrwalonej mowy, - identyfikacją osób biorących udział w nagraniu, - ustaleniem liczby osób biorących udział w nagraniu, - wnioskowaniem o osobowości, pochodzeniu i cechach charakterystycznych NN osób na podstawie analizy mowy ciągłej, jego stanie emocjonalnym, chorobach i zaburzeniach narządu mowy - badanie wpływu alkoholu, leków, narkotyków i innych środków odurzających na mowę, - odsłuchem treści nagrań intensywnie zakłóconych i zniekształconych, - badaniem autentyczności dowodowych nagrań, - identyfikacją urządzeń do rejestracji i transmisji, - badaniem warunków akustyczno-technicznych nagrania, - określeniem czasu i miejsca zdarzenia. Podstawowym zadaniem ekspertyzy fonoskopijnej jest zwykle identyfikacja człowieka na podstawie jego mowy utrwalonej na nośniku informacji akustycznej. Rozpoznawanie osób na podstawie ich głosu znane jest od bardzo dawna. Pierwszy przypadek rozpoznania osoby na podstawie głosu, jest opisany w Biblii, a dotyczy sytuacji, kiedy to niewidomy Izaak rozpoznał głos swego syna Jakuba przebranego za Ezawa ( Zbliżył się tedy Jakub do Izaaka, ojca swego, który dotknął się go, i rzekł: Głos jest głosem Jakuba ale ręce są rękami Ezawa, Księga Rodzaju, 27.22).
152 Historycznie po raz pierwszy dla potrzeb sądownictwa mówcę na podstawie głosu rozpoznano w Anglii w 1660r. Bardzo spektakularnym przypadkiem było rozpoznanie przez słynnego pilota Lindbergha, głosu mordercy swego syna. Syn Lindbergha został porwany 1 marca 1932r. Porywacz zażądał 50000$, a negocjacje prowadzone były listownie oraz poprzez ogłoszenia w lokalnej gazecie. W nocy 2 kwietnia 1932 Lindbergh wraz z negocjatorem pojechali na cmentarz, aby przekazać okup. Lindbergh siedząc w aucie nie widział porywacza lecz słyszał jak ten wołał negocjatora słowami Here, Doctor. Over here! Over here!. Pięć tygodni później znaleziono zwłoki syna Lindberga. Policja aresztowała Brunona Hauptmana podejrzanego o porwanie i morderstwo. W toczącym się śledztwie, we wrześniu 1934r, czyli 29 miesięcy po usłyszeniu słów na cmentarzu, Lindbergh ponownie je usłyszał, tym razem powtórzone przez Hauptmana. Lindbergh rozpoznał głos Hauptmana jako głos z cmentarza. Na rozprawie sądowej w styczniu 1935 roku zeznał pod przysięgą, że rozpoznał głos Hauptmana. W Polsce badania fonoskopijne mają swój początek w 1961 roku kiedy to Sąd Najwyższy w ogłoszonym wyroku orzekł, że taśma magnetofonowa z zarejestrowanym na niej przebiegiem całości lub poszczególnych fragmentów postępowania przygotowawczego, czy też rozprawy, ma charakter dokumentu. W 1963 roku Sąd Najwyższy wydał orzeczenie, w którym ostatecznie zawarł rozstrzygnięcie, że dowód z taśmy magnetofonowej stanowi dowód rzeczowy. Ten fakt wymaga w pierwszej kolejności potwierdzenia autentyczność nagrania, a dopiero później można wykonać inne czynności m.in. rozpoznać głosy osób biorących udział w nagraniu. Metody identyfikacji Na szczególną uwagę zasługują prace zapoczątkowane w Stanach Zjednoczonych w latach 1940. Pierwsze doniesienia na ten temat tych prac pojawiają się w USA na początku lat sześćdziesiątych, kiedy to została zaprezentowana metoda identyfikacji głosu opracowana przez Lawrence a G. Kersta, fizyka z Bell Laboratories, tzw. metoda Kersta znana pod nazwą voiceprint. Metoda ta jest dotychczas najbardziej znana i rozpowszechniona m. in. w USA oraz w Anglii, Szwajcarii, Niemczech, Japonii, Arabii Saudyjskiej, Iranie, Maroku i Republice Południowej Afryki. Kerst oparł swoją metodę na założeniu, że głos człowieka nie ulega zmianie praktycznie przez całe życie i jest on niezmienny nawet w przypadkach zmian chorobowych, psychofizycznych, np. stresu, wpływu narkotyków itp. Założenie to jest jednakże nieprawdziwe ze względu na
153 powszechnie już uznany pogląd, że głos ludzki w przeciągu całego życia może wielokrotnie ulegać zmianom, które spowodowane mogą być przez: - postępujący wiek człowieka; - różne jego nastawienie emocjonalne; - zmiany anatomiczne w wyniku schorzeń lub zaburzeń hormonalnych; - kontekst towarzyszący wypowiadanej treści; - zamierzone zmiany głosu; - użycie alkoholu i lekarstw; - warunki akustyczne pomieszczenia, w którym dokonano nagrania i czynniki techniczne przy przekazywaniu głosu. Dokładność identyfikacji tą metodą według autora sięga 99 %, a według jego uczniów od 90 do 98%, Metoda Kersta ma coraz więcej oponentów, głównie z kręgu specjalistów z zakresu językoznawców i akustyków. Według metody Kersta można identyfikować wyłącznie analogiczne słowa, zwroty lub zdania, które zostały zarejestrowane odpowiednio w dobrych warunkach akustycznych i w szerokim paśmie częstotliwości, a nagrania nie są zakłócone i zniekształcone. Porównywalne spektrogramy konturowe przedstawiają widmo sygnału mowy w funkcji czasu i częstotliwości. W Polsce stosowana jest metoda językowo-pomiarowa opracowana w 1968 roku przez Stanisława Błasikiewicza. W tej metodzie badaniu podlegają parametry mierzalne jak np częstotliwość podstawowa (F0), wysokości tonów, widmo itp., a także ogół indywidualnych cech mowy, takich jak np.: sposób artykułowania głosek i ich akcentowania, sposób oddychania, dobór i zakres używanego słownictwa, budowa zdań. Analizuje się nie tylko barwę głosu, ale też zależności pomiędzy jego brzmieniem, a środowiskiem społecznym osoby wypowiadającej się czy przebytymi przez tę osobę chorobami. W rezultacie eksperci potrafią z wskazać na takie cechy osobowości sprawcy i jego właściwości fizjologiczne, które pozwalają policji trafnie typować przestępców. Dodatkowym efektem pracy biegłego może być np. stwierdzenie narodowości, płci i przybliżonego wieku osoby, której wypowiedź została nagrana. W niektórych sytuacjach można ocenić stan zdrowia psychicznego sprawcy i jego stan emocjonalny w momencie wypowiedzi, a także stwierdzić czy identyfikowana osoba znajdowała się pod wpływem narkotyków lub alkoholu. Innym efektem pracy biegłego może być określenie miejsca i czasu zarejestrowanego zdarzenia. Inną szeroko stosowaną metodą jest metoda słuchowo-spektralna. W metodzie tej identyfikację wykonuje się w dwóch krokach. Pierwszy krok analiza słuchowa - polega na słuchowym porównaniu wypowiedzi identyfikowanej osoby z nagrania dowodowego i
154 porównawczego, w której oceniane jest m.in.. brzmienie porównywanych głosów, sposób akcentowania, tempo wypowiedzi, analizowane są wady wymowy oraz sposób wypowiadania. Ten etap jest bardzo ważny, gdyż pozwala wyeliminować mówców, których mowa nie zawiera cech wspólnych z materiałem dowodowym Drugi krok analiza spektrograficzna (wizualna) polega na porównaniu spektrogramów, widm wypowiedzi nieznanego mówcy z nagrania dowodowego ze spektrogramami wypowiedzi mówcy (mówców) z nagrania porównawczego. W tym etapie porównywane są między innymi przebiegi formantów, pasmo częstotliwości, częstotliwość i trajektorię tonu krtaniowego itp. Ekspert zwraca uwagę nie tylko na zgodności ale również na rozbieżności analizowanych parametrów. Kiedy analiza jest zakończona ekspert na podstawie wyników obu kroków podejmuje decyzję w pięciu kategoriach prawdopodobieństw: pozytywna identyfikacja, prawdopodobna identyfikacja, pozytywna eliminacja, prawdopodobna eliminacja lub brak decyzji. W 1986 roku Federal Bureau of Investigation (FBI) opublikowało zestawienie porównawcze wyników identyfikacji 2000 głosów wykonanych przez ekspertów FBI metodą słuchowo-spektralną. Zestawienie obejmowało prace wykonane prze okres 15 lat przez ekspertów z co najmniej dwuletnią praktyką i którzy wykonali ponad 100 ekspertyz. Wyniki podane tabeli 1 za [7] wskazują dużą skuteczność tej metody w zastosowaniach kryminalistycznych. Współcześnie coraz częściej stosowane są automatyczne metody identyfikacji mówcy, które bazują na różnych technikach jak np Dynamic Time Warping (DTW), Linear Predictive Mean Square Cefficients (LPMSC), Vector Quantization (VQ), Neural Network (NN), Hidden Markov Models (HMM), Gaussian Mixture Models (GMM), itp. [2]. Tabela 1. Wynik identyfikacji mówcy na podstawie głosu Liczba decyzji Procent [%]) Brak decyzji lub mała pewność 1304 65.2 Eliminacja (wykluczenie) 378 18.9 Identyfikacja 318 15.9 BŁĘDY Błędna eliminacja 2 0.53 Błędna identyfikacja 1 0.31
155 Tło nagrania Nagranie dowodowe zawiera oprócz rozmów czy wypowiedzi pierwszoplanowych również inne odgłosy pochodzące od otoczenia w którym dane zdarzenie było rejestrowane. Jest to tło akustyczne nagrania. Tło akustyczne pogarszające skuteczność identyfikacji osób biorących udział w nagranej rozmowie jest zgiełkiem. Jednakże analizując tło akustyczne można przyspieszyć wyjaśnienie określonego przypadku. W ramach takiej analizy tła czyli odgłosów towarzyszących zasadniczemu zapisowi np. ruchu ulicznego, bicia lub tykania zegarów, dzwonków telefonów, otwierania drzwi, audycji radiowych lub telewizyjnych włączonych odbiorników itd., możliwa jest ocena charakteru miejsca, np. ulicy przy której korzystano z telefonu, rodzaju pomieszczenia (biuro, korytarz, mieszkanie, przestrzeń otwarta), czasu zdarzenia (w tle głos audycji radiowej czy telewizyjne), itd. W 2000 roku prokuratura prowadząc śledztwo przeciwko grupie mężczyzn zabezpieczyła jako materiał dowodowy kasetę magnetofonową z nagraniem rozmowy. Zadanie postawione biegłemu obejmowało m.in. ustalenie warunków nagrania w szczególności poprzez określenie w jakim miejscu i kiedy dokonano nagrania. Biegły stwierdził, że urządzenie rejestrujące (dyktafon) zostało umieszczone w schowku w samochodzie przez mężczyzn mających wykonać zadanie zlecone przez kobietę. Rozmowa między kobietą (zleceniodawcą) a mężczyzną (przedstawiciel wykonawców) odbyła się w samochodzie na przednim siedzeniu. Spotkanie odbyło się pod lasem lub na przecince leśnej świadczy o tym świergot ptaków. W oddali znajdowały się zabudowania - szczekanie psów (jeden mały, a drugi duży). Odgłosy ptaków wskazują iż rozmowa została przeprowadzona latem w porze dziennej. Te informacje były bardzo przydatne w toku dalszego śledztwa. Badanie tła akustycznego jest niekiedy bardzo przydatne w procesie badania ciągłości nagrania. W jednej z prowadzonych spraw biegłemu przesłano nagranie na kasecie magnetofonowej i postawiono mu m.in. następujące pytania Czy nagranie jest ciągłe, czy nosi ślady montażu? W jakim miejscu dokonano nagrania? Kiedy dokonano nagrania? Jakie czynności wykonują osoby podczas rozmowy? Biegły został poinformowany przez prowadzącego śledztwo w jakim mieście wykonano nagranie, co pozwoliło na właściwą interpretację informacji uzyskanych z analizy tła. Biegły stwierdził, że nagranie wykonano w ogródku piwnym usytuowanym na placu w centrum którego znajduje się ratusz. Mężczyźni po spotkaniu się siadają przy stoliku i zamawiają piwo. Na taśmie magnetofonowej w tle rozmowy nagrane zostały bicia zegara - w 10 minucie jedno uderzenie (rys. 1), w 24 minucie znowu jedno uderzenie (rys. 2), w 25 minucie dwa uderzenia (rys.3) i w 40 minucie trzy
156 uderzenia zegara (rys.4). Nasunęło się podejrzenie, że nagranie zostało zmontowane, chociaż inne dźwięki gwar, szum ulicy, odgłos przejeżdżających samochodów nie potwierdzały tego spostrzeżenia. Wykonane zostały bardziej szczegółowe analizy, w tym przeprowadzono wizję miejsca zdarzenia. Stwierdzono, że bicia zegara pochodziły od dwóch różnych obiektów. Jeden zegar znajdował się na ratuszu, natomiast drugi na wieży pobliskiego kościoła. Zegar ratuszowy bił w cyklu co piętnaście minut, natomiast wieży kościelnej co pół godziny. Oznacza to, że uderzenia zegara nagrane na taśmie magnetofonowej w 10, 25 i 40 minucie pochodzą z zegara umieszczonego na ratuszu, natomiast w 24 minucie z zegara na wieży kościelnej. Rys 1. Spektrogram obszaru odpowiadającego jednemu uderzeniu zegara - 10min 41s. Rys. 2. Spektrogram obszaru odpowiadającego jednemu uderzeniu zegara - 23min 58,7s.
157 Rys. 3. Spektrogram obszaru odpowiadającego dwóm uderzeniom zegara - 25min 14s, Rys. 4. Spektrogram obszaru odpowiadającego trzem uderzeniom zegara - 39min 53s. Podsumowanie Dzięki analizie tła nagrania dowodowego czyli dźwięków występujących w tle zarejestrowanej rozmowy biegły może określić miejsce i czas zdarzenia. Dźwięki pomocne przy określaniu miejsca zdarzenia to odgłosy m.in. przejeżdżających pojazdów, ruchu ulicznego, dzieci z placu zabaw, pracujących maszyn, a także dźwięki wydawane przez zwierzęta (ptaki, zwierzęta domowe itp.). Analiza dźwięków wydawanych przez zwierzęta np. ptaków pozwala określić nie tylko miejsce zdarzenia ale również porę roku oraz porę dnia. Badając parametry tła nagrania związane z akustyką wnętrz np. pogłos biegły może wskazać czy nagranie wykonano w małym czy dużym pomieszczeniu, na korytarzu, w bramie itp.
158 Często w tle nagranej rozmowy pojawia się audycja radiowa lub telewizyjna; w takich przypadkach biegły jest w stanie bardzo dokładnie wyznaczyć datę i godzinę nagrania (czasami na podstawie tylko samego ale niekiedy konieczne jest uzyskanie informacji z rozgłośni radiowej lub telewizyjnej emitującej analizowany program). Występujące w tle rozmowy prowadzonej przez dwóch idących mężczyzn odgłosy kroków wydawanych przez osobę idącą w butach na wysokim obcasie świadczą, że rozmowa odbyła się w towarzystwie trzeciej osoby, którą była kobieta. Podsumowując można stwierdzić, że analiza tła nagrania może dostarczyć wiele cennych informacji, które mogą przyśpieszyć rozwiązanie sprawy, a nawet przyczynić się do jej rozwiązania. Analiza tła jest również bardzo przydatna w procesie badania autentyczności nagrania dowodowego. Literatura [1] BIEDRAWA K. Analiza wpływu oczyszczania nagrań słownych z szumu, na skuteczność identyfikacji mówcy w badaniach fonoskopijnych, Praca dyplomowa, Wrocław 2008 [2] BONASTRE J.F, ii, Person Authentication by Voice: A Need for Caution, Proc. of the 8 European Conf. on Speech Comm. and Technology EUROSPEECH 2003 - INTERSPEECH 2003, Geneva, http://www.afcp-parole.org/doc/afcp_splc_hottopics Eurospeech03_final.pdf [3] BRACHMAŃSKI S., Oczyszczanie materiału dźwiękowego w badaniach fonoskopijnych, X Sympozjum Nowości w Technice Audio i Wideo, Wrocław 2004, 19-22. [4] HOLLIEN, H., The Acoustics of Crime. The New Science of Forensic Phonetics. New York: Kluwer Academic - Plenum Publishers, 1990. [5] HOLLIEN H., SCHWARTZ R. Aural-perceptual speaker identification: Problems with noncontemporary samples, Forensic Linguistics: The International Journal of Speech, Language and the Law, 7, 2, 2000, 199-211. [6] KERSTA, L.G. Voiceprint Identification, Nature, 196, 1962, 1253-1257. [7] M.C. McDermott, T. Owen F. McDermott, Voice Identification: The Aural/Spectrographic Method, www.videoexam.com/articles/voice_ident.html