ZAAWANSOWANE ZAGADNIENIA ELEKTRONIKI Rozpoznawanie mówców, fonoskopia dr inż. Stefan Brachmański pok.505 C-5 E-mail: stefan.brachmanski@pwr.wroc.pl
Etapy rozpoznawanie mówcy Identyfikacja Weryfikacja Autentyzacja
Weryfikacja W trakcie weryfikacji jest podejmowana decyzja, czy badana wypowiedź należy do mówcy o deklarowanej tożsamości. Kryterium podjęcia decyzji to miara podobieństwa wypowiedzi do modelu mówcy o deklarowanej tożsamości, zarejestrowanego w systemie. Wynikiem tego procesu jest akceptacja bądź odrzucenie przez system deklarowanej przez użytkownika tożsamości. W przypadku dużego podobieństwa pomiędzy modelem mówcy a badanym głosem zostaje podjęta decyzja o akceptacji i system uznając, że badana osoba jest tym, za kogo się podaje umożliwia jej dostęp do miejsc zastrzeżonych dla zarejestrowanych użytkowników.
Identyfikacja W procesie identyfikacji tożsamość nie jest wstępnie deklarowana, a mówca, którego głos podlega badaniu, może być już uprzednio zarejestrowany w systemie bądź jest kimś zupełnie nieznanym dla systemu rozpoznającego. Podczas identyfikacji w zbiorze zamkniętym zakłada się, iż dostęp do systemu mają wyłącznie osoby, których modele głosów zostały wcześniej stworzone w systemie. System rozpoznający podejmuje wówczas decyzję typu 1 z N, gdzie N stanowi liczbę zarejestrowanych użytkowników. Gdy założenie to nie jest prawdą, następuje identyfikacja w zbiorze otwartym. Wtedy dodatkowo należy rozważyć, czy podobieństwo cech wypowiedzi nieznanego mówcy do cech jednego z modeli mówców zarejestrowanych w systemie jest na tyle duże, że można podjąć decyzję o zidentyfikowaniu osoby czy też uznać wypowiedź jako nie należącą do żadnego z mówców zarejestrowanych w systemie. W drugiej z opisanych sytuacji system może podjąć decyzję o odrzuceniu mówcy bądź też jego zarejestrowaniu.
Autentyzacja Ostatnią z procedur realizowanych przez systemy rozpoznawania mówców jest autentyzacja. Polega ona na ustaleniu, czy wypowiedź należy do jednego z mówców wcześniej zarejestrowanych w systemie czy też nie. Systemy rozpoznawania mówców są dzielone na zależne od tekstu (text dependent) oraz niezależne od tekstu (text independent). Zależność od tekstu oznacza, iż w trakcie próby rozpoznania system wymaga, aby osoba rozpoznawana wypowiedziała słowo lub słowa, które znalazły się w sekwencji uczącej, wykorzystywanej do stworzenia modelu mówcy. Jeżeli natomiast w wypowiedzi, na podstawie której osoba jest identyfikowana, mogą znaleźć się dowolne słowa, to mówimy o systemach niezależnych od tekstu.
Ogólna struktura systemów rozpoznawania mówców W każdym systemie rozpoznawania mówców można wyróżnić kilka głównych elementów składowych. Sygnał akustyczny, po spróbkowaniu i podziale na segmenty (ramki) o długości do kilkudziesięciu milisekund, jest poddawany operacjom matematycznym, mającym na celu ekstrakcję parametrów (feature extraction), które w możliwie największym stopniu przenoszą informację osobniczą, identyfikującą mówcę. Mała liczba parametrów: szybciej wykonywane obliczenia pogorszenie własności systemu Duża liczba parametrów: rośnie liczba niezbędnych obliczeń, a tym samym czas ich wykonania wzrasta lecz nie w sposób znaczący efektywności rozpoznawania
Parametry ekstrahowane z sygnału mowy powinny w możliwie jak największym stopniu przenosić informacje charakterystyczne dla mówcy. Dobór ich właściwego zestawu jest jednym z najpoważniejszych zadań, warunkujących wysoką efektywność rozpoznawania. Schemat blokowy systemu identyfikacji mówców
Identyfikacja Identyfikacja w zbiorze otwartym - polega na wprowadzeniu pewnego progu, którego przekroczenie pozwala ustalić, czy osoba rozpoznawana jest już w systemie, czy jest to ktoś zupełnie nowy dla układu rozpoznającego Identyfikacja w zbiorze zamkniętym - sposób identyfikacji jest właściwy tylko w przypadku identyfikacji w zbiorze, w którym dostęp do systemu mają jedynie osoby zarejestrowane w systemie czyli zostaje wybrany ten model, dla którego prawdopodobieństwo wygenerowania zarejestrowanej wypowiedzi jest największe.
Parametry wyodrębnione z wypowiedzi osoby rozpoznawanej tworzą ciąg wielowymiarowych wektorów, zwanych sekwencją testową. Identyfikacja osoby polega na obliczeniu podobieństwa pomiędzy sekwencją testową, a wszystkimi modelami mówców. Osoba zostaje rozpoznana jako ta, dla której sumaryczna odległość pomiędzy jej modelem a ciągiem testowym jest najmniejsza
Weryfikacja W przypadku weryfikacji obliczenie podobieństwa modelu do ciągu testowego wykonuje się tylko dla modelu mówcy, którego tożsamość jest deklarowana. W odróżnieniu jednak od identyfikacji w zbiorze zamkniętym istnieje konieczność określenia dla każdego z mówców wartości progu, po przekroczeniu którego zostaje podjęta decyzja o akceptacji bądź odrzuceniu użytkownika.
Dodatkową cechą odróżniającą identyfikację od weryfikacji jest wpływ populacji mówców na efektywność działania systemu rozpoznającego. W przypadku identyfikacji ze wzrostem liczby zarejestrowanych mówców czyli klas, rośnie monotonicznie prawdopodobieństwo błędnej klasyfikacji, podczas gdy w przypadku weryfikacji jest ono praktycznie stałe.
Parametry fizyczne systemu rozpoznawania mówcy Zasadniczym czynnikiem, który wpływa na efektywność systemu rozpoznawania głosów, jest wybór najlepszych mierzalnych wielkości fizycznych sygnału mowy związanych z rozpoznawanymi klasami. Efektywność systemu rozpoznawania mówcy zależy w dużej mierze od tego, w jakim stopniu badane parametry fizyczne sygnału mowy będą odpowiadały za przenoszenie cech osobniczych mówcy. Najważniejsze cechy, jakimi powinny charakteryzować się te parametry, to ich duża odporność na zmiany sygnału mowy mówcy w czasie czyli tzw. niska zmienność wewnątrz osobnicza oraz wysoka zmienność międzyosobnicza. Parametry o tych własnościach umożliwiają, mimo nieuchronnych zmian głosu mówcy w czasie, poprawne zidentyfikowanie tego głosu wśród innych mówców. Do wielkości oraz parametrów fizycznych sygnału mowy najczęściej stosowanych w procesie automatycznego rozpoznawania mówcy należy zaliczyć:
parametry wyznaczone bezpośrednio z przebiegu czasowego` względne długości czasu wypowiedzi poszczególnych elementów fonetycznych obwiednia czasowa amplitudy dźwięku parametry analizy przejść przez zero sygnału mowy rozkład interwałów czasowych parametry wyznaczone z widma sygnału mowy: uśrednione widmo amplitudowe częstotliwość podstawowa tonu krtaniowego częstotliwości, stosunki amplitudowe oraz szerokości pasm formantów widmo krótkoterminowe momenty widmowe parametry liniowego kodowania predykcyjnego (LPC) inne, jak np. charakterystyki prozodyczne
Weryfikacja mówcy etap uczenia Mówca A N wypowiedzi Fala dźwiękowa (mowa) mówcy A Osoba znana: Mówcą jest A Cyfrowa akwizycja sygnału Mowa cyfrowa Ekstrakcja cech Wektory cech N wymiarowe wektory cech Rejestracja modelu Kanał transmisyjny sygnału Model mówcy A
Metody rozpoznawania mówców Po otrzymaniu ciągu wektorów testowych ekstrahowanych z wypowiedzi mówcy należy obliczyć jego podobieństwo do znajdującego się w systemie modelu (weryfikacja) bądź modeli mówców (identyfikacja). Pozostaje pytanie, jak obliczyć to podobieństwo i skąd uzyskać model mówcy. Metody rozpoznawania można podzielić na dwie grupy, a mianowicie oparte na modelach nieparametrycznych i parametrycznych mówcy.
Modele nieparametryczne Jednym z algorytmów nieparametrycznych jest metoda, w której model mówcy stanowią wszystkie wektory uzyskane z sekwencji treningowej. Ponieważ w przypadku rozpoznawania niezależnego od tekstu mówca musi dostarczyć wypowiedzi o czasie trwania rzędu kilkudziesięciu sekund, to jasne się staje, że model uzyskany na podstawie tej metody będzie stanowić zbiór wielu tysięcy wielowymiarowych wektorów. Rozpoznanie osoby polega na znalezieniu dla każdego wektora z sekwencji testowej najbardziej podobnego wektora z modelu, tzw. Najbliższego sąsiada NN (nearest neighbour) i obliczeniu pomiędzy nimi odległości. Sumaryczna odległość dla całej sekwencji testowej unormowana względem jej czasu trwania, stanowi miarę podobieństwa wypowiedzi do danego modelu i stanowi podstawę do podjęcia decyzji o identyfikacji bądź weryfikacji mówcy.
Modele parametryczne Innym sposobem modelowania mówcy jest zastosowanie modeli parametrycznych, w których wynikiem rozpoznania jest prawdopodobieństwo, że dana wypowiedź została wygenerowana przez określoną osobę. Grupa tych algorytmów znajduje się obecnie w centrum uwagi badaczy, zajmujących się tematyką rozpoznawania mówcy, ze względu na bardzo dużą efektywność rozpoznawania. Istnieje również wiele innych metod rozpoznawania mówców, jak choćby opartych na modelach kowariancyjnych, ergodycznych ukrytych łańcuchach Markowa (HMM) lub też różnego rodzaju modyfikacjach kwantyzacji wektorowej.
Zastosowanie technik identyfikacji osób - Fonoskopia
Co to są badania fonoskopijne? Fonoskopia (gr. phone - dźwięk, skopeo - patrzę) jest działem badań kryminalistycznych, który zajmuje się: - badaniem utrwalonej mowy, - identyfikacją osób biorących udział w nagraniu, - ustaleniem liczby osób biorących udział w nagraniu, - wnioskowaniem o osobowości, pochodzeniu i cechach charakterystycznych NN osób na podstawie analizy mowy ciągłej, jego stanie emocjonalnym, chorobach i zaburzeniach narządu mowy - badanie wpływu alkoholu, leków, narkotyków i innych środków odurzających na mowę, - odsłuchem treści nagrań intensywnie zakłóconych i zniekształconych, - badaniem autentyczności dowodowych nagrań, - identyfikacją urządzeń do rejestracji i transmisji, - badaniem warunków akustyczno-technicznych nagrania, - określeniem czasu i miejsca zdarzenia.
Autentyczność zapisu Aby sąd uznał nagranie za dowód konieczne jest wykazanie jego autentyczności. Badanie autentyczności nagrania polega na ocenie integralności zapisu całego zdarzenia (np. rozmowy) przy uwzględnieniu takich zjawisk zachodzących w trakcie nagrania, na które potencjalny fałszerz nie mógł mieć wpływu. W tym celu bada się m.in.: treść rozmowy, linię intonacyjną zarejestrowanych słów, fraz, zdań oraz bada się ciągłość sygnałów wynikającą z psychofizjologicznego procesu mówienia, kontekstu sytuacyjnego, warunków akustycznych oraz jakości urządzeń rejestrujących (a w pewnych przypadkach także przekazujących dźwięk). Po wykonaniu badania autentyczności zapisu możemy odpowiedzieć sobie na następujące pytania:
Autentyczność zapisu czy zapisano całą rozmowę czy tylko jej fragmenty; czy po nagraniu nic z niego nie usunięto (np. fragmenty zdań, słowa); czy nie zmieniono kolejności wypowiedzi; jeśli zmontowano dane nagranie to czy z jednej, czy też kilku innych rozmów; czy nagranie lub nagrania zarejestrowano na tym samych sprzęcie i w tych samych warunkach akustycznych.
Stenogram Czas sporządzania stenogramu waha się od 1 2 godz. dla każdej minuty nagrania; czas ten uzależniony jest od jakości nagrania oraz ilości osób biorących udział w nagranej rozmowie i sposobie jej prowadzenia (jeżeli występują jednoczesne wypowiedzi kilku osób, wypowiedzi zagłuszone są szumem lub innymi zakłóceniami, sporządzenie stenogramu z 1 min nagrania może przekroczyć czasami nawet 2 godzin pracy biegłego).
Rys historyczny Rozpoznawanie osób na podstawie ich głosu znane jest od bardzo dawna. Pierwszy przypadek rozpoznania osoby na podstawie głosu, jest opisany w Biblii, a dotyczy sytuacji wymuszenia podstępem ojcowskiego błogosławieństwa. Niewidomy Izaak rozpoznał głos swego syna Jakuba przebranego za Ezawa. ( Zbliżył się tedy Jakub do Izaaka, ojca swego, który dotknął się go, i rzekł: Głos jest głosem Jakuba ale ręce są rękami Ezawa, Księga Rodzaju (Genesis), 27.22).
Rys historyczny Historycznie po raz pierwszy dla potrzeb sądownictwa mówcę na podstawie głosu rozpoznano w Anglii w r. 1660. W USA w 1907 r. rozpoznano głos gwałciciela na podstawie dwóch zdań wypowiedzianych w sądzie.
Rys historyczny Bruno Richard Hauptmann (stracony 03.04.1936r. w Trenton) Charles Lindbergh Bardzo spektakularnym przypadkiem było rozpoznanie przez słynnego pilota Lindbergha, głosu mordercy swego syna. Syn Lindbergha został porwany 1 marca 1932r. Porywacz zażądał 50000$, a negocjacje prowadzone były listownie oraz poprzez ogłoszenia w lokalnej gazecie.
Rys historyczny Bruno Richard Hauptmann (stracony 03.04.1936r. w Trenton) Charles Lindbergh W nocy 2 kwietnia 1932 Lindbergh wraz z negocjatorem pojechali na cmentarz, aby przekazać okup. Lindbergh siedząc w aucie nie widział porywacza lecz słyszał jak ten wołał negocjatora słowami Here, Doctor. Over here! Over here!.
Rys historyczny Bruno Richard Hauptmann (stracony 03.04.1936r. w Trenton) Charles Lindbergh Pięć tygodni później znaleziono zwłoki syna Lindberga. Policja aresztowała Brunona Hauptmana podejrzanego o porwanie i morderstwo. W toczącym się śledztwie, we wrześniu 1934r czyli 29 miesięcy po usłyszeniu słów na cmentarzu, Lindbergh ponownie je usłyszał, tym razem powtórzone przez Hauptmana. Lindbergh rozpoznał głos Hauptmana jako głos z cmentarza. Na rozprawie sądowej w styczniu 1935 roku zeznał pod przysięgą, że rozpoznał głos Hauptmana.
Rys historyczny W Polsce badania fonoskopijne mają swój początek w 1961 roku kiedy to Sąd Najwyższy w ogłoszonym wyroku orzekł, że taśma magnetofonowa z zarejestrowanym na niej przebiegiem całości lub poszczególnych fragmentów postępowania przygotowawczego, czy też rozprawy, ma charakter dokumentu. W 1963 roku Sąd Najwyższy wydał orzeczenie, w którym ostatecznie zawarł rozstrzygnięcie, że dowód z taśmy magnetofonowej stanowi dowód rzeczowy.
Metody identyfikacji 1. Metoda Kersta - metoda identyfikacji głosu opracowana przez Lawrence a G. Kersta, fizyka z Bell Laboratories; dokładność identyfikacji tą metodą według autora sięga 99 %, a według jego uczniów od 90 do 98%. Według metody Kersta można identyfikować wyłącznie analogiczne słowa, zwroty lub zdania, które zostały zarejestrowane odpowiednio w dobrych warunkach akustycznych i w szerokim paśmie częstotliwości, a nagrania nie są zakłócone i zniekształcone. 2. Metoda polska oparta na analizie cech mowy. Uwzględnia ona właściwości lingwistyczne, fonematyczne i akustyczne mowy. Analizuje nie tylko barwę głosu, ale też zależności pomiędzy jego brzmieniem a środowiskiem społecznym osoby wypowiadającej się czy przebytymi przez tę osobę chorobami. 3. Metoda audytywno-spektralna. Pierwszym etapem są analizy wypowiedzi, dokonywane pod kątem językowym, pod kątem sposobu mówienia czy też analizy treści. Badając sposób mówienia zwraca się baczną uwagę na akcent, intonację, tempo mówienia. Drugi etap polega na porównaniu obrazów wypowiedzi czyli odwzorowań graficznych, wizualnych sygnału wypowiedzi; są to najczęściej spektrogramy otrzymane na podstawie analizy spektograficznej określonej frazy, jednakowej dla wszystkich badanych głosów
Materiał porównawczy Materiałem porównawczym do badań fonoskopijnych jest próbka głosu pobrana i zarejestrowana od osoby podejrzanej. Pobrania próbki głosu dokonać powinien ekspert, albo pracownik operacyjny lub dochodzeniowo-śledczy specjalnie przeszkolony, używający magnetofonu możliwie najwyższej klasy. Nagranie powinno być dokonane w specjalnym studio, lub wyjątkowo w specjalnie przygotowanym wyciszonym pokoju. Z uwagi na potrzebę precyzyjności badań istnieje szereg zasad, którymi w swojej pracy powinien kierować się rzetelny biegły z zakresu fonoskopii. Wypowiedź dowodowa i porównawcza powinny być do siebie podobne pod względem: - objętości, treści i formy; - struktury syntaktyczno-stylistycznej, - tempa mówienia. Próbka głosu powinna być pobrana we wszystkich możliwych natężeniach siły głosu (normalne natężenie, szept, głos podniesiony). Ważne jest by część wypowiedzi miała charakter spontaniczny i naturalny.
Dzień dobry
Analiza tła
Analiza tła
Analiza tła
Analiza tła 18:30