Rozpoznawanie mówcy i emocji



Podobne dokumenty
Projekt badawczy. Zastosowania technologii dynamicznego podpisu biometrycznego

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

Biometryczna Weryfikacja (NIE inwigilacja)

dr inż. Ewa Kuśmierek, Kierownik Projektu Warszawa, 25 czerwca 2014 r.

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

Technologia dynamicznego podpisu biometrycznego

Biometria Głosu i HUB biometryczny w Banku Zachodnim WBK International Biometric Congress 2016 Józefów,

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Krzysztof Ślot Biometria Łódź, ul. Wólczańska 211/215, bud. B9 tel

Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst

rozpoznawania odcisków palców

PRACA DYPLOMOWA INŻYNIERSKA

HLT_12 Warszawa. Lingwistyka matematyczna w Katedrze Elektroniki AGH

Rozpoznawanie mówców metodą i-wektorów/plda na urządzeniach mobilnych

Opisy efektów kształcenia dla modułu

Prof. Stanisław Jankowski

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Propozycje tematów prac magisterskich 2013/14 Automatyka i Robotyka - studia stacjonarne Pracowania Układów Elektronicznych i Przetwarzania Sygnałów

Biometria w projektach rządowych

TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA

Imagination Is More Important Than Knowledge

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

BIOMETRIA. Napisz coś na klawiaturze, a powiem Ci. Wojciech Wodo Katedra Informatyki Wydział Podstawowych Problemów Techniki. Wrocław, r.

Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan

2 Ocena celu badań i sformułowanej tezy naukowej

Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert

Pattern Classification

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Automatyczny system wykrywania nieubezpieczonych posiadaczy pojazdów mechanicznych wspierający kontrole prowadzone przez UFG

Klasyfikacja mówców oparta na modelowaniu GMM-UBM dla mowy o różnej jakości

Obrona rozprawy doktorskiej Neuro-genetyczny system komputerowy do prognozowania zmiany indeksu giełdowego

Korpusy mowy i narzędzia do ich przetwarzania

Widzenie komputerowe (computer vision)

Omówienie różnych metod rozpoznawania mowy

Informatyka Studia II stopnia

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Analiza metod wykrywania przekazów steganograficznych. Magdalena Pejas Wydział EiTI PW

Wykorzystanie suprasegmentalnych zjawisk językowych w modelowaniu języka polskiego na potrzeby systemu rozpoznawania mowy

Application Security Verification Standard. Wojciech Dworakowski, SecuRing

Poszczególne kroki wymagane przez normę ISO celem weryfikacji tożsamości użytkownika

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Ewaluacja mowy syntetycznej za pomocą systemu rozpoznawania mowy

risk AB ZARZĄDZANIE RYZYKIEM OPERACYJNYM Dodatkowe możliwości programu: RYZYKO BRAKU ZGODNOŚCI PRALNIA

Wypłaty z bankomatów przy użyciu odbitki palca Odbitka palca zastępuje PIN Transakcje bankowe przy użyciu odbitki palca Wiodąca technologia

KARTA MODUŁU KSZTAŁCENIA

Seminarium DSP AGH. Przegląd technik zwiększających wydajność obliczeniową algorytmów weryfikacji mówcy opartych o modelowanie GMM-UBM oraz HMM

Wykaz tematów prac magisterskich w roku akademickim 2018/2019 kierunek: informatyka

KOMPUTEROWE TECHNIKI ANALIZY INFORMACJI ZAWARTEJ W SYGNAŁACH AKUSTYCZNYCH MASZYN ELEKTRYCZNYCH DLA CELÓW DIAGNOSTYKI STANÓW PRZEDAWARYJNYCH

UCZENIE MASZYNOWE I SZTUCZNA INTELIGENCJA Jako narzędzia wspomagania decyzji w zarządzaniu kapitałem ludzkim organizacji

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Biometryczna Identyfikacja Tożsamości

Mechatronika i inteligentne systemy produkcyjne. Modelowanie systemów mechatronicznych Platformy przetwarzania danych

Technologia biometryczna w procesach obsługi pacjentów i obiegu dokumentacji medycznej Konferencja ekspercka dotycząca e- Zdrowia Warszawa, 27

Sztuczna inteligencja stan wiedzy, perspektywy rozwoju i problemy etyczne. Piotr Bilski Instytut Radioelektroniki i Technik Multimedialnych

Czym jest HTK HMMs ASR

STATYSTYKA MATEMATYCZNA

Plan Prezentacji Wprowadzenie Telefonia IP a bezpieczeństwo istotne usługi ochrony informacji i komunikacji w sieci Klasyczna architektura bezpieczeńs

Wykrywanie sygnałów DTMF za pomocą mikrokontrolera ATmega 328 z wykorzystaniem algorytmu Goertzela

emszmal 3: Automatyczne księgowanie przelewów w sklepie internetowym Magento (plugin dostępny w wersji ecommerce)

Badania marketingowe

BIOMETRIA WYKŁAD 8: BŁĘDY SYSTEMOW BIOMETRYCZNYCH

Rok akademicki: 2013/2014 Kod: IET US-n Punkty ECTS: 3. Poziom studiów: Studia II stopnia Forma i tryb studiów: Niestacjonarne

Ilość sztuka 1 PBX/IP Opis minimalnych wymagań 1 W zakresie sprzętowym 1.1 Porty: - Min 1 port WAN - RJ-45 (10/100Base-TX, automatyczne wykrywanie)

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

Odciski palców ekstrakcja cech

dr inż. Jacek Naruniec

Biometryczna Identyfikacja Tożsamości

Komunikacja Człowiek-Komputer

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

Klucz do skutecznej sprzedaży swoich kompetencji podczas rozmowy kwalifikacyjnej

mgr inż. Magdalena Deckert Poznań, r. Uczenie się klasyfikatorów przy zmieniającej się definicji klas.

Semantyczny Monitoring Cyberprzestrzeni

Algorytmy rozpoznawania mowy oparte o kształt i/lub ruch ust - przegląd literatury naukowej z lat

Część 2. Teoretyczne i praktyczne aspekty wybranych metod analiz ilościowych w ekonomii i zarządzaniu

Wzrost efektywności ekonomicznej w rolnictwie

Komputerowe przetwarzanie sygnału mowy

Identyfikacja człowieka metody kryminalistyczne i biologiczne - ogólnie

AUTOMATYKA INFORMATYKA

Zastosowanie algorytmu DTW jako narzędzia w identyfikacji mówcy

ANALIZA SZYBKIEJ IDENTYFIKACJI MÓW- CY IMPLEMENTOWANYCH W ŚRODOWI- SKU MATLAB ORAZ CODE COMPOSER STUDIO

Praca dyplomowa inżynierska

Elektronika i Telekomunikacja Studia Stacjonarne (Dzienne), Dwustopniowe

Kontrola spójności modeli UML za pomocą modelu. Stanisław Jerzy Niepostyn, Ilona Bluemke Instytut Informatyki, Politechnika Warszawska

Projektowanie (design) Eurostat

Fonoskopia. Wykład 4

Modele sprzedaży i dystrybucji oprogramowania Teoria a praktyka SaaS vs. BOX. Bartosz Marciniak. Actuality Sp. z o.o.

Biometria podpisu odręcznego

Nowy dowód osobisty projekt ustawy o zmianie ustawy o dowodach osobistych oraz niektórych innych ustaw

3. Podaj elementy składowe jakie powinna uwzględniać definicja informatyki.

2007 Cisco Systems, Inc. All rights reserved.

FINALYSE Wykrywanie wyłudzeń w zautomatyzowanych systemach decyzyjnych. Kongres Antyfraudowy. Amsterdam I Brussels I Luxembourg I Warsaw

Bądźmy przygotowani! Zalety posiadania procedur kryzysowych

Koniec problemów z zarządzaniem stacjami roboczymi BigFix. Włodzimierz Dymaczewski, IBM

Wydział Matematyki. Testy zgodności. Wykład 03

ZAAWANSOWANE ZAGADNIENIA ELEKTRONIKI

Sposoby opisu i modelowania zakłóceń kanałowych

Analiza sygnałów biologicznych

SPRZEDAŻ, OBSŁUGA KLIENTA I ZARZĄDZANIE ZESPOŁEM. JAK NOWE TECHNOLOGIE MOGĄ NAM POMÓC? Praktyczny poradnik

Materiały dydaktyczne: Maciej Krzymowski. Biometryka

Transkrypt:

Katedra Elektroniki, Zespół Przetwarzania Sygnałów www.dsp.agh.edu.pl http://rozpoznawaniemowy.blogspot.com/ Rozpoznawanie mówcy i emocji Bartosz Ziółko Wykorzystano materiały Davida Sierry, Wojciecha Kozłowskiego i Magdaleny Igras 244

Wprowadzenie Mowa zawiera nie tylko informacje słowne o przekazywanej wiadomości Rozpoznawanie mowy Rozpoznawanie mówcy Rozpoznawanie emocji -> co? -> kto? -> jak? Mowa może być wykorzystana w systemach biometrycznych 245

Rozpoznawanie mówcy 246

Architektura systemów automatycznego rozpoznawania mówcy 247

Ogólny podział systemów automatycznego rozpoznawania mówców 248

Weryfikacja a identyfikacja Źródło: www.zamelcet.com WERYFIKACJA IDENTYFIKACJA Źródło: PAP 249

Opis jakości systemu stopień rozpoznania 250

Zastosowania Biometryczne systemy bezpieczeństwa Zalety w porównaniu do innych systemów Nieskończona ilość materiału do analizy (więcej nagrań większa dokładność) Wymagany jedynie tani sprzęt Niewymagana obecność (zdalne rozpoznanie) Bezpieczeństwo

Zastosowania 252

Zastosowania Biometryczne systemy bezpieczeństwa Oczekiwany wzrost zainteresowania systemami rozpoznawani mówcy w porównaniu do innych systemów biometrycznych

Zastosowania Biometryczne systemy bezpieczeństwa Przez telefon Transakcje bankowe» Zmniejszenie strat powiązanych z defraudacjami» Zmniejszenie kosztów prewencji defraudacji» Zwiększenie przychodu w związku ze wzrostem satysfakcji klientów Poczta głosowa Zakupy przez telefon Głosowe interaktywne systemy odpowiadające

Zastosowania Biometryczne systemy bezpieczeństwa Defraudacje związane z podszywaniem się Jedynie w 2006 roku, 8,9 milliona dorosłych obywateli US było ofiarami podszywania się 1,3 miliarda funtów strat rocznie w Zjednoczonym Królestwie Przychód z systemów biometrycznych

Zastosowania systemy bezpieczeństwa Fizyczny dostęp (klucz) VADC (Voice Activated Device Control) Bankomaty bez kart

Zastosowania systemy bezpieczeństwa - Dostęp do komputerów i sieci 257

Zastosowania systemy bezpieczeństwa Odzyskiwanie hasła przez telefon 30 do 40 % telefonów do obsługi klienta to problemy z hasłem Telephony system SR USER Password Reset Authentication centre Target system

Zastosowanie Monitoring Kontrola zdalnej pracy i obecności pracowników Weryfikacja zwolnień warunkowych i aresztów domowych Gmina Iberville w LA (US) używa identyfikacji mówcy przez telefon dla osób objętych opieką kuratora Przed automatyzacją -> 1400 $/dziecko Po -> 193 $/dziecko Użycie telefonów więziennych

Zastosowania Wsparcie służb W kryminalistyce Rozpoznawanie mówców na żywo w identyfikacji osób dzwoniących Śledzenie mówcy, wykrywanie i nadzór Analiza mowy syntezowanej i modulowanej Cechy głosu są trudniejsze do ukrycia niż twarz

Zastosowania Rozpoznawanie mowy i mówcy Ulepszenie systemów bezpieczeństwa Transkrybowanie wielu mówców na raz w konwersacji - Rozprawy sądowe, parlamenty i inne transkrypcje spotkań

Zastosowania NIST www.nist.gov Korpusy do oceny systemów rozpoznawania mówcy www.speechtechmag.com Departament Sprawiedliwości US The European CAller VErification Project www.kpntelecom.nl/cave/ Voicetrust www.voicetrust.com PerSay Voice Biometrics ww.persay.com International Biometric Group, New York Mało ale dużych użytkowników (korporacje i instytucje rządowe) => wysokie ceny

Klasyfikacja Zamknięty/ otwarty-zbiór Narzucone błędne rozpoznanie Baza danych?? Baza danych nie pasuje do żadnego System z zamkniętym zbiorem Poza bazą danych Weryfikacja / Identyfikacja?? System ze zbiorem otwartym Tak Nowak? Mówca N Nie Baza danych Baza danych Zależne (stałe lub zmienne) lub niezależne od tekstu Cechy niskiego poziomu (akustyczne) lub wysokiego (lingwistyczne, dialektowe, społeczne, itd.)

Poziomy rozpoznawania mówcy Cechy wysokiego poziomu (nieakustyczne) Semantyka, dykcja, wymowa Status społecznofinansowy, edukacja, miejsce urodzin Trudna ekstrakcja Prozodia, rytm, tempo intonacji, modulacja głośności Typ osobowości, wpływ rodziców Cechy niskiego poziomu (fizyczne) Akustyczne aspekty mowy Anatomiczna struktura narządów mowy Łatwa ekstrakcja

Przygotowywanie systemu 265

Rozpoznawanie 266

System weryfikacji mówcy Microphone or Telephone Claimed identity YES Filtering & A/D Digital Speech Feature extraction Feature Vectors Pattern matching Match scores Decision NO Verified identity Enrollment Speaker models

System identyfikacji mówcy 268

2.5 2 1.5 1 0.5 0-0.5-1 -1.5-2 0 20 40 60 80 100 120 140 160 180 200-2.5 Pobieranie danych Ściana Zmienność kanału pomiędzy nagraniami Zmiana głosu mówcy wraz z czasem A/D Kanał Źródło szumu Wpływ innych rozmów, przepięcia, inne zakłócenie sprzętowe Niska rozdzielcz ość, np. GSM

Ekstrakcja cech Celem jest wydzielenie, najważniejszych, charakterystycznych informacji z sygnału Różne metody: LPC Cepstrum MFCC DWT

Dopasowywanie wzorców Modele z wzorcami DTW VQ Source Modelling knn Modele stochastyczne HMM + GMM Sieci neuronowe (NN) Maszyna wektorów nośnych (SVM)

Klasy (dźwięczna\bezdźwięczna) 272

Klasy (dźwięczna\bezdźwięczna) Cztery 273

Klasy (dźwięczna\bezdźwięczna) 274

Decyzje Bez modelu tła Porównanie do średniej pozostałych hipotez 275

Decyzje 276

Przykład podejmowania decyzji system AGH Średnia prawdopodobieństw hipotez 2-5 to około 0.14 0.52 >> 0.14 => Decyzja może być podjęta mówcą jest Andrzej Jajszczyk 277

Decyzje Uniwersalne modele tła (UBM) Model dla odrzucanych i niezidentyfikowanych rozpoznań 278

Testowanie Krzywa DET (detection error trade-off) Zaakceptowany właściwy mówca Odrzucony właściwy mówca Zaakceptowany błędny mówca Odrzucony błędny mówca 279

Analiza możliwych wersji systemu Przypadek projektowania systemu identyfikacji mówcy jako pracy magisterskiej (David Sierra) CMN - Cepstral mean normalisation 280

Typy cech akustycznych 281

Liczba stanów w HMM 282

Liczba mikstur w GMM 283

Optymalna wersja systemu w warunkach projektowych System został wykonany i wówczas może być testowany (w tym przypadku w warunkach otwartego zbioru) co powinno być wykonane na innych danych 284

Eksperymenty z różnymi systemami podejmowania decyzji SNR- Signal to Noise Ratio RAPT - Robust Algorithm for Pitch Tracking 285

Wyniki testów systemów decyzyjnych 286

Eksperymenty stosowania uniwersalnych modeli tła 287

Rezultaty stosowania uniwersalnych modeli tła 288

Eksperymenty z ilością materiału przygotowawczego (Angielski TIMIT) 289

Eksperymenty z ilością materiału przygotowawczego (CORPORA) 290

Eksperymenty z ilością materiału przygotowawczego (CORPORA) 291

Skuteczność w zależności od szumu 292

Skuteczność w zależności od liczby mówców 293

Standardy, testy i certyfikaty Systemy rozpoznawania mówców są w dużej mierze wykorzystywane przez służby mundurowe, specjalne i sądownictwo Duży nacisk na wykazanie ich skuteczności Niezależne instytucje (firmy i uniwersytety) przeprowadzają testy i wydają certyfikaty skuteczności Nawet z certyfikatami, skazywanie na podstawie dowodów w postaci analizy systemu rozpoznawania mówcy może być kwestionowane Problemy z nienadążaniem prawa za rozwojem informatyki 294

Podsumowanie Architektura systemu rozpoznawania mówcy Podział systemów rozpoznawania mówcy Przykładowe zastosowania Dźwięczność i bezdźwięczność mowy (sposoby analizy) Prawdopodobieństwo a podejmowanie decyzji w systemach rozpoznawania mówcy Universal background model Metodologia projektowania, testowania i wykazywania skuteczności 295

296

Rozpoznawanie emocji 297

Klasyfikacja emocji 298

Analiza głosu 299

Kismet emotional robot 300

Geminoid 301

Geminoid 302

Geminoid 303