ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Podobne dokumenty
ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

dr inż. Jacek Naruniec

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI)

Omówienie różnych metod rozpoznawania mowy

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Biometryczna Identyfikacja Tożsamości

Podstawy Przetwarzania Sygnałów

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Algorytmy detekcji częstotliwości podstawowej

Biometryczna Identyfikacja Tożsamości

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Zaawansowane algorytmy DSP

Filtracja obrazu operacje kontekstowe

Kompresja dźwięku w standardzie MPEG-1

Biometryczna Identyfikacja Tożsamości

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych

PRZETWARZANIE MOWY W CZASIE RZECZYWISTYM

Przetwarzanie sygnałów biomedycznych

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

Transformata Fouriera

Filtracja obrazu operacje kontekstowe

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Widmo akustyczne radia DAB i FM, porównanie okien czasowych Leszek Gorzelnik

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Ćwiczenie 3. Właściwości przekształcenia Fouriera

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

Komputerowe przetwarzanie sygnału mowy

Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert

Analiza sygnałów biologicznych

HARMONOGRAM ORAZ INSTRUKCJE DWICZEO

9. Dyskretna transformata Fouriera algorytm FFT

Implementacja filtru Canny ego

Analiza obrazów - sprawozdanie nr 2

DYSKRETNE PRZEKSZTAŁCENIE FOURIERA C.D.

Laboratorium Przetwarzania Sygnałów Biomedycznych

Efekt Lombarda. Czym jest efekt Lombarda?

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

Promotor: dr Marek Pawełczyk. Marcin Picz

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

Akustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski

Wykrywanie twarzy na zdjęciach przy pomocy kaskad

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.

Przekształcenie Fouriera i splot

Laboratorium Przetwarzania Sygnałów Biomedycznych

DYSKRETNA TRANSFORMACJA FOURIERA

Transpozer czasowy mowy

BIBLIOTEKA PROGRAMU R - BIOPS. Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat

Systemy multimedialne. Instrukcja 5 Edytor audio Audacity

Analiza sygnału mowy sterowana danymi dla rozpoznawania komend głosowych

Rozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech

CZWÓRNIKI KLASYFIKACJA CZWÓRNIKÓW.

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy

Spośród licznych filtrów nieliniowych najlepszymi właściwościami odznacza się filtr medianowy prosty i skuteczny.

Akustyka muzyczna ANALIZA DŹWIĘKÓW MUZYCZNYCH

Transformata Fouriera i analiza spektralna

FFT i dyskretny splot. Aplikacje w DSP

Zastosowanie Informatyki w Medycynie

BADANIA MOŻLIWOŚCI ROZPOZNAWANIA MOWY W AUTONOMICZNYCH SYSTEMACH STEROWANIA

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L

TRANSFORMATA FALKOWA 2D. Oprogramowanie Systemów Obrazowania 2016/2017

Diagnostyka obrazowa

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Ponieważ zakres zmian ciśnień fal akustycznych odbieranych przez ucho ludzkie mieści się w przedziale od 2*10-5 Pa do 10 2 Pa,

Procedura modelowania matematycznego

KLASYFIKACJA ZDAŃ W SYGNALE

Kompresja Danych. Streszczenie Studia Dzienne Wykład 13, f(t) = c n e inω0t, T f(t)e inω 0t dt.

Wykład V. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik

TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA

SYLABUS DOTYCZY CYKLU KSZTAŁCENIA Realizowany w roku akademickim 2016/2017

Przygotowała: prof. Bożena Kostek

Percepcja dźwięku. Narząd słuchu

Wydział Elektryczny. Katedra Telekomunikacji i Aparatury Elektronicznej. Instrukcja do pracowni specjalistycznej

KOMPUTEROWE TECHNIKI ANALIZY INFORMACJI ZAWARTEJ W SYGNAŁACH AKUSTYCZNYCH MASZYN ELEKTRYCZNYCH DLA CELÓW DIAGNOSTYKI STANÓW PRZEDAWARYJNYCH

WYDZIAŁ FIZYKI I INFORMATYKI STOSOWANEJ

Analiza szeregów czasowych: 2. Splot. Widmo mocy.

3. Przetwarzanie analogowo-cyfrowe i cyfrowo-analogowe... 43

Technika audio część 2

Aproksymacja funkcji a regresja symboliczna

PRZETWARZANIE SYGNAŁÓW LABORATORIUM

Ogólny schemat blokowy układu ze sprzężeniem zwrotnym

Diagnostyka obrazowa

Przetwarzanie obrazów wykład 6. Adam Wojciechowski

BIOMETRIA WYKŁAD 6 CECHY BIOMETRYCZNE: GŁOS

Fale akustyczne. Jako lokalne zaburzenie gęstości lub ciśnienia w ośrodkach posiadających gęstość i sprężystość. ciśnienie atmosferyczne

PRZETWARZANIE SYGNAŁÓW

f = 2 śr MODULACJE

8. Neuron z ciągłą funkcją aktywacji.

Pattern Classification

Cyfrowe Przetwarzanie Obrazów i Sygnałów

Analiza szeregów czasowych: 2. Splot. Widmo mocy.

Transkrypt:

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU i klasyfikacja sygnału audio dr inż. Jacek Naruniec

Sygnał mowy mózg (układ sterujący) głośnia (źródło dźwięku) rezonator akustyczny (filtr) sygnał mowy 2

Sygnał mowy Prosty model dźwięku: x as n x mierzony sygnał, s źródło sygnału a zniekształcenie sygnału n addytywny szum Pierwszy krok analizy wzmocnienie mowy względem szumu Przyjmując założenia co do widma szumu możemy dokonad jego filtracji w dziedzinie częstotliwości lub czasu *źródło: W. Kasprzak: Rozpoznawanie obrazów i sygnałów mowy + 3

Sygnał mowy Energia sygnału (od próbki m, liczona dla n kolejnych próbek): E n i0 x i m Kreski rozdział głosek, strzałki maksima energii głosek 2 *źródło: W. Kasprzak: Rozpoznawanie obrazów i sygnałów mowy + 4

Sygnał mowy Energia słowa puśd dla jednego i wielu mówców *źródło: W. Kasprzak: Rozpoznawanie obrazów i sygnałów mowy + 5

Sygnał mowy Redukcja szumów, poza filtracją częstotliwościową, może polegad na analizie funkcji korelacji wzajemnej sygnałów z dwóch (lub więcej) mikrofonów. Przesunięcie próbek względem wybranego sygnału można wyznaczyd poprzez analizę maksimów korelacji. Następnie sygnały są uśredniane. Ponieważ szum mikrofonów jest nieskorelowany, a mowa tak, w efekcie nastąpi wzmocnienie mowy przy osłabieniu szumów. 6

Spektrogram W przetwarzaniu sygnału mowy często używa się pojęcia spektrogramu. Spektrogram określa energię sygnału w pasmach w danej ramce sygnału. *źródło: wikipedia] Spektrogram sygnału mowy, źródło własne 7

Okno analizy (ramka) Dźwięk analizujemy w oknach o określonej długości (zwykle nakładające się na siebie). ~3s ~0.5s 8

Okno analizy (ramka) Okna zwykle długości 10-30ms z odstępem 5-20 ms. Dwa przeciwstawne warunki: stacjonarnośd analizowanego sygnału (prawdziwe dla sygnałów (zwykle ok. 10ms) Analiza okna na tyle długiego, aby uchwycid pożądane częstotliwości składowe Stosowane okna są np. kształtu prostokątnego lub Hamminga (mniej artefaktów częstotliwościowych) x 1 x 1 1 t 1 t 9

Okno analizy (ramka) Okno po filtracji Spektrogram amplitudy funkcji okna Spektrogram sygnału wyjściowego 10 *źródło: W. Kasprzak: Rozpoznawanie obrazów i sygnałów mowy +

Filtr preemfazy Niekiedy stosuje się dodatkowo filtr preemfazy, który ma na celu wzmocnienie składowych o wyższych częstotliwościach Ma on postad: gdzie α zwykle przyjmuje się z zakresu <0.9, 1.0> y i x i x i1 słowo jeden (bez filtru preemfazy) słowo jeden (z filtrem preemfazy) *źródło: W. Kasprzak: Rozpoznawanie obrazów i sygnałów mowy + 11

Wokodery Zwykle do analizy nie poddaje się bezpośrednio sygnału audio, ale pewien sygnał przetworzony Ma on odpowiadad percepcji ludzkiego słuchu, ale także byd przydatny w dalszej analizie Transformaty nie muszą byd odwracalne Wokoder -> voice coder Oryginalnie wokodery służyły głównie do syntezy głosu. Są to między innymi: wokodery kanałowe wokodery LPC (liniowej predykcji) wokodery formantów 12

Skala MEL Stworzona na podstawie różnic wysokości dźwięku, przy których słuchacze uznali, że jest ona jednakowa. Wniosek im wyższa częstotliwośd, tym mniej wrażliwy słuch na różnice w wysokości dźwięku MEL od słowa melody. 13 *źródło: http://sound.eti.pg.gda.pl/+

Wokodery formantów Dźwięk reprezentowany jest poprzez serię filtrów odpowiadających określonym częstotliwościom zależnym od charakterystyki sygnału. Wybierane są wyraźne maksima charakterystyki częstotliwościowej. Konkretne głoski mają różne formanty. 14 *źródło: J. Holmes, Speech Synthesis and Recognition +

Wokodery kanałowe Pasmo reprezentowane jest przez zestaw środkowo-przepustowych filtrów O ile banków nie jest wystarczająco dużo, pasmo może byd zniekształcone. Na poniższym przykładzie tracimy częśd informacji o formantach: 15 *źródło: J. Holmes, Speech Synthesis and Recognition +

Wokodery LPC Predykcja liniowa (liniowe kodowanie predykcyjne). Tworzony jest model dźwięku (np. na podstawie funkcji autokorelacji), gdzie próbkę w danym momencie możemy estymowad przy pomocy poprzednich próbek. Od wyniku odejmowany jest wynik predykcji. Etap ma za zadanie usunięcie elementów rezonansowych a pozostawienie jedynie źródła dźwięku. 16 *źródło: J. Holmes, Speech Synthesis and Recognition +

Banki filtrów Aby dostosowad się do modelu słyszenia ucha stosuje się skalę MEL. Słuch charakteryzuje się większą czułością w odróżnianiu niskich częstotliwości (poniżej 1kHz), podczas gdy trudniejsze jest odróżnianie wysokich dźwięków. Zwykle sygnał przetwarzany jest częstotliwościowo i przeprowadzany jest splot z filtrem odpowiadającym danemu pasmu. Filtry te można wyznaczyd np. w sposób przedstawiony poniżej. 17 *źródło: J. Holmes, Speech Synthesis and Recognition +

Cepstrum Służy do usuwania wpływu układu rezonansowego i wyodrębniania źródła sygnału. Etap ten ma za zadanie poprawid wyniki dalszego rozpoznawania. Założenie układ rezonansowy działa jak filtr i jego działanie można przedstawid poprzez konwolucję z sygnałem w dziedzinie czasu. Jeśli widmo reprezentowane jest logarytmicznie, to komponenty rezonansowe widma są addytywne log( s h) log( s) log( h) 18

Cepstrum Cepstrum (spec trum-> ceps trum) wyznaczane jest następująco: Wyznacz dyskretną transformatę Fouriera (DFT) sygnału Wyznacz wartośd bezwzględną kwadratu wartości DFT Zlogarytmuj uzyskane wartości Wykonaj IDFT dla otrzymanych częstotliwości Wyznacz wartośd bezwzględną kwadratu wartości IDFT Zamiast DFT często stosowana jest DCT: c j 2 N N i1 j( i 0.5) Ai cos, dla 0 N gdzie A i jest i-tym elementem zlogarytmowanego spektrum j N 19

Cepstrum 20 *źródło: J. Holmes, Speech Synthesis and Recognition +

Liftrowanie Lift rowanie (filt rowanie) Liftrowanie to filtrowanie w dziedzinie cepstrum Pozwala usunąd niepożądane składowe częstotliwościowe spektrum sygnału Liftrowanie dolnoprzepustowe (wybranie jedynie n pierwszych elementów cepstrum) stosowane jest przed wyznaczaniem formantów Liftrowanie dolnoprzepustowe = wygładzanie cepstralne 21

MFCC MFCC Mel Frequency Cepstral Coeffitients Filtry mel na sygnale cepstrum MFCC mel cepstrum Kroki (dla ramki): Wyznacz spektrum Wyznacz odpowiedzi filtrów. Zlogarytmuj wartości Wyznacz DCT zlogarytmowanych wartości Zatrzymaj pierwsze n współczynników (poza pierwszym) DCT 22 *źródło: J. Holmes, Speech Synthesis and Recognition +

Normalizacja poziomu spektrum Średni poziom energii mowy zmienia się o kilka db w ciągu kilku sekund Zmiany te nie mają dużego wpływu na rodzaj wypowiadanych głosek ale w wynikach porównywania już tak Normalizacja odbywa się poprzez: logarytmowanie spektrum dodawanie składowej stałej (w celu zakrycia niepożądanych szumów, dźwięków w cichych pomieszczeniach) Usuwanie średniej logarytmowanego spektrum (zwykle ze współczynnikiem 0.7-0.9 aby nie utracid istotnych informacji) 23

Detekcja mowy W przypadku nieznanej charakterystyki szumu, wyznaczamy jego parametry w chwilach ciszy Po wyeliminowaniu szumu możemy wyznaczyd interwały o wysokiej energii sygnału. Dla okna o określonej długości n z przesunięciem m, energię wyznaczamy bezpośrednio z próbek sygnału: E W praktyce wykorzystuje się tutaj także bardziej zaawansowane cechy jak cepstrum, czy też autokorelację. n i0 x i m 2 24

Detekcja mowy Inicjalizacja Pobierz n-tąramkę Wyznacz energię nie Adaptacja tak Mowa wykryta Wyjście=1 tak E>próg nie Szum wykryty Wyjście=0 Uaktualnij próg Uaktualnij energię szumu 25

Porównywanie spektrogramów (większe koło mniejsza różnica) 26 *źródło: J. Holmes, Speech Synthesis and Recognition +

Porównywanie spektrogramów 27 *źródło: J. Holmes, Speech Synthesis and Recognition +

Dynamic Time Warping (DTW) Dynamic Time Warping (DTW) - marszczenie czasu Analiza odbywa się w dziedzinie wyznaczonych cech Polega na porównywaniu aktualnego przykładu ze stworzonym modelem Uwzględnia różnice czasu wypowiedzi Opiera się na programowaniu dynamicznym three eight eight *źródło: J. Holmes, Speech Synthesis and Recognition + 28

Dynamic Time Warping m3 m2 m1 4 3 5 3 5 2 1 4 2 4 7 5 v1 v2 v3 v4 Poszukiwana jest ścieżka o minimalnej wadze łącznej. Możliwe decyzje: ruch w prawo, górę i góra-prawo 29 *źródło: J. Holmes, Speech Synthesis and Recognition +

Dynamic Time Warping Rozpoznawanie słów w tym kontekście polega na: Wyznaczeniu ścieżki dla każdego z dostępnych słów Wybór tego słowa dla którego sumaryczna waga jest najmniejsza Jeśli najmniejsza sumaryczna waga jest wyższa od określonego progu uznajemy, że słowa nie ma w naszym słowniku Aby uniezależnid wynik od długości słowa, wszystkie sumy można podzielid przez ilośd przebytych elementów Dodatkowo można wprowadzid dodatkowy koszt za przejście w kierunku innym niż diagonalny (jeśli długośd słowa mocno różni się od modelu, porównanie otrzyma wysoki koszt) 30

Dynamic Time Warping Metoda asymetryczna: Aby nie dopuścid do sytuacji w której elementy wzorca są pomijane, odrzuca się kierunek pionowy Ponieważ słowa mogą byd wypowiadane wolniej niż we wzorcu, dopuszcza się przeskoczenie jednego elementu tablicy 31

Dynamic Time Warping Generalnie należy sprawdzid wszystkie możliwe drogi i wyszukad tę o najmniejszej wadze łącznej Zawsze musimy dojśd do koocowego elementu modelu Z części ścieżek można zrezygnowad wcześniej jeśli sumaryczna waga jest zbyt duża Przyjmuje się, że ścieżka jest odcinana jeśli jej waga znacznie przekracza wagę ścieżki o minimalnej wadze w tej samej kolumnie Proces ten nazywamy przycinaniem gałęzi wyboru 32

Dynamic Time Warping Przycinanie gałęzi wyboru (score pruning) podstawowa metoda 33 *źródło: J. Holmes, Speech Synthesis and Recognition +

Dynamic Time Warping Przycinanie gałęzi wyboru metoda niesymetryczna 34 *źródło: J. Holmes, Speech Synthesis and Recognition +

Dynamic Time Warping Próba porównanie różnych słów (bez przycinania) three i eight 35 *źródło: J. Holmes, Speech Synthesis and Recognition +

Dynamic Time Warping Wyeliminowanie kosztów błędnej segmentacji słowa Najprościej realizowane poprzez usunięcie ostatniego wiersza (jak na rysunku) Inne metody mówią o wyeliminowaniu dodatkowego kosztu przejścia po linii poziomej 36 *źródło: J. Holmes, Speech Synthesis and Recognition +

Dynamic Time Warping Rozpoznawanie sekwencji słów Trudnośd z określeniem kooca jednego, początkiem drugiego słowa -> można to stwierdzid poprzez rozpoznanie słów Wyznaczamy modele poszczególnych słów Za pomocą DTW wyznaczamy ścieżkę przechodzącą przez cały wektor cech o najniższym koszcie sumarycznym 37

Dynamic Time Warping D(i,j,k), - aktualny koszt ścieżki i, j na rysunku, k indeks modelu Koniec słowa ustalamy w miejscu, kiedy j osiągnie liczbę elementów modelu słowa 38 *źródło: J. Holmes, Speech Synthesis and Recognition +

Dynamic Time Warping Ponieważ w sentencjach mogą pojawid się chwilę ciszy, wprowadza się dodatkowy model ciszy Jeśli dodatkowo założymy, że cisza może znaleźd się na początku lub koocu sekwencji, to segmentacja sygnału może byd mniej dokładna W przypadku dźwięków nieznanych stosowany jest wieloznacznik o wysokim koszcie 39

Dynamic Time Warping Ciągła detekcja mowy W miejscu ciszy stosowany jest model ciszy, w nieznanych słowach wieloznacznik Zwykle odpowiedź rozpoznawania określa się po kilku sekundach Można także sprawdzad składnię zdao aby uniknąd oczywistych błędów 40 *źródło: J. Holmes, Speech Synthesis and Recognition +

Hidden Markov Models (HMM) Ukryte Modele Markowa Hidden Markov Models (HMM) Model słowa składa się z sekwencji stanów, z których każdy jest związany z co najmniej jednym oknem Rozpoznawanie słów polega na badaniu, z jakim prawdopodobieostwem aktualna sekwencja zostanie wyprodukowana przez dany model 41 *źródło: J. Holmes, Speech Synthesis and Recognition +

Hidden Markov Models Wyróżnia się tutaj dwie istotne wartości: prawdopodobieostwo emisji (czyli z jakim p. dany wektor zostanie przekazany na wyjście modelu), związane z funkcją gęstości prawdopodobieostwa danego stanu prawdopodobieostwo przejścia z jednego stanu w drugi 42 *źródło: J. Holmes, Speech Synthesis and Recognition +

Hidden Markov Models Wyznaczanie prawdopodobieostwa wystąpienia danego słowa Zsumowanie wszystkich możliwych prawdopodobieostw wygenerowania słowa przez model Uproszczone np. badanie najbardziej prawdopodobnej ścieżki 43 Klasyfikacja

Hidden Markov Models Algorytm Viterbiego Przedstawione rozwiązanie analizuje dużą ilośd możliwych stanów Prawdopodobieostwo pewnych stanów/sekwencji może byd wiele większe niż pozostałych W związku z tym można ignorowad wszystkie poza najbardziej prawdopodobną sekwencją stanu systemu 44 Klasyfikacja

Hidden Markov Models Trenowanie modelu: Polega na znalezieniu najlepszych parametrów w kategoriach największej wiarygodności Algorytm forward-backward (Baum-Welch) Inicjalizacja dowolnymi parametrami Reestymacja parametrów modelu w zależności od uzyskanych wyników do momentu uzyskania dobrej wiarygodności Algorytmy gradientowe 45 Klasyfikacja

Hidden Markov Models Aplikacje: Rozpoznawanie mowy Rozpoznawanie gestów Rozpoznawanie pisma ręcznego 46 Klasyfikacja