ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

Podobne dokumenty
PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Metody systemowe i decyzyjne w informatyce

Sztuczna Inteligencja w medycynie projekt (instrukcja) Bożena Kostek

Pattern Classification

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Systemy uczące się wykład 2

Omówienie różnych metod rozpoznawania mowy

Wprowadzenie do uczenia maszynowego

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

9. Praktyczna ocena jakości klasyfikacji

dr inż. Jacek Naruniec

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Sygnały losowe i ich analiza. Paweł Strumiłło, Instytut Elektroniki Politechniki Łódzkiej

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Klasyfikacja LDA + walidacja

Metody klasyfikacji danych - część 1 p.1/24

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

Data Mining Wykład 4. Plan wykładu

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

Algorytm do rozpoznawania człowieka na podstawie dynamiki użycia klawiatury. Paweł Kobojek, prof. dr hab. inż. Khalid Saeed

Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Egzamin / zaliczenie na ocenę*

Krzysztof Ślot Biometria Łódź, ul. Wólczańska 211/215, bud. B9 tel

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

Prof. Stanisław Jankowski

Algorytmy detekcji częstotliwości podstawowej

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład III 2016/2017

WYKŁAD 7. Testowanie jakości modeli klasyfikacyjnych metodyka i kryteria

PRACA DYPLOMOWA INŻYNIERSKA

Promotor: dr Marek Pawełczyk. Marcin Picz

Inteligentna analiza danych

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

2. Empiryczna wersja klasyfikatora bayesowskiego

SZTUCZNA INTELIGENCJA

dr inż. Jacek Naruniec

Rozpoznawanie obrazów

Wprowadzenie do klasyfikacji

KLASYFIKACJA. Słownik języka polskiego

Percepcja dźwięku. Narząd słuchu

2. P (E) = 1. β B. TSIM W3: Sygnały stochastyczne 1/27

Komputerowe przetwarzanie sygnału mowy

Rozpoznawanie mówcy i emocji

SPOTKANIE 2: Wprowadzenie cz. I

Biostatystyka, # 3 /Weterynaria I/

CYFROWE PRZETWARZANIE SYGNAŁÓW

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Technologia dynamicznego podpisu biometrycznego

Algorytmy klasteryzacji jako metoda dyskretyzacji w algorytmach eksploracji danych. Łukasz Przybyłek, Jakub Niwa Studenckie Koło Naukowe BRAINS

Analiza sygnału mowy pod kątem rozpoznania mówcy chorego. Anna Kosiek, Dominik Fert

A Zadanie

AUTOMATYKA INFORMATYKA

Laboratorium Przetwarzania Sygnałów

Politechnika Świętokrzyska. Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 8. Filtracja uśredniająca i statystyczna.

Popularne klasyfikatory w pakietach komputerowych

DYSKRETNA TRANSFORMACJA FOURIERA

TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA

Adrian Horzyk

LABORATORIUM AKUSTYKI MUZYCZNEJ. Ćw. nr 12. Analiza falkowa dźwięków instrumentów muzycznych. 1. PODSTAWY TEORETYCZNE ANALIZY FALKOWEJ.

Elementy modelowania matematycznego

ZAAWANSOWANE ZAGADNIENIA ELEKTRONIKI

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

SYSTEM BIOMETRYCZNY IDENTYFIKUJĄCY OSOBY NA PODSTAWIE CECH OSOBNICZYCH TWARZY. Autorzy: M. Lewicka, K. Stańczyk

Analiza danych. TEMATYKA PRZEDMIOTU

WEKA klasyfikacja z użyciem sztucznych sieci neuronowych

Miernictwo Wibroakustyczne Literatura. Wykład 1 Wprowadzenie. Sygnały pomiarowe

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Stan dotychczasowy. OCENA KLASYFIKACJI w diagnostyce. Metody 6/10/2013. Weryfikacja. Testowanie skuteczności metody uczenia Weryfikacja prosta

Sygnał a informacja. Nośnikiem informacji mogą być: liczby, słowa, dźwięki, obrazy, zapachy, prąd itp. czyli różnorakie sygnały.

Laboratorium Przetwarzania Sygnałów Biomedycznych

Zagadnienia optymalizacji i aproksymacji. Sieci neuronowe.

Data Mining Wykład 6. Naiwny klasyfikator Bayes a Maszyna wektorów nośnych (SVM) Naiwny klasyfikator Bayesa.

Indukowane Reguły Decyzyjne I. Wykład 8

Widzenie komputerowe (computer vision)

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Algorytmy, które estymują wprost rozkłady czy też mapowania z nazywamy algorytmami dyskryminacyjnymi.

Podstawy Przetwarzania Sygnałów

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

Rozpoznawanie obrazów

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

W poszukiwaniu sensu w świecie widzialnym

Wprowadzenie do uczenia maszynowego

Sposoby opisu i modelowania zakłóceń kanałowych

Laboratorium Przetwarzania Sygnałów Biomedycznych

ZeroR. Odpowiada zawsze tak samo Decyzja to klasa większościowa ze zbioru uczącego A B X 1 5 T 1 7 T 1 5 T 1 5 F 2 7 F

Jacek Skorupski pok. 251 tel konsultacje: poniedziałek , sobota zjazdowa

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych

l a b o r a t o r i u m a k u s t y k i

7. Identyfikacja defektów badanego obiektu

LABORATORIUM PODSTAW TELEKOMUNIKACJI

Statystyka matematyczna i ekonometria

Rekonstrukcja obrazu (Image restoration)

Układy stochastyczne

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Transkrypt:

Przetwarzanie dźwięków i obrazów ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH mgr inż. Kuba Łopatka, p. 628 klopatka@sound.eti.pg.gda.pl

Plan wykładu 1. Wprowadzenie 2. Zasada rozpoznawania sygnałów 3. Parametryzacja 4. Klasyfikacja 5. Przykładowe metody

Rozpoznawanie sygnałów Uzyskanie wiedzy w sposób automatyczny z liczbowej reprezentacji zjawiska fizycznego (np. dźwięku, obrazu, sygnałów z sensorów) Przykłady o o obraz rozpoznawanie twarzy, rozpoznawanie obiektów, rozpoznawanie znaków - OCR dźwięk rozpoznawanie mowy, zdarzeń dźwiękowych, rozpoznawanie muzyki

Rozpoznawanie sygnałów Warianty rozpoznawania sygnałów klasyfikacja przyporządkowanie sygnału nieznanego typu do danej klasy weryfikacja potwierdzenie przynależności obiektu do klasy rozpoznawanie statyczne (np. na klatce obrazu, całym pliku dźwiękowym) rozpoznawanie dynamiczne z uwzględnieniem wewnętrznych zmian w sygnale

Rozpoznawanie sygnałów Metody statystyczne sygnał akwizycja i wstępne przetwarzanie parametryzacja klasyfikacja wynik Parametryzacja opisanie rozpoznawanego obiektu za pomocą skończonego zestawu liczb wektora parametrów Klasyfikacja najczęściej z wykorzystaniem inteligentnych systemów decyzyjnych: sieci neuronowe, drzewa decyzyjne, SVM...

Rozpoznawanie sygnałów 00101010 01011010 10101110 10101101

Parametryzacja Komputery operują na liczbach, nie na abstrakcyjnych cechach. Abstrakcyjne cechy obiektu, oparte na subiektywnych wrażeniach, można mnożyć w nieskończoność. Parametryzacja uściśla i formalizuje opis obiektu. Wykorzystanie parametrów i ich analizy pozwala nam czasem zauważyć różnice, z których istnienia nie zdawaliśmy sobie sprawy. 7

Parametr a cecha obiektu obiekt cecha parametr coś, co potrafimy wyróżnić dotknąć, nazwać, wskazać abstrakcyjna jakość związana z obiektem, odróżniająca go od innych obiektów liczbowe wyrażenie cechy obiektu 8 Fazor żółty krótkie łapy duże uszy kolor = 0xEFFD16 długość łap = 0.3 powierzchnia uszu = 2.5

Istota parametryzacji 96.166523,1.759453,0.642469,0.93923 p1 13.107385,11.670153,5.367856,27.99373 62.210737,24.361501,13.485403,4.333814 45.387064,51.238854,31.335811,0.655828 p2 Odwzorowanie dowolnych obiektów za pomocą wektorów liczb o skończonej długości - przejście z przestrzeni o nieskończonym wymiarze do przestrzeni K parametrów. 9

Cel parametryzacji Odróżnienie od siebie obiektów różnych klas Rozpoznanie obiektu nieznanej klasy Weryfikacja przynależności obiektu do klasy wstępne przetwarzanie ekstrakcja parametrów klasyfikacja 10

Parametry dźwięku Parametry czasowe Widmowe obliczane z widma mocy cepstralne LPC perceptualne

Parametry czasowe Parametry czasowe są to parametry, które są wyznaczane wyłącznie na podstawie postaci czasowej sygnału. Przykłady: Energia sygnału Środek ciężkości sygnału Obwiednia sygnału Gęstość przejść przez zero ) ( x 2 n E n K n n n N k x K o o o o n O 1 2 2 1 ) ( 1... ) ( N n N n n O n O n TC 1 1 ) ( ) (

Parametry czasowe Obwiednia Gęstość przejść przez zero E=0.1627 TC=12581 [smpl]

Parametry widmowe Parametry widmowe wyznaczane są na podstawie estymaty widma sygnału. Estymacja widma sygnału: - Funkcja widmowej gęstości mocy (power spectral density PSD): periodogram, estymator Welcha, autokorelacja widmo mocy - Moduł DFT sygnału widmo amplitudowe

Momenty widmowe Momenty widmowy m-tego rzędu definiuje się następująco: gdzie: G(k) wartość widma mocy dla k-tego pasma częstotliwości f k częstotliwość środkowa k-tego pasma Moment unormowany m-tego rzędu Moment normalizujący zerowego rzędu ma sens mocy sygnału

Płaskość widmowa Płaskość widmowa (ang. spectral flatness measure SFM) stosunek średniej geometrycznej i arytmetycznej współczynników widma miara harmoniczności sygnału - widmowa gęstość mocy Parametr SFM może być również wyznaczany w pasmach

MPEG-7 Ogrom parametrów widmowych (i nie tylko) zdefiniowanych jest w tzw. standardzie MPEG-7. Na przykład: - Audio Spectrum Envelope - Audio Spectrum Spread - Audio Spectrum Centroid - Harmonic Spectral Centroid - Harmonic Spectral Spread - Audio Spectrum Flatness -... Najczęściej są one stosowane do sygnałów muzycznych

Parametry widmowe SFM=0,026 SFM=0,383 SFM=0,4411 Mu1=178,34 - środek ciężkości widma Muc3 = 1,8 * 10 8 skośność Kurtoza 506.4653

Ekstrakcja parametrów Proces obliczania parametrów nazywa się często ekstrakcją cech obiektu (lub cech sygnału), ang. feature extraction. Ekstrakcja cech powinna być procesem powtarzalnym, deterministycznym i sformalizowanym matematycznie. Wynikiem ekstrakcji parametrów jest wektor cech związany z obiektem. obiekt ekstrakcja cech 0.145 0.782 0.124 0.918-1.24 19 wektor parametrów

Ekstrakcja parametrów statyczna na całym sygnale dynamiczna w ramkach ramki np. o długości 25ms ekstrakcja parametrów ekstrakcja parametrów wektor parametrów macierz parametrów dynamicznych a a... a p 11 21 1 a a a 12 22... p2 a1 a2... a p a a a 13 23... p3 a a 1n a...... 2n pn

Klasyfikacja sygnałów Zadaniem klasyfikatora jest przyporządkowanie obiektów nieznanego typu do jednej ze znanych klas. Aby algorytm był zdolny do takiego przyporządkowania, potrzebny jest trening, podczas którego tworzy się model. W ujęciu matematycznym klasyfikator jest układem, który na wejściu przyjmuje wektor cech, a na wyjściu daje wynik klasyfikacji.

Klasyfikacja Metody klasyfikacji sztuczne sieci neuronowe (ANN) maszyny wektorów wspierających (SVM) ukryte modele Markowa (HMM) mieszane modele Gaussowskie (GMM) inne algorytmy statystyczne...

Sztuczne sieci neuronowe Struktura warstwowa zbudowana ze sztucznych neuronów Trening dostosowanie wag (najczęściej algorytm gradientowy)

Maszyny wektorów wspierających Znajdowanie optymalnej hiperpłaszczyzny (w N-wymiarowej przestrzeni) separującej dwie klasy Dla rozpoznania więcej niż dwóch klas konieczne jest stworzenie większej liczby modeli p1 margin w negative examples p2 positive examples support vectors

Mieszane modele Gaussowskie Opisywanie rozkładów prawdopodobieństwa wartości parametrów danych klas za pomocą sumy rozkładów Gaussa obiekt przyporządkowany do klasy o największym prawdopodobieństwie a posteriori

Ukryte modele Markowa Ukryte modele Markowa (Hidden Markov Model) zawierają dynamiczny model, w którym zdefiniowane są stany i rozkłady prawdopodobieństwa przejść między stanami Estymowane prawdopodobieństwo wystąpienia zaobserwowanej sekwencji

Klasyfikacja Najprostszy przypadek dwie klasy Wektory uczące w postaci par gdzie x i to wektor parametrów y i klasa {1;2} Funkcja klasyfikacji ( x i, yi ) y f ( x) 1, 2, warunek klasy1 warunek klasy2

Klasyfikacja Macierz pomyłek (confusion matrix) TP True Positive wartość prawdziwie pozytywna klasa 1 klasa 2 TP1 FP2 klasa 1 FP1 TP2 klasa 2 sklasyfikowano jako FP False Positive wartość fałszywie pozytywna precision pewność w klasie 1 = TP1/(TP1+FP1) recall czułość w klasie 2 = TP1/(TP2+FP2)

Klasyfikacja Przykład klasa 1 klasa 2 127 0 klasa 1 54 66 klasa 2 sklasyfikowano jako precision pewność w klasie 1 = 127/(127+54) = 0,7 recall czułość w klasie 1 = 127/(127+0) = 1 średnia skuteczność = (127+66)/(127+66+54)=78% klasa 1 klasa 2 sklasyfikowano jako 127 28 klasa 1 26 66 klasa 2 precision pewność w klasie 1 = 127/(127+26) = 0,83 recall czułość w klasie 1 = 127(127+28) = 0,82 średnia skuteczność = (127+66)/(127+66+54)=78%

Wykres DET FAR False Acceptance Rate, np. przyznanie dostępu osobie nieuprawnionej FRR False Rejection Rate, np. nieprzyznanie dostępu osobie uprawnionej Wykres DET (Detection Error Tradeoff) obrazuje FRR w funkcji FAR w zależności od czułości

Wykres DET

Trening Zbiór uczący wektory parametrów + znane klasy wykorzystywane do treningu klasyfikatora Zbiór testowy wektory parametrów nieznane na etapie treningu sprawdzające działanie klasyfikacji Walidacja krzyżowa wielokrotny podział zbioru treningowego na zbiór uczący i testowy celem przetestowania klasyfikatora na każdym wektorze

Walidacja krzyżowa krok 1 krok 2 krok 3 zbiór uczący zbiór testowy zbiór uczący zbiór testowy zbiór testowy zbiór uczący

Rozpoznawanie zdarzeń dźwiękowych Zdarzenie dźwiękowe zdarzenie akustyczne zdarzenie, które występuje w środowisku, trwa skończony czas i można je rozpoznać za pomocą zmysłu słuchu lub analizy próbek dźwięku. Zastosowanie monitoring akustyczny pomoc dla niesłyszących automatyka

Rozpoznawanie zdarzeń dźwiękowych Przykładowy algorytm

Rozpoznawanie mowy Rozpoznawanie mowy (ang. speech to text, Automatic Speech Recognition ASR) zamiana mowy na wypowiedź w formie tekstowej. Należy rozróżnić pojęcia: rozpoznawanie mowy (speech recognition) rozpoznawanie mówcy (speaker recognition) rozpoznawanie głosu (voice recognition)

Rozpoznawanie mowy Wykorzystanie parametrów perceptualnych (odwzorowujących działanie ucha) Struktury dynamiczne (HMM) sygnał mowy dane uczące model akustyczny model leksykalny i gramatyczny ekstrakcja cech klasyfikacja korekta tekst

Rozpoznawanie muzyki MIR Music Information Retrieval Automatyczne rozpoznanie gatunku muzycznego Rozpoznanie tonacji, tempa utworu Automatyczne wyszukiwanie muzyki w Internecie Rozpoznawanie melodii Query by humming, query by example Najczęściej wykorzystywane parametry MPEG-7

Rozpoznawanie dźwięków w warunkach rzeczywistych W warunkach rzeczywistych obecne są zakłócenia (szum), które wpływają na wartości parametrów i mają wpływ na wynik rozpoznania Skuteczność rozpoznawania należy podawać przy zmierzonym stosunku sygnału do szumu (SNR ang. Signal to Noise Ratio) SNR[ db] 10log s n 2 2 ( t) dt ( t) dt

Dziękuję za uwagę! Kuba Łopatka klopatka@sound.eti.pg.gda.pl