Podstawy automatycznego rozpoznawania mowy. Autor: mgr inż. Piotr Bratoszewski
|
|
- Franciszek Janiszewski
- 7 lat temu
- Przeglądów:
Transkrypt
1 Podstawy automatycznego rozpoznawania mowy Autor: mgr inż. Piotr Bratoszewski
2 Rys historyczny pierwsze systemy Automatycznego rozpoznawania mowy (ang. Automatic Speech Recognition ASR), metody holistyczne; ad-hoc ; izolowane słowa; małe słowniki; Bell Laboratories pierwsze systemy ASR oparte na zależnościach fonetycznych; małe słowniki;
3 Rys historyczny systemy oparte o rozpoznawanie wzorca (ang. pattern recognition); wykorzystanie parametrów kodowania predykcyjnego (LPC); sekwencje izolowanych lub połączonych słów; małe i średnie słowniki wprowadzenie statystycznego modelowania zależności dynamicznych i statycznych w mowie ciągłej; zastosowanie ukrytych modeli Markowa (ang. Hidden Markov Models - HMM)
4 Rys historyczny 2000-teraz kombinacje modeli HMM oraz zależności akustyczno fonetycznych w celu znajdowania i korekcji nieregularności językowych, deep learning, systemy pracujące w chmurze; zwiększanie odporności systemu na pracę w środowisku szumowym; rozpoznawanie wielomodalne
5 Istotne terminy Słownik ilość wyrazów które system jest w stanie rozpoznać: Mały słownik: wyrazów Średni słownik: wyrazów Duży słownik: ponad 1000 wyrazów (w tej chwili 50 tys. słów) System zależny/niezależny od mówcy Rozpoznawanie mowy ciągłej/izolowanej Składnia (ang. syntax) mowa naturalna/wydawanie poleceń/rozpoznawanie cyfr WER słowna stopa błędu (ang. Word Error Rate)
6 Schemat systemu ASR Modele akustyczne Model językowy Sygnał mowy Ekstrakcja parametrów MFCC LPC Parametry Y Dekodowanie Wynik Set alarm 7 p.m. W inne
7 Parametry widmowe Podstawowymi parametrami mowy są parametry widmowe uzyskiwane poprzez analizę transformaty Fouriera sygnału mowy Analiza rozkładu formantów pozwala na rozpoznawanie samogłosek Formanty
8 Metody parametryzacji mowy Cepstralne (np. MFCC) Metody efektywne i łatwe w implementacji Transformata Fouriera Filtry melowe Log DCT Wektor parametrów Sygnał mowy (fragmenty) Widmo sygnału Prążki widma (tyle ile pasm filtru mel) Logarytmy energii poszczególnych pasm Amplitudy otrzymanego widma to MFCC
9 Metody parametryzacji mowy Filtry w skali melowej
10 Metody parametryzacji mowy Predykcyjne (LPC, PLP) Skuteczność porównywalna do MFCC w warunkach optymalnych Większa skuteczność w przypadku rozbieżności danych testowych z treningowymi Wysokość tonu Generator tonu krtaniowego Generator szumu pseudolosowego Przełącznik - pobudzenie dźwięczne / bezdźwięczne u[n] X G Parametry traktu głosowego Filtr cyfrowy zmienny w czasie H(z) s[n]
11 Model akustyczny Wymawiane słowa dzieli się na sekwencję podstawowych jednostek mowy fonemy Model akustyczny reprezentuje zależności pomiędzy sygnałem akustycznym a fonemami BROWSER BROWSER CALCULATOR CALCULATOR COMPUTER COMPUTER b r aw z ax b r aw z ax r k ae l k y uh l ey t ax k ae l k y uh l ey t ax r k ax m p y uw t ax k ax m p y uw t ax r
12 Model akustyczny W celu zamodelowania najkrócej trwających fonemów (głoski wybuchowe ang. plosive phonemes: -p; -t; -k) należy dobrać odpowiednie okno analizy typowo o długości 10 ms Przy tworzeniu modelu akustycznego korzysta się najczęściej z parametrów mel-cepstralnych (MFCC) lub parametrów LPC Typowo stosuje się modele trifonowe Istotne osobny model ciszy OPEN: ow p ax n sp OPEN: sil ow+p ow-p+ax p-ax+n ax-n sp
13 Rozpoznawanie mowy Każde wypowiadane słowo jest reprezentowane przez obserwacje O: O = o 1, o 2,, ot Problem rozpoznawania mowy może być rozumiany jako obliczenie arg max{p(w i O)} i gdzie w i jest i-tym słowem ze słownika. Korzystając z Twierdzenia Bayesa: P w i O = P O w i P(w i ) P(O) Model językowy Model akustyczny Bezpośrednia estymacja łączonego prawdopodobieństwa warunkowego P o 1, o 2 w i z wymawianych słów jest niepraktyczne. Jednakże skorzystanie z modelu parametrycznego, jakim jest np. Model Markowa, problem estymacji P O w i sprowadza się do znacznie prostszego problemu jakim jest estymacja parametrów modelu Markowa.
14 Ukryte Modele Markowa a 22 a 33 a 44 Model M a 12 a 23 a 34 a 45 S 1 S 2 S 3 S 4 S 5 b 2 (o 1 ) b 2 (o 2 ) b 3 (o 3 ) b 4 (o 4 ) b 4 (o 5 ) (Obserwacje) O= o 1 o 2 o 3 o 4 o 5 Bakis Model (left-right HMM)
15 Ukryte Modele Markowa Prawdopodobieństwo, że obserwacje O zostały wygenerowane przez model M dzięki poruszaniu się przez stany X obliczane jest za pomocą: P O, X M = a 12 b 2 (o 1 ) a 22 b 2 (o 2 ) a 23 b 3 o 3 Znana jest tylko sekwencja obserwacji O natomiast sekwencja stanów X jest ukryta. Skoro X jest nieznane aby obliczyć wymagane prawdopodobieństwo należy zsumować wszystkie możliwe stany X: P O M = a x 0 x(1) b x t (o t ) a x t x t+1, X gdzie T to ilość cykli zegara w maszynie stanów. W praktyce, obliczana jest jako estymacja najbardziej prawdopodobnych sekwencji stanów: P O M = max X T t=1 T a x 0 x(1) b x(t) o t t=1 a x t x(t+1)
16 Ukryte Modele Markowa Modelowanie procesu na podstawie skończonej liczby stanów S Opisywane są przez: N, liczba stanów M, liczba obserwacji Prawdopodobieństwo przejścia pomiędzy stanami A={a ij } Prawdopodobieństwo wygenerowania danej obserwacji w stanie j: B={b j ())} Rozkład początkowy prawdopodobieństwa π={π i }
17 Dekodowanie W fazie dekodowania (odkrywania ukrytej sekwencji stanów modelu HMM) często stosuje się algorytm Viterbiego W fazie uczenia modelu (ustawiania parametrów) stosuje się algorytm Bauma-Welcha
18 Model językowy K p(w)= p(w k w k-1,,w k-n+1 ) k=1 Model N-gramowy biorący pod uwagę N wyrazów wstecz Bigram: P(ala ma małego kota)=p(ala <start>) P(ma ala) P(małego ma) P(kota małego) P(<end> kota) Unigram: P(ala ma małego kota)=p(ala) P(ma) P(małego) P(kota)
19 Skuteczność rozpoznawania Do oceny skuteczności systemu ASR stosowana jest miara wyrazowej stopy błędu (ang. Word Error Rate WER) WER = D+S+I H+D+S 100% H liczba poprawnie rozpoznanych słów D liczba nie rozpoznanych słów (ang. deletions) S liczba błędnie rozpoznanych słów (ang. substitutions) I liczba wstawionych słów (ang. insertions)
20 Skuteczność rozpoznawania Wynik rzeczywistego rozpoznawania "'*'/SPEAKER03_C1_AUD1_13.rec TUESDAY WEDNESDAY THURSDAY FRIDAY SATURDAY SUNDAY MOUSE MOVE MUSIC MUTE "'*'/SPEAKER03_C1_AUD1_13.rec" TUESDAY WEDNESDAY THURSDAY FRIDAY SATURDAY SUNDAY MY AS MOVE MUSIC MUTE
21 Dynamic Time Warping Algorytm DTW dynamiczne marszczenie czasu Dwa przebiegi czasowe: Tworzenie macierzy kosztów Obliczanie ścieżki o najmniejszym koszcie
22 Poprawa rozpoznawania w szumie Stosowanie filtracji widmowej (ang. Spectral Subtraction) Stosowanie filtracji adaptacyjnej Stosowanie filtracji przestrzennej Beamforming Stosowanie różnych modeli akustycznych
23 Bimodalne rozpoznawanie mowy Dołączenie do wektora parametrów akustycznego parametrów wizyjnych Fonemy = wizemy Widowiskowe podejście czytanie z ruchu warg Teoretycznie wzrost skuteczności w warunkach szumowych Wiele problemów do rozwiązania (detekcja ust, framerate, cechy osobnicze)
24 Przykładowe systemy ASR Apple Siri Google Now
25 Przykładowe systemy ASR Intel RealSense
26 Przykładowe otwarte systemy ASR HTK Toolkit
27 Bibliografia HTK Book: speech.ee.ntu.edu.tw/homework/dsp_hw2-1/htkbook.pdf Rabiner L., A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition Benesty, Springer Handbook of Speech Processing
Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski
Automatyczne rozpoznawanie mowy Autor: mgr inż. Piotr Bratoszewski Rys historyczny 1930-1950 pierwsze systemy Automatycznego rozpoznawania mowy (ang. Automatic Speech Recognition ASR), metody holistyczne;
Bardziej szczegółowoAKUSTYKA MOWY. Podstawy rozpoznawania mowy część I
AKUSTYKA MOWY Podstawy rozpoznawania mowy część I PLAN WYKŁADU Część I Podstawowe pojęcia z dziedziny rozpoznawania mowy Algorytmy, parametry i podejścia do rozpoznawania mowy Przykłady istniejących bibliotek
Bardziej szczegółowoKATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:
KATEDRA SYSTEMÓW MULTIMEDIALNYCH Inteligentne systemy decyzyjne Ćwiczenie nr 12: Rozpoznawanie mowy z wykorzystaniem ukrytych modeli Markowa i pakietu HTK Opracowanie: mgr inż. Kuba Łopatka 1. Wprowadzenie
Bardziej szczegółowoAutomatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści
Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, 2011 Spis treści Przedmowa 11 Rozdział 1. WPROWADZENIE 13 1.1. Czym jest automatyczne rozpoznawanie mowy 13 1.2. Poziomy
Bardziej szczegółowoOmówienie różnych metod rozpoznawania mowy
Omówienie różnych metod rozpoznawania mowy Na podstawie artykułu: Comparative study of automatic speech recognition techniques Beniamin Sawicki Wydział Inżynierii Mechanicznej i Robotyki Inżynieria Akustyczna
Bardziej szczegółowoANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU
ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU i klasyfikacja sygnału audio dr inż. Jacek Naruniec Sygnał mowy mózg (układ sterujący) głośnia (źródło dźwięku) rezonator akustyczny (filtr) sygnał mowy 2 Sygnał mowy
Bardziej szczegółowodr inż. Jacek Naruniec
dr inż. Jacek Naruniec Przetwarzanie wstępne Wyznaczenie obszarów zainteresowania Ekstrakcja cech - dźwięk Klasyfikacja detekcja mowy okno analizy spektrogram filtr preemfazy wokodery (formantów, kanałowe,
Bardziej szczegółowoANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU
ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU i klasyfikacja sygnału audio dr inż. Jacek Naruniec Sygnał mowy mózg (układ sterujący) głośnia (źródło dźwięku) rezonator akustyczny (filtr) sygnał mowy 2 Sygnał mowy
Bardziej szczegółowoKomputerowe przetwarzanie sygnału mowy
Komputerowe przetwarzanie sygnału mowy Prof dr hab inż Bożena Kostek Katedra Systemów Multimedialnych Wydział Elektroniki, Telekomunikacji i Informatyki Politechnika Gdańska Komputerowe przetwarzanie sygnału
Bardziej szczegółowo4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...
Spis treści 1 Wstęp 11 1.1 Do kogo adresowana jest ta książka... 12 1.2 Historia badań nad mową i językiem... 12 1.3 Obecne główne trendy badań... 16 1.4 Opis zawartości rozdziałów... 18 2 Wyzwania i możliwe
Bardziej szczegółowoROZPOZNAWANIE SYGNAŁÓW FONICZNYCH
Przetwarzanie dźwięków i obrazów ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH mgr inż. Kuba Łopatka, p. 628 klopatka@sound.eti.pg.gda.pl Plan wykładu 1. Wprowadzenie 2. Zasada rozpoznawania sygnałów 3. Parametryzacja
Bardziej szczegółowoCzym jest HTK HMMs ASR
HTK 138 Czym jest HTK Zbiór programów implementujących Niejawne Łańcuchy Markowa - Hidden Markov Models (HMMs) ASR, synteza mowa, rozpoznawanie liter, badania nad sekwencjami DNA Analiza mowy, wyćwiczenie
Bardziej szczegółowoMetoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi
BIULETYN INSTYTUTU AUTOMATYKI I ROBOTYKI NR, 005 Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi Leszek GRAD Zakład Automatyki, Instytut Teleinformatyki i Automatyki WAT, ul. Kaliskiego,
Bardziej szczegółowoTechnologie Mowy Bartosz Ziółko
www.dsp.agh.edu.pl http://rozpoznawaniemowy.blogspot.com/ Technologie Mowy Bartosz Ziółko 1 Technologie Mowy 2 Technologie Mowy 3 Technologie Mowy 4 Dane kontaktowe Dr inż. Jakub Gałka C2/419 Telefon 50-68
Bardziej szczegółowoOpisy efektów kształcenia dla modułu
Karta modułu - Technologia mowy 1 / 5 Nazwa modułu: Technologia mowy Rocznik: 2012/2013 Kod: RIA-1-504-s Punkty ECTS: 7 Wydział: Inżynierii Mechanicznej i Robotyki Poziom studiów: Studia I stopnia Specjalność:
Bardziej szczegółowoPRACA DYPLOMOWA Inżynierska
AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA W KRAKOWIE Wydział Informatyki, Elektroniki i Telekomunikacji Katedra Elektroniki PRACA DYPLOMOWA Inżynierska Temat: Narzędzie programowe do optymalizacji
Bardziej szczegółowoROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW
ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW Maciej Piasecki, Szymon Zyśko Wydziałowy Zakład Informatyki Politechnika Wrocławska Wybrzeże Stanisława Wyspiańskiego
Bardziej szczegółowoStatystyczna analiza danych
Statystyczna analiza danych ukryte modele Markowa, zastosowania Anna Gambin Instytut Informatyki Uniwersytet Warszawski plan na dziś Ukryte modele Markowa w praktyce modelowania rodzin białek multiuliniowienia
Bardziej szczegółowoRozpoznawanie i synteza mowy w systemach multimedialnych. Analiza i synteza mowy - wprowadzenie. Spektrogram wyrażenia: computer speech
Slajd 1 Analiza i synteza mowy - wprowadzenie Spektrogram wyrażenia: computer speech Slide 1 Slajd 2 Analiza i synteza mowy - wprowadzenie Slide 2 Slajd 3 Analiza i synteza mowy - wprowadzenie Slide 3
Bardziej szczegółowoPRAKTYCZNE ASPEKTY WYKORZYSTYWANIA SYSTEMÓW ROZPOZNAWANIA MOWY OPARTYCH NA HMM
MODELOWANIE INŻYNIERSKIE ISSN 896-77X 40, s. 7-78, Gliwice 200 PRAKTYCZNE ASPEKTY WYKORZYSTYWANIA SYSTEMÓW ROZPOZNAWANIA MOWY OPARTYCH NA HMM AGNIESZKA MIETŁA, MAREK IWANIEC Katedra Automatyzacji Procesów,
Bardziej szczegółowoPARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.
1 PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI. mgr inż. Kuba Łopatka Katedra Systemów Multimedialnych p. 628, tel. 348-6332 PLAN WYKŁADU 1. Potrzeba i istota parametryzacji 2. Klasyfikacja
Bardziej szczegółowoTEORIA WYTWARZANIA DŹWIĘKÓW
1 TEORIA WYTWARZANIA DŹWIĘKÓW MOWY, FORMANTY, MODELOWANIE WYTWARZANIA DŹWIĘKÓW MOWY. mgr inż. Kuba Łopatka PLAN WYKŁADU 1. Teoria wytwarzania dźwięków mowy Ogólna teoria wytwarzania dźwięków mowy Ton krtaniowy
Bardziej szczegółowoAkustyka mowy wprowadzenie. Opracował: dr inż. Piotr Suchomski
Akustyka mowy wprowadzenie Opracował: dr inż. Piotr Suchomski Kontakt Katedra Systemów Multimedialnych Wydział ETI dr inż. Piotr M. Suchomski, pok. EA 730 e-mail: pietka@sound.eti.pg.gda.pl tel. 23-01
Bardziej szczegółowoWPROWADZENIE DO SZTUCZNEJ INTELIGENCJI
POLITECHNIKA WARSZAWSKA WYDZIAŁ MECHANICZNY ENERGETYKI I LOTNICTWA MEL WPROWADZENIE DO SZTUCZNEJ INTELIGENCJI NS 586 Dr inż. Franciszek Dul 15. WNIOSKOWANIE PROBABILISTYCZNE EWOLUCYJNE Wnioskowanie probabilistyczne
Bardziej szczegółowoSemantyczne kodowanie mowy przy bardzo małych prędkościach transmisji.
POLITECHNIKA POZNAŃSKA WYDZIAŁ ELEKTRONIKI I TELEKOMUNIKACJI KATEDRA TELEKOMUNIKACJI MULTIMEDIALNEJ I MIKROELEKTRONIKI Semantyczne kodowanie mowy przy bardzo małych prędkościach transmisji. Damian Modrzyk
Bardziej szczegółowoAlgorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Bardziej szczegółowoAutomatyczna tablica okulistyczna w oparciu o mel-cepstralną analizę sygnału mowy
Międzywydziałowa Szkoła Inżynierii Biomedycznej Projekt dyplomowy inżynierski Dorota Błaszczyk Nr albumu: 204312 Agnieszka Gielar Nr albumu: 125603 kierunek studiów: inżynieria biomedyczna Automatyczna
Bardziej szczegółowoSystem do sterowania ruchem kamery przemysłowej za pomocą komend głosowych
System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych Dariusz Krala 1 1 Wydział Inżynierii Mechanicznej i Informatyki Kierunek Informatyka, Rok V {dariusz.krala}@gmail.com Streszczenie
Bardziej szczegółowoPrzetwarzanie sygnałów biomedycznych
Przetwarzanie sygnałów biomedycznych dr hab. inż. Krzysztof Kałużyński, prof. PW Człowiek- najlepsza inwestycja Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Bardziej szczegółowoZastosowanie współczynników HFCC jako cech sygnału mowy w automatycznej detekcji wad wymowy
Tomasz ZIELIŃSKI ), Paweł GAJDA ), Marcin STACHURA ) Robert WIELGAT 2), Daniel KRÓL 2), Tomasz WOŹNIAK 3), Stanisław GRABIAS 3) ) AKADEMIA GÓRNICZO-HUTNICZA, KATEDRA METROLOGII 2) PAŃSTWOWA WYŻSZA SZKOŁA
Bardziej szczegółowoPrzedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry 1 1.1. Pojęcia podstawowe 1 1.2. Klasyfikacja sygnałów 2 1.3.
Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry 1 1.1. Pojęcia podstawowe 1 1.2. Klasyfikacja sygnałów 2 1.3. Sygnały deterministyczne 4 1.3.1. Parametry 4 1.3.2. Przykłady 7 1.3.3. Sygnały
Bardziej szczegółowoRozpoznawanie mowy za pomocą HTK
Kinga Frydrych Wydział Inżynierii Mechanicznej i Robotyki Inżynieria Akustyczna, rok III, 2013/2014 Sprawozdanie z ćwiczeń laboratoryjnych z Technologii mowy Rozpoznawanie mowy za pomocą HTK 1. Opis gramatyki
Bardziej szczegółowoTWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA
MODELOWANIE INŻYNIERSKIE ISSN 1896-771X 40, s. 249-256, Gliwice 2010 TWORZENIE MODELU AKUSTYCZNEGO NA POTRZEBY WERYFIKACJI MÓWCY PRZY UŻYCIU UKRYTYCH MODELI MARKOWA IWONA WANAT MAREK IWANIEC Katedra Automatyzacji
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji
Bardziej szczegółowoSynteza mowy. opracowanie: mgr inż. Kuba Łopatka
Synteza mowy opracowanie: mgr inż. Kuba Łopatka Synteza mowy (ang. TTS - Text-To-Speech ) zamiana tekstu w formie pisanej na sygnał akustyczny, którego brzmienie naśladuje brzmienie ludzkiej mowy. Podstawowe
Bardziej szczegółowoPraca dyplomowa magisterska
Praca dyplomowa magisterska Implementacja algorytmów filtracji adaptacyjnej o strukturze transwersalnej na platformie CUDA Dyplomant: Jakub Kołakowski Opiekun pracy: dr inż. Michał Meller Plan prezentacji
Bardziej szczegółowoKwantowanie sygnałów analogowych na przykładzie sygnału mowy
Kwantowanie sygnałów analogowych na przykładzie sygnału mowy Treść wykładu: Sygnał mowy i jego właściwości Kwantowanie skalarne: kwantyzator równomierny, nierównomierny, adaptacyjny Zastosowanie w koderze
Bardziej szczegółowoKLASYFIKACJA ZDAŃ W SYGNALE
KLASYFIKACJA ZDAŃ W SYGNALE MOWY Z WYKORZYSTANIEM MODELU DTW Włodzimierz Kasprzak Raport IAiIS PW Nr 12-04 Warszawa, maj 2012 r. POLITECHNIKA WARSZAWSKA WYDZIAŁ ELEKTRONIKI I TECHNIK INFORMACYJNYCH INSTYTUT
Bardziej szczegółowoWstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak
Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak 1 Wprowadzenie. Zmienne losowe Podczas kursu interesować nas będzie wnioskowanie o rozpatrywanym zjawisku. Poprzez wnioskowanie rozumiemy
Bardziej szczegółowo8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)
8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT) Ćwiczenie polega na wykonaniu analizy widmowej zadanych sygnałów metodą FFT, a następnie określeniu amplitud i częstotliwości głównych składowych
Bardziej szczegółowoAlgorytmy detekcji częstotliwości podstawowej
Algorytmy detekcji częstotliwości podstawowej Plan Definicja częstotliwości podstawowej Wybór ramki sygnału do analizy Błędy oktawowe i dokładnej estymacji Metody detekcji częstotliwości podstawowej czasowe
Bardziej szczegółowoPraca dyplomowa inżynierska
WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI, INFORMATYKI I INŻYNIERII BIOMEDYCZNEJ Praca dyplomowa inżynierska Biometryczny system weryfikacji głosu w trybie ze zmiennym hasłem Text-prompted biometric voice verification
Bardziej szczegółowoSynteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan
Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan Synteza mowy System przetwarzania tekstu pisanego na mowę Text-to-Speech (TTS) TTS powinien być w stanie przeczytać
Bardziej szczegółowoAnaliza sygnału mowy sterowana danymi dla rozpoznawania komend głosowych
Analiza sygnału mowy sterowana danymi dla rozpoznawania komend głosowych Włodzimierz Kasprzak 1, Adam B. Kowalski 1 Streszczenie W artykule omówiono podstawowe etapy analizy sygnału mowy "sterowanej danymi":
Bardziej szczegółowoInteligentne metody rozpoznawania dźwięku
Politechnika Łódzka Wydział Fizyki Technicznej, Informatyki i Matematyki Stosowanej Kierunek Informatyka Praca magisterska Inteligentne metody rozpoznawania dźwięku Stanisław Kacprzak Promotor: prof. dr
Bardziej szczegółowoSYLABUS DOTYCZY CYKLU KSZTAŁCENIA Realizowany w roku akademickim 2016/2017
Załącznik nr 4 do Uchwały Senatu nr 430/01/2015 SYLABUS DOTYCZY CYKLU KSZTAŁCENIA 2015-2017 Realizowany w roku akademickim 2016/2017 1.1. PODSTAWOWE INFORMACJE O PRZEDMIOCIE/MODULE Nazwa przedmiotu/ modułu
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 7 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Bardziej szczegółowoPolitechnika Wrocławska
Politechnika Wrocławska Instytut Telekomunikacji, Teleinformatyki i Akustyki Raport Nr I28/PRE-001/07 PRACA DOKTORSKA Algorytmy kompensacji warunków transmisyjnych i cech osobniczych mówcy w systemach
Bardziej szczegółowoTechnologia dynamicznego podpisu biometrycznego
Technologia dynamicznego podpisu biometrycznego Prof. Andrzej Czyżewski, Politechnika Gdańska VI Konferencja i Narodowy Test Interoperacyjności Podpisu Elektronicznego CommonSign 2016, 26 27. X. 2016 r.
Bardziej szczegółowoElementy modelowania matematycznego
Elementy modelowania matematycznego Łańcuchy Markowa: zagadnienia graniczne. Ukryte modele Markowa. Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ KLASYFIKACJA STANÓW Stan i jest osiągalny
Bardziej szczegółowoBiometryczna Identyfikacja Tożsamości
c Adam Czajka, IAiIS PW, wersja: 6 grudnia 2015, 1/39 Adam Czajka Wykład na Wydziale Elektroniki i Technik Informacyjnych Politechniki Warszawskiej Semestr zimowy 2015/16 c Adam Czajka, IAiIS PW, wersja:
Bardziej szczegółowoZastosowanie algorytmu DTW jako narzędzia w identyfikacji mówcy
Piotr Żelasko, Agata Trawińska, Bartosz Ziółko, Marcin Czyżyk, Joanna Stanisławek, Elżbieta Ślusarz Zastosowanie algorytmu DTW jako narzędzia w identyfikacji mówcy Wstęp W badaniach fonoskopijnych dotyczących
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 3 Metody estymacji. Estymator największej wiarygodności Zad. 1 Pojawianie się spamu opisane jest zmienną losową y o rozkładzie zero-jedynkowym
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Ćwiczenia lista zadań nr 5 autorzy: A. Gonczarek, J.M. Tomczak Przykładowe problemy Klasyfikacja binarna Dla obrazu x zaproponowano dwie cechy φ(x) = (φ 1 (x) φ 2 (x)) T. Na obrazie
Bardziej szczegółowoInwersja mowy za pomocą nieliniowej transfomacji czasowej Inversion of speech by non-linear transformation of temporary
Robert Wielgat 1 *, Anita Lorenc 2 1 Państwowa Wyższa Szkoła Zawodowa w Tarnowie, Instytut Politechniczny, Zakład Elektroniki i Telekomunikacji State Higher Vocational School in Tarnow, Polytechnic Institute,
Bardziej szczegółowoModele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11
Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)
Bardziej szczegółowoEksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18
Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)
Bardziej szczegółowoBiometryczna Identyfikacja Tożsamości
Biometryczna Identyfikacja Tożsamości Wykład 9: Rozpoznawanie mówiącego Adam Czajka Wykład na Wydziale Elektroniki i Technik Informacyjnych Politechniki Warszawskiej Semestr letni 2015 c Adam Czajka, IAiIS
Bardziej szczegółowoKrzysztof Ślot Biometria Łódź, ul. Wólczańska 211/215, bud. B9 tel
Krzysztof Ślot Biometria 9-924 Łódź, ul. Wólczańska 211/215, bud. B9 tel. 42 636 65 www.eletel.p.lodz.pl, ie@p.lodz.pl Wprowadzenie Biometria Analiza rejestrowanych zachowań i cech osobniczych (np. w celu
Bardziej szczegółowoProf. Stanisław Jankowski
Prof. Stanisław Jankowski Zakład Sztucznej Inteligencji Zespół Statystycznych Systemów Uczących się p. 228 sjank@ise.pw.edu.pl Zakres badań: Sztuczne sieci neuronowe Maszyny wektorów nośnych SVM Maszyny
Bardziej szczegółowoWykład VI. Dźwięk cyfrowy. dr inż. Janusz Słupik. Gliwice, Wydział Matematyki Stosowanej Politechniki Śląskiej. c Copyright 2014 Janusz Słupik
Wykład VI Wydział Matematyki Stosowanej Politechniki Śląskiej Gliwice, 2014 c Copyright 2014 Janusz Słupik Kompresja dźwięku Kompresja dźwięku bezstratna podczas odtwarzania otrzymujemy wierne odwzorowanie
Bardziej szczegółowokomputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW
Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,
Bardziej szczegółowoĆwiczenie 11. Podstawy akwizycji i cyfrowego przetwarzania sygnałów. Program ćwiczenia:
Ćwiczenie 11 Podstawy akwizycji i cyfrowego przetwarzania sygnałów Program ćwiczenia: 1. Konfiguracja karty pomiarowej oraz obserwacja sygnału i jego widma 2. Twierdzenie o próbkowaniu obserwacja dwóch
Bardziej szczegółowoMetody analizy zapisu EEG. Piotr Walerjan
Metody analizy zapisu EEG Piotr Walerjan Metody automatyczne i semiautomatyczne w EEG automatyczna detekcja (i zliczanie) zdarzeń wykrywanie wyładowań, napadów tworzenie hipnogramów analizy widmowe, wykresy
Bardziej szczegółowoKodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11,
1 Kwantyzacja skalarna Kodowanie i kompresja Streszczenie Studia Licencjackie Wykład 11, 10.05.005 Kwantyzacja polega na reprezentowaniu dużego zbioru wartości (być może nieskończonego) za pomocą wartości
Bardziej szczegółowo58. Otwarte Seminarium z Akustyki, OSA '11, Gdańsk-Jurata, September 2011
109 ROZPOZNAWANIE MÓWCY W SYSTEMACH Z KODOWANIEM MOWY STEFAN BRACHMAŃSKI Politechnika Wrocławska, Instytut Telekomunikacji, Teleinformatyki i Akustyki Wybrzeże Wyspiańskiego 27, 50-370 Wrocław Stefan.brachmanski@pwr.wroc.pl
Bardziej szczegółowoMetodyka i system dopasowania protez słuchu w oparciu o badanie percepcji sygnału mowy w szumie
Metodyka i system dopasowania protez w oparciu o badanie percepcji sygnału mowy w szumie opracowanie dr inż. Piotr Suchomski Koncepcja metody korekcji ubytku Dopasowanie szerokiej dynamiki odbieranego
Bardziej szczegółowoTechnika audio część 2
Technika audio część 2 Wykład 12 Projektowanie cyfrowych układów elektronicznych Mgr inż. Łukasz Kirchner lukasz.kirchner@cs.put.poznan.pl http://www.cs.put.poznan.pl/lkirchner Wprowadzenie do filtracji
Bardziej szczegółowoRozpoznawanie obrazów
Rozpoznawanie obrazów Laboratorium Python Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak, S. Zaręba, M. Zięba, J. Kaczmar Cel zadania Celem zadania jest implementacja liniowego zadania
Bardziej szczegółowoSystemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład I dr inż. 2015/2016
Systemy pomiarowo-diagnostyczne Metody uczenia maszynowego wykład I dr inż. Bogumil.Konopka@pwr.edu.pl 2015/2016 1 Wykład I - plan Sprawy organizacyjne Uczenie maszynowe podstawowe pojęcia Proces modelowania
Bardziej szczegółowoW11 Kody nadmiarowe, zastosowania w transmisji danych
W11 Kody nadmiarowe, zastosowania w transmisji danych Henryk Maciejewski Jacek Jarnicki Marek Woda www.zsk.iiar.pwr.edu.pl Plan wykładu 1. Kody nadmiarowe w systemach transmisji cyfrowej 2. Typy kodów,
Bardziej szczegółowoHAŁASU Z UWZGLĘDNIENIEM ZJAWISK O CHARAKTERZE NIELINIOWYM
ZASTOSOWANIE SIECI NEURONOWYCH W SYSTEMACH AKTYWNEJ REDUKCJI HAŁASU Z UWZGLĘDNIENIEM ZJAWISK O CHARAKTERZE NIELINIOWYM WPROWADZENIE Zwalczanie hałasu przy pomocy metod aktywnych redukcji hałasu polega
Bardziej szczegółowoAdam Korzeniewski - p. 732 dr inż. Grzegorz Szwoch - p. 732 dr inż.
Adam Korzeniewski - adamkorz@sound.eti.pg.gda.pl, p. 732 dr inż. Grzegorz Szwoch - greg@sound.eti.pg.gda.pl, p. 732 dr inż. Piotr Odya - piotrod@sound.eti.pg.gda.pl, p. 730 Plan przedmiotu ZPS Cele nauczania
Bardziej szczegółowoKompresja dźwięku w standardzie MPEG-1
mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 7, strona 1. Kompresja dźwięku w standardzie MPEG-1 Ogólne założenia kompresji stratnej Zjawisko maskowania psychoakustycznego Schemat blokowy
Bardziej szczegółowoStatystyka opisowa. Wykład V. Regresja liniowa wieloraka
Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +
Bardziej szczegółowoUkłady stochastyczne
Instytut Informatyki Uniwersytetu Śląskiego 21 stycznia 2009 Definicja Definicja Proces stochastyczny to funkcja losowa, czyli funkcja matematyczna, której wartości leżą w przestrzeni zdarzeń losowych.
Bardziej szczegółowoI. Gramatyka. Poniżej prezentowana jest realizowana gramatyka:
I. Gramatyka Celem projektu było opracowanie systemu rozpoznawania mowy korzystając z HTK. Stworzona gramatyka symulowała wizytę w kinie, tym samym więc zawierała informacje na temat rodzaju biletu wraz
Bardziej szczegółowoSprawozdanie z laboratoriów HTK!
Inżynieria akustyczna - Technologia mowy 2013 Błażej Chwiećko Sprawozdanie z laboratoriów HTK! 1. Przeznaczenie tworzonego systemu! Celem było stworzenie systemu służącego do sterowania samochodem. Zaimplementowane
Bardziej szczegółowoPRACA DYPLOMOWA Inżynierska
AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA W KRAKOWIE Wydział Informatyki, Elektroniki i Telekomunikacji Katedra Elektroniki PRACA DYPLOMOWA Inżynierska Temat: Półautomatyczne rozpoznawanie mówców
Bardziej szczegółowoKARTA MODUŁU / KARTA PRZEDMIOTU
Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Cyfrowe przetwarzanie sygnałów pomiarowych_e2s
Bardziej szczegółowoWidzenie komputerowe (computer vision)
Widzenie komputerowe (computer vision) dr inż. Marcin Wilczewski 2018/2019 Organizacja zajęć Tematyka wykładu Cele Python jako narzędzie uczenia maszynowego i widzenia komputerowego. Binaryzacja i segmentacja
Bardziej szczegółowoPodstawowe modele probabilistyczne
Wrocław University of Technology Podstawowe modele probabilistyczne Maciej Zięba maciej.zieba@pwr.edu.pl Rozpoznawanie Obrazów, Lato 2018/2019 Pojęcie prawdopodobieństwa Prawdopodobieństwo reprezentuje
Bardziej szczegółowoZastosowanie automatycznego rozpoznawania mówców w kryminalistyce
III. TECHNIKA, TECHNOLOGIA I BEZPIECZEŃSTWO INFORMATYCZNE 133 Waldemar Maciejko Zastosowanie automatycznego rozpoznawania mówców w kryminalistyce Wprowadzenie Rozpoznawanie przez człowieka znanych mu osób
Bardziej szczegółowoCYFROWE PRZETWARZANIE SYGNAŁÓW
POLITECHNIKA RZESZOWSKA im. I. Łukasiewicza WYDZIAŁ ELEKTROTECHNIKI I INFORMATYKI Katedra Metrologii i Systemów Diagnostycznych CYFROWE PRZETWARZANIE SYGNAŁÓW Analiza korelacyjna sygnałów dr hab. inż.
Bardziej szczegółowoEwaluacja mowy syntetycznej za pomocą systemu rozpoznawania mowy
za pomocą systemu rozpoznawania mowy Jolanta Bachan Tomasz Kuczmarski Piotr Francuzik Rozpoznawanie mowy i mówców 17-18 września 2012 Poznań Cel Eksperymentalna ocena mowy syntetycznej za pomocą systemu
Bardziej szczegółowoADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM. Ćwiczenie 4. Wybrane telekomunikacyjne zastosowania algorytmów adaptacyjnych
ADAPTACYJNE PRZETWARZANIE SYGNAŁÓW LABORATORIUM Ćwiczenie 4 Wybrane telekomunikacyjne zastosowania algorytmów adaptacyjnych 1. CEL ĆWICZENIA Celem niniejszego ćwiczenia jest zapoznanie studentów z dwoma
Bardziej szczegółowoĆwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy
Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy Grupa: wtorek 18:3 Tomasz Niedziela I. CZĘŚĆ ĆWICZENIA 1. Cel i przebieg ćwiczenia. Celem ćwiczenia
Bardziej szczegółowoBIOMETRIA WYKŁAD 6 CECHY BIOMETRYCZNE: GŁOS
BIOMETRIA WYKŁAD 6 CECHY BIOMETRYCZNE: GŁOS Wykorzystanie mowy w technologii Automatyczne rozpoznawanie mowy Synteza mowy Rozpoznawania mówcy Rozpoznawanie emocji Generowanie emocji Synteza z ruchem ust
Bardziej szczegółowoWYKŁAD 4. Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie. autor: Maciej Zięba. Politechnika Wrocławska
Wrocław University of Technology WYKŁAD 4 Podejmowanie decyzji dla modeli probabilistycznych Modelowanie Gaussowskie autor: Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification):
Bardziej szczegółowoTwierdzenie o splocie
Twierdzenie o splocie g(t) = (s h) (t) G(f ) = S(f ) H(f ) (1) To twierdzenie działa też w drugą stronę: G(f ) = (S H) (f ) g(t) = s(t) h(t) (2) Zastosowania: zamiana splotu na mnożenie daje wgląd w okienkowanie
Bardziej szczegółowoProgramowanie dynamiczne i algorytmy zachłanne
Programowanie dynamiczne i algorytmy zachłanne Tomasz Głowacki tglowacki@cs.put.poznan.pl Zajęcia finansowane z projektu "Rozwój i doskonalenie kształcenia na Politechnice Poznańskiej w zakresie technologii
Bardziej szczegółowoAudiowizualne rozpoznawanie mowy. Autor: Piotr Bratoszewski
Audiowizualne rozpoznawanie mowy Autor: Piotr Bratoszewski Wprowadzenie Największym obecnie wyzwaniem w systemach automatycznego rozpoznawania mowy jest stworzenie rozwiązania pozwalającego na skuteczne
Bardziej szczegółowoALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Bardziej szczegółowoSPOTKANIE 11: Reinforcement learning
Wrocław University of Technology SPOTKANIE 11: Reinforcement learning Adam Gonczarek Studenckie Koło Naukowe Estymator adam.gonczarek@pwr.edu.pl 19.01.2016 Uczenie z nadzorem (ang. supervised learning)
Bardziej szczegółowoGenerowanie liczb o zadanym rozkładzie. ln(1 F (y) λ
Wprowadzenie Generowanie liczb o zadanym rozkładzie Generowanie liczb o zadanym rozkładzie wejście X U(0, 1) wyjście Y z zadanego rozkładu F (y) = 1 e λy y = ln(1 F (y) λ = ln(1 0,1563 0, 5 0,34 Wprowadzenie
Bardziej szczegółowoMetody systemowe i decyzyjne w informatyce
Metody systemowe i decyzyjne w informatyce Ćwiczenia lista zadań nr 2 autorzy: A. Gonczarek, J.M. Tomczak Metody estymacji Zad. 1 Pojawianie się spamu opisane jest zmienną losową x o rozkładzie dwupunktowym
Bardziej szczegółowoP R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H
W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania
Bardziej szczegółowoWYKŁAD 3. Klasyfikacja: modele probabilistyczne
Wrocław University of Technology WYKŁAD 3 Klasyfikacja: modele probabilistyczne Maciej Zięba Politechnika Wrocławska Klasyfikacja Klasyfikacja (ang. Classification): Dysponujemy obserwacjami z etykietami
Bardziej szczegółowoAutomatyczna klasyfikacja instrumentów szarpanych w multimedialnych bazach danych
XII Konferencja PLOUG Zakopane Październik 006 Automatyczna klasyfikacja instrumentów szarpanych w multimedialnych bazach danych Krzysztof Tyburek, Waldemar Cudny Uniwersytet Kazimierza Wielkiego, Instytut
Bardziej szczegółowoBADANIA MOŻLIWOŚCI ROZPOZNAWANIA MOWY W AUTONOMICZNYCH SYSTEMACH STEROWANIA
POZNAN UNIVE RSITY OF TE CHNOLOGY ACADE MIC JOURNALS No 88 Electrical Engineering 2016 Artur ŚLIWIŃSKI* Krzysztof TOMCZEWSKI* BADANIA MOŻLIWOŚCI ROZPOZNAWANIA MOWY W AUTONOMICZNYCH SYSTEMACH STEROWANIA
Bardziej szczegółowo