Magisterska praca dyplomowa

Wielkość: px
Rozpocząć pokaz od strony:

Download "Magisterska praca dyplomowa"

Transkrypt

1 AKADEMIA GÓRNICZO-HUTNICZA im. Stanisława Staszica w Krakowie WYDZIAŁ INŻYNIERII MECHANICZNEJ I ROBOTYKI Magisterska praca dyplomowa Wit Zieliński Imię i nazwisko Inżynieria akustyczna Kierunek studiów Analiza wpływu zakłóceń sygnału na jakość rozpoznawania mowy polskiej w systemie Kaldi Temat pracy dyplomowej dr inż. Jakub Gałka Promotor pracy.. Ocena, data, podpis Promotora Kraków, rok 2014/2015

2 Kraków,.. Imię i nazwisko: Wit Zieliński Nr albumu: Kierunek studiów: Inżynieria akustyczna Specjalność: Inżynieria dźwięku w mediach i kulturze OŚWIADCZENIE Świadomy odpowiedzialności karnej za poświadczanie nieprawdy oświadczam, że niniejszą magisterską pracę dyplomową wykonałem osobiście i samodzielnie oraz nie korzystałem ze źródeł innych niż wymienione w pracy. Jednocześnie oświadczam, że dokumentacja pracy nie narusza praw autorskich w rozumieniu ustawy z dnia 4 lutego 1994 roku o prawie autorskim i prawach pokrewnych (Dz. U. z 2006 r. Nr 90 poz. 631 z późniejszymi zmianami) oraz dóbr osobistych chronionych prawem cywilnym. Nie zawiera ona również danych i informacji, które uzyskałem w sposób niedozwolony. Wersja dokumentacji dołączona przeze mnie na nośniku elektronicznym jest w pełni zgodna z wydrukiem przedstawionym do recenzji. Zaświadczam także, że niniejsza magisterska praca dyplomowa nie była wcześniej podstawą żadnej innej urzędowej procedury związanej z nadawaniem dyplomów wyższej uczelni lub tytułów zawodowych... podpis dyplomanta 2

3 Kraków,.. Imię i nazwisko: Wit Zieliński Adres korespondencyjny: ziewit@gmail.com Temat magisterskiej pracy dyplomowej: Analiza wpływu zakłóceń sygnału na jakość rozpoznawania mowy polskiej w systemie Kaldi Rok ukończenia: 2015 Nr albumu: Kierunek studiów: Inżynieria akustyczna Profil dyplomowania: Inżynieria dźwięku w mediach i kulturze OŚWIADCZENIE Niniejszym oświadczam, że zachowując moje prawa autorskie, udzielam Akademii Górniczo-Hutniczej im. S. Staszica w Krakowie nieograniczonej w czasie nieodpłatnej licencji niewyłącznej do korzystania z przedstawionej dokumentacji magisterskiej pracy dyplomowej, w zakresie publicznego udostępniania i rozpowszechniania w wersji drukowanej i elektronicznej 1. Kraków,..... data podpis dyplomanta 1 Na podstawie Ustawy z dnia 27 lipca 2005 r. Prawo o szkolnictwie wyższym (Dz.U nr 164 poz. 1365) Art oraz Ustawy z dnia 4 lutego 1994 r. o prawie autorskim i prawach pokrewnych (Dz.U. z 2000 r. Nr 80, poz. 904, z późn. zm.) Art. 15a. "Uczelni w rozumieniu przepisów o szkolnictwie wyższym przysługuje pierwszeństwo w opublikowaniu pracy dyplomowej studenta. Jeżeli uczelnia nie opublikowała pracy dyplomowej w ciągu 6 miesięcy od jej obrony, student, który ją przygotował, może ją opublikować, chyba że praca dyplomowa jest częścią utworu zbiorowego." 3

4 Kraków, dnia AKADEMIA GÓRNICZO-HUTNICZA WYDZIAŁ INŻYNIERII MECHANICZNEJ I ROBOTYKI TEMATYKA PRACY I PRAKTYKI DYPLOMOWEJ dla studenta II roku studiów stacjonarnych Wit Zieliński imię i nazwisko studenta TEMAT MAGISTERSKIEJ PRACY DYPLOMOWEJ: Analiza wpływu zakłóceń sygnału na jakość rozpoznawania mowy polskiej w systemie Kaldi Promotor pracy: dr inż. Jakub Gałka Recenzent pracy: prof. dr hab. inż. Piotr Kleczkowski Podpis dziekana: Miejsce praktyki dyplomowej: Katedra Elektroniki, Wydział IEiT, AGH Laboratorium Technologii Mowy (bud. C2/420) PLAN PRACY I PRAKTYKI DYPLOMOWEJ: 1. Omówienie tematu pracy i sposobu realizacji z promotorem. 2. Zebranie i opracowanie literatury dotyczącej tematu pracy. 3. Praktyka dyplomowa: a.) przygotowanie odpowiednich danych treningowych i scenariusza testowego, b.) przygotowanie i klasyfikacja zakłócanych sygnałów testowych, c.) implementacja i trening systemu ASR, d.) właściwe testy działania zbudowanego systemu. 4. Zebranie i opracowanie wyników badań. 5. Analiza wyników badań, ich omówienie i zatwierdzenie przez promotora. 6. Opracowanie redakcyjne. Kraków,..... data podpis dyplomanta TERMIN ODDANIA DO DZIEKANATU: 20 r. podpis promotora 4

5 Akademia Górniczo-Hutnicza im. Stanisława Staszica Kraków,... Wydział Inżynierii Mechanicznej i Robotyki Kierunek: Inżynieria akustyczna Specjalność: Inżynieria dźwięku w mediach i kulturze Wit Zieliński Magisterska praca dyplomowa Analiza wpływu zakłóceń sygnału na jakość rozpoznawania mowy polskiej w systemie Kaldi Opiekun: dr inż. Jakub Gałka STRESZCZENIE Niniejsza praca magisterska przedstawia w pełni udokumentowany sposób testowania wpływu zakłóceń sygnałów akustycznych na jakość rozpoznawania mowy polskiej w systemie Kaldi. Osiągnięto to przede wszystkim dzięki początkowej analizie struktury współczesnych systemów automatycznego rozpoznawania mowy oraz rodzajów rzeczywistych zakłóceń akustycznych. Następnie skutecznie uruchomiono własny system automatycznego rozpoznawania mowy w środowisku Kaldi i wytrenowano go polskojęzycznym korpusem mowy. Kolejno utworzono zestawy danych testowych oraz uruchomiono zaprojektowane procedury testowe. Ostatecznie porównano i zinterpretowano otrzymane wyniki. 5

6 AGH University of Science and Technology Kraków,... Faculty of Mechanical Engineering and Robotics Field of Study: Acoustical Engineering Specialisations: Sound Engineering in Media and Culture Wit Zieliński Master Diploma Thesis Analysis of signal degradation effects in Polish speech recognition using Kaldi toolkit Supervisor: dr inż. Jakub Gałka SUMMARY This master diploma thesis shows fully executed method of testing signal degradation effects in Polish speech recognition using Kaldi toolkit. To achieve this, the structure of modern automatic speech recognition systems has been analyzed. Furthermore, many different kinds of real-life signal degradation effects have been researched. Afterwards, own automatic speech recognition system has been set up in Kaldi environment and trained with the usage of Polish-language corpus. Consecutively, test data sets have been created and previously planned testing procedures were launched. Finally the test results have been compared and interpreted. 6

7 Spis treści Wstęp Automatyczne rozpoznawanie mowy Sygnał mowy System automatycznego rozpoznawania mowy Ekstrakcja cech Rozpoznanie Ewaluacja Kaldi Opis i ogólna charakterystyka Struktura WFST Mowa polska Zakłócenia sygnałów akustycznych Zakłócenie sygnału i jego miara Rodzaje zakłóceń sygnału mowy Przygotowanie do testów w systemie Kaldi Środowisko pracy Dane sprzętowe stanowiska badawczego Konfiguracja systemu operacyjnego Instalacja systemu Kaldi Testy poprawnej implementacji systemu Kaldi Wybór korpusu mowy polskiej Scenariusz testowy Podział korpusu na zestaw treningowy i testowy

8 Założenia testowe Dane testowe, trening i testy właściwe Zakłócone zestawy sygnałów testowych Przygotowanie zakłóceń akustycznych Tworzenie zakłóceń edycyjnych Trening i testy systemu Zestawienie wyników i ich interpretacja Referencyjny zestaw testowy Zakłócenia stacjonarne Zakłócenia niestacjonarne Zakłócenia impulsowe Zakłócenia edycyjne Zakończenie Bibliografia Opis załącznika

9 Wstęp Tematyka niniejszej pracy magisterskiej dotyczy dziedziny technologii mowy, która okazała się dla mnie jednym z najbardziej interesujących zagadnień podczas studiów na kierunku Inżynieria Akustyczna. Jej głównym celem było sprawdzenie, w jaki sposób profesjonalny system automatycznego rozpoznawania mowy reaguje na różnego rodzaju zakłócenia przetwarzanych sygnałów. Moim zdaniem, wiedza tego rodzaju pozwala określić rzeczywistą skuteczność danego systemu. Mogłaby też w przyszłości pomóc przy tworzeniu systemów bardziej odpornych na zakłócone sygnały mowy, zwiększając tym samym ich użyteczność w życiu codziennym. Cały projekt zrealizowałem z użyciem danych w języku polskim, wykorzystując nowoczesny zestaw narzędzi, jakim z pewnością jest system Kaldi. Dzięki temu miałem pewność, że moje podejście będzie innowacyjne na dwóch płaszczyznach starałem się przedstawić omawiany problem z punktu widzenia akustyka, jednocześnie przyjmując założenia, dzięki którym praca może znaleźć zastosowanie w polskim środowisku akademickim. Realizując kolejne etapy projektu, uczyłem się od podstaw zasad działania współczesnych systemów automatycznego rozpoznawania mowy, zapoznałem się z problematyką zakłóceń sygnałów akustycznych oraz w dużej mierze poprawiłem swoje umiejętności programistyczne. Pisząc, postanowiłem nie pomijać trywialnych nawet kroków przeprowadzanych działań. Każde zagadnienie starałem się omawiać sukcesywnie, tak aby w każdym momencie czytania dokumentu był on zrozumiały także dla tych osób, które nie posiadają dogłębnej wiedzy w poruszanych dziedzinach. W części teoretycznej, na którą składają się dwa pierwsze rozdziały, zdecydowałem się przybliżyć pojęcie szczególnego rodzaju sygnału akustycznego, jakim jest sygnał mowy oraz omówić popularne sposoby jego interpretacji. W następnej kolejności przeanalizowałem schemat działania współczesnych systemów automatycznego rozpoznawania mowy, w szczególności skupiając się na środowisku Kaldi, które wybrałem na potrzeby realizacji tej pracy naukowej. Krótki rozdział o języku polskim rzuca obraz na usytuowanie mojego języka ojczystego, względem światowego rozwoju technologii mowy. Niezwykle istotnym pojęciem okazało się też samo zakłócenie sygnału, które spróbowałem zdefiniować i samodzielnie sklasyfikować. 9

10 Część praktyczna wymagała ode mnie dużego nakładu pracy jeśli chodzi o odpowiednie przygotowanie stanowiska badawczego. Musiałem zapoznać się z systemem operacyjnym rodziny Linux oraz jego wieloma funkcjonalnościami. Sam proces instalacji środowiska Kaldi oraz uruchomienie pierwszych działających systemów, okazały się bardzo ambitnym wyzwaniem. Samodzielnie przygotowałem scenariusz testowy, wedle którego stworzyłem i wytrenowałem system automatycznego rozpoznawania mowy. Opracowałem też własne metody aplikacji zakłóceń w sygnałach testowych. Ostatecznie przeprowadziłem wyczerpujące testy wpływu zakłóceń sygnałów na jakość rozpoznawania mowy polskiej w środowisku Kaldi, wraz z analizą porównawczą i interpretacją rezultatów pracy. 10

11 1. Automatyczne rozpoznawanie mowy Aby rzetelnie zrealizować temat niniejszej pracy magisterskiej, rozważania postanowiono rozpocząć od wprowadzenia w rozległą dziedzinę technologii mowy, jaką stanowi automatyczne rozpoznawanie mowy. Jeśli nie sprecyzowano inaczej, wszystkie zamieszczone wykresy są autorstwa dyplomanta (zrealizowane za pomocą oprogramowania Matlab). W tym obszernym rozdziale, korzystano z wiedzy własnej oraz kilku źródeł wymienionych w bibliografii [1, 10, 12] Sygnał mowy Terminem sygnału mowy, określa się sygnał akustyczny, który jest emitowany przez człowieka (lub syntezator mowy), w celu przekazania informacji. Zarejestrowany za pomocą mikrofonu (ew. analogicznie wygenerowany), może zostać poddany technicznej analizie. Modelem matematycznym tego rodzaju sygnałów, jest jednoargumentowa funkcja s(t), zmieniająca swe wartości w czasie. Najczęściej jednak, sygnały mowy przetwarza się w domenie cyfrowej. Poprawną definicją jest wtedy funkcja s(nδt), gdzie wartości sygnału pobierane są co pewien stały okres czasu (Δt) i są numerowane zmienną n. Następnie po procesie kwantyzacji (czyli zaokrągleniu wartości próbek do ograniczonego i ściśle określonego zbioru wartości), otrzymuje się sygnał cyfrowy [12]. Należy wyróżnić tutaj dwa główne czynniki, odpowiadające za charakter odwzorowanego sygnału. Są one zależne od rodzaju stosowanego kodowania (np. PCM - ang. Pulse Code Modulation) i ewentualnej kompresji. Oba mają niezwykle istotny wpływ na interpretację zarejestrowanej mowy: częstotliwość próbkowania ilość próbek pobranych z sygnału analogowego w czasie 1 sekundy. Najczęściej występujące to: 44,1 khz (standard CD-Audio), 11,025 khz (co czwarta próbka ze standardu CD-Audio), 8kHz lub 16 khz (stosowane w telekomunikacji), 11

12 gęstość kwantyzacji (ang. bit depth) ilość bitów w słowie binarnym, określająca wartość pojedynczej próbki sygnału. Przykłady: 32 bit (profesjonalne karty dźwiękowe), 24 bit (DVD-Audio, Blu-ray), 16 bit (CD-Audio), 8 bit (telekomunikacja). Te dwa parametry, razem ze starannością nagrania (rodzaj mikrofonu, poprawna wymowa lektora) i ewentualnymi zakłóceniami (jak np. szum, rozmowa osób trzecich w tle, trzaski etc.), stanowią o jakości sygnału mowy. Istotnym faktem jest też ilość kanałów, na jakich zarejestrowano dane próbki. System monofoniczny, wykorzystywany jest równie często co stereo (kanały lewy i prawy, których zawartość widmowa może się zdecydowanie różnić). Rys Przykładowy wykres sygnału mowy w dziedzinie czasu nagrane słowo: Andrzej, głos żeński, 16kHz, PCM, mono Postrzegając sygnał mowy obiektowo, można w następujący sposób określić jego hierarchiczną strukturę [12]: a) mowa kompletny, przetwarzany w danej sytuacji sygnał, b) wypowiedź rozróżnialna blokowo część mowy (np. jeden czytany akapit), c) zdanie część wypowiedzi, mająca semantyczny początek i koniec, d) słowo elementarna część mowy posiadająca znaczenie, 12

13 e) sylaba część składowa słowa, umożliwiająca płynną artykulację i ściśle związana z budową aparatu głosowego człowieka, f) fonem najmniejsza rozróżnialna cząstka mowy (alternatywnie nazywana głoską, która jest realizacją fonemu w konkretnej wypowiedzi), g) ramka część głoski poddawana analizie, której długość jest stała i najczęściej wynosi około ms. Proces fizycznego podziału mowy zgodnie z powyższym kryterium, nazywa się segmentacją. W przypadku dalszej analizy posegmentowanych w ten sposób sygnałów, przeprowadza się ich parametryzację, czyli matematyczny opis za pomocą reprezentatywnych ciągów liczb, co dokładniej opisano w kolejnym podrozdziale. Analiza sygnałów mowy opiera się w głównej mierze na filtracji i interpretacji częstotliwościowej. Istnieje kilka sposobów badania sygnału mowy w tej dziedzinie, począwszy od dyskretnej transformacji Fouriera, obliczanej najczęściej przy pomocy szybkich algorytmów FFT (ang. Fast Fourier Transform). Rys Przykładowy wykres sygnału mowy w dziedzinie częstotliwości nagrane słowo: Andrzej, głos żeński, 16kHz, PCM, mono Sygnał mowy jest jednak bardzo dynamicznym i intensywnie zmiennym w czasie sygnałem. W każdym momencie jego trwania, widmo częstotliwościowe może zawierać 13

14 skrajnie różne składowe harmoniczne. Dlatego w przetwarzaniu mowy, popularnym sposobem obrazowania sygnałów jest spektrogram, czyli wykres widma amplitudowego sygnału dla każdej chwili czasu, dla której sygnał jest określony. Rys Przykładowy spektrogram w dziedzinie częstotliwości nagrane słowo: "Andrzej", głos żeński, 16kHz, PCM, mono Na rys można zaobserwować wyraźne, intensywnie czerwone obszary, reprezentujące najbardziej znaczące fragmenty sygnału. Są to tak zwane formanty, czyli wąskie pasma częstotliwości uwypuklone w barwie danego dźwięku, występujące w szczególności w sygnałach mowy. Ich obecność jest ściśle związana z rodzajem fonemu jaki reprezentują, a ich wyszukanie jest podstawowym zadaniem ekstrakcji cech mowy. Dlatego, aby zwrócić szczególną uwagę na pojawiające się w sygnale formanty, można posłużyć się melową skalą częstotliwości. Skala melowa, to skala wysokości dźwięku mierzona metodą akustyki psychologicznej. Określa ona subiektywny odbiór poziomu dźwięku przez ludzkie ucho, względem obiektywnej skali mierzenia wysokości dźwięku w hercach. Zależność tą wyraża prosty wzór: m = 1127 ln (1 + f 700 ) (1.1) 14

15 gdzie: m wysokość dźwięku w skali melowej [Mel], f wysokość dźwięku w skali hercowej [Hz]. Rys Przykładowy spektrogram w skali melowej nagrane słowo: Andrzej, głos żeński, 16kHz, PCM, mono Na zakończenie rozdziału o technicznych aspektach sygnału mowy, postanowiono opisać powód, dla którego w przetwarzaniu sygnałów mowy można przyjąć niższą częstotliwość próbkowania, niż np. w przypadku sygnałów muzycznych. Wynika to z własności mowy, jaką jest jej wyśrodkowane umiejscowienie w paśmie słyszalności człowieka. Jest to kwestią przyjętych założeń, ale przykładowo, częstotliwości powyżej 8kHz nie przenoszą niezbędnych do właściwego zrozumienia mowy informacji. Zgodnie z twierdzeniem Kotielnikowa-Shannona (maksymalna częstotliwość występująca w sygnale nie powinna być większa niż połowa wartości częstotliwości próbkowania), można przyjąć 8kHz za częstotliwość Nyquista i próbkować dany sygnał mowy z częstotliwością 16kHz, bez obawy przed utratą niezbędnych danych. 15

16 Sytuacja wygląda podobnie w przypadku ustalania gęstości kwantyzacji. Mniejszy zakres dynamiki, niż np. w sygnale muzycznym, pozwala na zapisanie próbek sygnałów mowy z użyciem mniejszej ilości bitów. Rys Poglądowy, schematyczny wykres oparty na krzywych izofonicznych Fletchera i Munsona (krzywych jednakowej głośności) z przykładowym umiejscowieniem sygnału mowy w paśmie słyszalności człowieka (około Hz), uwzględniając poziomy głośności sygnału (źródło: prezentacja studencka w ramach projektu As Kompetencji, System automatycznego rozpoznawania mowy Od początku rozwoju technologii mowy w domenie cyfrowej, tworzone są programistyczne zestawy narzędzi (ang. toolkit) do samodzielnego budowania systemów ASR (ang. Automatic Speech Recognition). Oprogramowanie tego rodzaju potrafi przeanalizować i zinterpretować dany sygnał mowy, a następnie zareagować zgodnie z jego treścią np. wypisać zarejestrowane zdanie na ekranie komputera. Skuteczność takiego systemu zależy w ogromnej mierze od treningu, czyli procesu uczenia programu, w jaki sposób ma rozpoznawać przyjmowane później sygnały mowy. Na jakość treningu, bezpośrednio przekładają się jakość i przede wszystkim ilość danych treningowych. 16

17 Systemy ASR mogą działać w czasie rzeczywistym (rejestrując i od razu przetwarzając mowę zastosowania komercyjne) lub z użyciem przygotowanych wcześniej sygnałów testowych (głównie zastosowania badawcze). Można też dokonać ich podstawowego podziału na: IWRS (ang. Isolated Word Recognition System) systemy rozpoznawania słów izolowanych z ograniczonym słownikiem, LVCSRS (ang. Large Vocabulary Continuous Speech Recognition System) systemy rozpoznawania mowy ciągłej i swobodnej z dużym słownikiem [4]. Jednak w większości przypadków, każdy system ASR budowany jest w oparciu o podobny schemat, który postanowiono przytoczyć. Pierwszym zadaniem systemu ASR jest wydobycie z sygnału istotnych informacji o treściach, które są przekazywane za jego pomocą (segmentacja i parametryzacja). Drugim etapem jest sprawdzenie znaczenia tych treści, na podstawie przygotowanych wcześniej zasobów (modeli mowy, wiedzy o języku) i wybór najbardziej prawdopodobnego rezultatu. Rys Uogólniony schemat podstawowego systemu automatycznego rozpoznawania mowy [12] 17

18 Ekstrakcja cech Ekstrakcja cech, to pozyskanie z przetwarzanego sygnału informacji jednoznacznie świadczących o jego zawartości [12]. Niektóre systemy ASR są też wyposażone w przetwarzanie wstępne (ang. preprocessing), które ma dany sygnał przygotować do tego procesu. Może ono polegać na ocenie jakości danego sygnału mowy, a także jego odszumieniu. Na potrzeby kolejnych etapów przetwarzania, mogą się też pojawić algorytmy preemfazy (filtracja dolnozaporowa z jednoczesnym zwiększeniem udziału składowych dużych częstotliwości) i normalizacji amplitudy. Natomiast pierwszym formalnym etapem pozyskiwania danych z sygnału mowy, jest segmentacja, dzieląca poddawany analizie sygnał na mniejsze fragmenty, które to następnie mają zostać przetworzone. Wyróżnia się dwa podstawowe rodzaje segmentacji: ramkowanie segmentacja ze stałym czasem (w systemach ASR często przyjmuje wartości ze wspomnianego już przedziału ms), której największą zaletą jest duża szybkość działania i uniwersalność, segmentacja na fragmenty reprezentatywne polega na podziale sygnału na konkretne, unikatowe jednostki (np. fonemy, sylaby, słowa itp.), co jest bardzo wygodne do dalszej analizy, ale niestety czasochłonne i w zastosowaniach komercyjnych nieopłacalne. Segmentacja może być przeprowadzona przy użyciu odpowiednich algorytmów, lub ręcznie (dokładniejszy, ale niezwykle czasochłonny proces). Posegmentowana mowa podlega matematycznemu opisowi. Parametryzacja mowy, to reprezentacja jej widma w sposób, który skutecznie informuje o istotnych treściach w niej zawartych. Do najczęściej spotykanych metod parametryzacji zaliczamy: MFCC (ang. Mel-Frequency Cepstral Coefficients) polega na obliczeniu cepstralnych, melowych współczynników częstotliwościowych [10], PLP (ang. Perceptual Linear Predictive) stosuje percepcyjną predykcję liniową [12], 18

19 BNF (ang. Bottle-Neck Features) wykorzystywana w nowoczesnych, dużych systemach LVCSR, na etapie głębokiego uczenia maszynowego z użyciem warstw sieci neuronowych [4] Rozpoznanie Faktyczne rozpoznanie mowy odbywa się w oparciu o porównanie sparametryzowanego sygnału, z wyuczonymi wcześniej wzorcami. Innymi słowy, opisaną w sposób matematyczny mowę należy sklasyfikować i zdekodować, przyrównując otrzymane wyniki do dostępnych zasobów językowych i fizycznych. Oprócz tego, że dopasowany do wzorca sygnał mowy musi mieć podobny spektrogram, powinien też mieć rzeczywisty sens jako fonem, słowo, zdanie etc. Do treningu systemu ASR niezbędny jest korpus mowy, czyli duży i kompletny zbiór danych językowych. Najczęściej występuje on w formie plików audio zawierających sygnały mowy, wraz z plikami tekstowymi (ich transkrypcją tekstową). Korpus powinien dotyczyć zakresu wypowiedzi, które później mogą być przetwarzane przez system. Do elementów umożliwiających poprawną klasyfikację w systemach ASR, możemy zaliczyć między innymi [12]: modele akustyczne formuły matematyczne, przypisujące sygnały dźwiękowe o określonych cechach głoskom (ew. sylabom, wyrazom itd.), korzystając z informacji uzyskanych w procesie parametryzacji. Dopasowują ona zestawy parametrów, odpowiadające przetwarzanej aktualnie mowie, do wyuczonych wzorców i na tej podstawie rozpoznają dany fragment mowy. Najpopularniejsze sposoby tworzenia i późniejszej pracy modelu akustycznego działają w oparciu o między innymi: HMM (ang. Hidden Markov Models) niejawne modele Markowa, algorytm Viterbiego, SVM (ang. Support Vector Machine), maszynę wektorów nośnych, DBN (ang. Dynamic Bayes Networks), dynamiczne sieci Bayesa, ANN (ang. Artificial Neural Networks), sztuczne sieci neuronowe, 19

20 WFST (ang. Weighted Finite-State Transducers), ważone automaty stanów skończonych [7], modele językowe w odróżnieniu od akustycznych, nie mają ścisłego związku z parametryzacją. Opierają się na statystykach językowych, gramatyce i semantyce danego języka. Najczęściej buduje się je w oparciu o n-gramy (czyli bazujące na statystykach modele matematyczne, służące do przewidywania kolejnych elementów w sekwencjach, np. w zdaniach), słowniki zbiory słów z danego korpusu i ich zawartości w postaci fonemów (w zapisie fonetycznym, warunkującym właściwą wymowę), rzadziej: modele semantyczne sprawdzające sens większych fragmentów mowy, w odniesieniu do danej dziedziny, której dotyczy wypowiedź (najczęściej pełnią funkcję korekcyjną) tworzy się je np. za pomocą słowosieci i z reguły występują w systemach LVCRS. Podstawowym prawem klasyfikacji jest reguła Bayesa, będąca popularnym sposobem wiązania ze sobą modeli mowy [12]. Określa ona prawdopodobieństwo wystąpienia danego słowa s, pod warunkiem wystąpienia ściśle określonego dźwięku d: P(s d) = P(d s) P(s) P(d) (1.2) gdzie: P(s d) prawdopodobieństwo wystąpienia słowa s, pod warunkiem obecności dźwięku d, P(d s) prawdopodobieństwo, że określony dźwięk reprezentuje dane słowo (pochodzące z modelu akustycznego), P(s) statystyczna popularność słowa (pochodzi z modelu języka), P(d) prawdopodobieństwo wystąpienia dźwięku d w sygnale mowy (cele normalizacyjne). 20

21 Bardzo ciężko jednoznacznie opisać algorytmy i metody zastosowane przy modelowaniu mowy. Używane techniki często się mieszają i występują w swoich silnie zmodyfikowanych wersjach Ewaluacja Istotnym krokiem przy pracy z systemem ASR, jest sprawdzenie skuteczności jego działania. System, po przetworzeniu danego sygnału, najczęściej informuje użytkownika o szczegółach dotyczących rozpoznania. Do często wykorzystywanych parametrów jakościowych zalicza się: PER (ang. Phone Error Rate) ilość błędnie rozpoznanych fonemów, WER (ang. Word Error Rate) ilość błędnie rozpoznanych słów, SER (ang. Sentence Error Rate) ilość błędnie rozpoznanych zdań, RTF (ang. Real-Time Factor) szybkość działania systemu, mierzona w kontekście dokładności dekodowania, CM (ang. Confidence Measure) pomiar wiarygodności decyzji podejmowanych przez system w całym procesie rozpoznawania. Parametry ewaluacyjne należy uzyskiwać przy użyciu stałego zestawu danych testowych, niezależnych od korpusu treningowego. Na podstawie ich sumarycznej oceny, można określić niezawodność i solidność systemu ASR (ang. robustness) [10] Kaldi Kaldi to nazwa jednego z najbardziej nowoczesnych i profesjonalnych środowisk do pracy z maszynowym przetwarzaniem mowy [11]. Jest to narzędzie przygotowane na potrzeby badawcze, przez zespół intensywnie zajmujący się poprawą skuteczności działania uniwersalnego systemu rozpoznawania mowy. Początek prac nad systemem podjęli w 2009 roku pracownicy Uniwersytetu Johna Hopkinsa (Baltimore, USA). Projekt kontynuowano podczas warsztatów naukowych na Uniwersytecie Technologicznym w Brnie i jego pierwsza oficjalna wersja została udostępniona jeszcze w roku 2010 [5, 6]. Wykorzystywany aktualnie przez wiele zespołów badawczych na 21

22 całym świecie, system Kaldi stał się narzędziem wybranym do realizacji niniejszej pracy magisterskiej Opis i ogólna charakterystyka Idea systemu Kaldi jest podobna do powszechnie stosowanego w środowisku akademickim HTK (ang. Hidden Markov Model Toolkit). Twórcom chodziło o stworzenie rozbudowanego, wygodnego w użyciu narzędzia do tworzenia i testowania systemów ASR. Poniżej wyszczególniono istotne, innowacyjne cechy projektu Kaldi względem systemów konkurencyjnych [5, 6]: napisany w całości w języku C++, w przejrzysty i intuicyjny sposób, co pozwala na samodzielne modyfikacje kodu źródłowego, oparty na licencji Apache 2.0, co daje praktycznie nieograniczone możliwości w zastosowaniach komercyjnych, realizujący procesy treningu i dekodowania w oparciu o WFST, co znacząco zmniejsza rozmiary systemu, przyspiesza jego działanie i często poprawia skuteczność rozpoznania, zawierający praktyczne przykłady budowania systemów automatycznego rozpoznawania mowy z użyciem popularnych korpusów Struktura Schemat działania tego rozbudowanego systemu, jest doskonale obrazowany poprzez wykaz zależności pomiędzy jego poszczególnymi komponentami. Poniższy rys pokazuje uproszczoną, hierarchiczną strukturę środowiska Kaldi. Kod źródłowy systemu opiera się na zewnętrznych bibliotekach obliczeniowych, a wszystkie jego funkcje, sterowane są za pomocą języków skryptowych. 22

23 Rys Schemat zależności między poszczególnymi komponentami systemu Kaldi [2] Bibliotekę C++ systemu Kaldi, można podzielić na dwie osobne części, z których jedna korzysta z algebraicznych bibliotek obliczeniowych, podczas gdy druga działa dzięki bibliotece realizującej modele FST (ang. Finite-State Transducers). Ich spoiwem jest moduł DECODABLE, przekazujący informacje do działającego w oparciu o FST dekodera. Rys obrazuje też następującą cechę: każdy moduł w pewien sposób korzysta z modułu który jest wizualnie umiejscowiony nad nim (np. FEAT, czyli ekstrakcja cech, korzysta z obliczeń wektorowych, możliwych dzięki komponentowi MATRIX). Opis bibliotek wykorzystywanych przez system: BLAS (ang. Basic Linear Algebra Subroutines) wprowadza struktury wektorowe oraz macierzowe, wraz z możliwością przeprowadzania na nich operacji matematycznych, LAPACK (ang. Linear Algebra PACKage) umożliwia przeprowadzanie zaawansowanych obliczeń z użyciem równań liniowych, 23

24 OpenFST dostarcza narzędzia do tworzenia, łączenia, optymalizacji oraz przeszukiwania ważonych automatów stanów skończonych (WFST). Wykaz komponentów własnych systemu, wraz z odpowiadającą im funkcjonalnością, dla dobrej czytelności zawarto w tabeli 1.1. Tab Elementy systemu Kaldi, wraz z przyporządkowanymi im cechami ogólnymi [2, 11] MODUŁ MATRIX UTILS FEAT GMM SGMM TRANSFORMS LM TREE FST EXT HMM DECODABLE DECODER FUNKCJONALNOŚĆ Obliczenia algebraiczne, dostosowanie mechanizmów obliczeniowych do struktur danych wykorzystywanych w systemie Kaldi. Zestaw złożonych narzędzi obliczeniowych i przetwarzających, wykorzystywany głównie przy modelowaniu akustycznym. Ekstrakcja cech w oparciu o MFCC oraz PLP. Modelowanie akustyczne z użyciem GMM (ang. Gaussian Mixture Models). Modelowanie akustyczne z użyciem SGMM (ang. Subspace Gaussian Mixture Models). Transformacje na modelach GMM, jak np. MLLR (ang. Maxium Likelihood Linear Regression). Modelowanie językowe, konwertowanie modeli w standardowych formatach (np. ARPA) na format FST, wsparcie dla popularnych narzędzi do tworzenia modeli mowy (np. IRSTLM lub SRILM). Tworzenie i obsługa drzew decyzyjnych, niezbędnych do poprawnego wykorzystania modeli językowych. Wsparcie dla zastosowania WFST w całym systemie, z dopasowaniem do stosowanych w Kaldi formatów danych. Pełna obsługa HMM (ang. Hidden Markov Models). Tworzenie grafów na potrzeby dekodowania; moduł łączący komponenty systemu Kaldi przed dekoderem. Dekodowanie realizowane przez jeden z kilku algorytmów do wyboru od prostych i szybkich w działaniu, po bardziej wyszukane i zoptymalizowane. Systemy ASR z użyciem środowiska Kaldi, budowane są za pomocą komend skryptowych powłoki bash (w systemie Linux). Jest to wygodne rozwiązanie, umożliwiające szybkie i proste testowanie różnych receptur dla danego, tworzonego aktualnie systemu. 24

25 WFST WFST, to główna metoda łączenia i optymalizacji modeli mowy w systemie Kaldi, ściśle związana z teorią automatów [6, 11]. Jej podstawową zaletą jest osiągnięcie prostej i wygodnej w użyciu struktury dekodera. Z definicji, WFST to automat wyboru ścieżki w zbiorze określonych stanów skończonych, w którym każde przejście posiada etykietę wejściową, etykietę wyjściową i wagę przejścia. Powstał w oparciu o bardziej powszechny automat FSA (ang. Finite-State Acceptor), w którym przejścia posiadają identyczne etykiety, wejściową i wyjściową. Podczas gdy FSA jest używany do reprezentacji ciągów znaków (ang. strings), WFST służy głównie reprezentacji binarnych relacji pomiędzy ich parami. Dodatkowy parametr wagi, określa wartość każdego przejścia. Przykładowo i w dużym przybliżeniu, z zestawu prawdopodobnych w danej sytuacji ciągów znaków posiadających stan początkowy i końcowy, algorytm WFST wybiera ten o najmniejszym koszcie (wadze) [7, 8]. Rys Graficzny przykład zastosowania WFST przy tworzeniu ścieżki przejść dla zdań [2] Wyjaśnienie rys. 1.8.: okręgi umownie reprezentują kolejno numerowane stany przejściowe, pogrubiony okrąg reprezentuje stan początkowy oznaczony cyfrą 0, podwójny okrąg przedstawia stan końcowy, każdy łuk przejściowy jest opisany za pomocą wyrażenia etykieta wejściowa : etykieta wyjściowa / waga przejścia. 25

26 WFST posiada szerokie zastosowanie w rozpoznawaniu i syntezie mowy, tłumaczeniu maszynowym, rozpoznawaniu obrazów i wzorców, przetwarzaniu ciągów znaków oraz ekstrakcji wszelkiego rodzaju danych. W systemach ASR, WFST często reprezentuje strukturę modeli probabilistycznych (n-gramy, modele wymowy etc.). Przetworniki WFST, często bywają poddawane algorytmom determinizacji i minimalizacji (w celu ogólnej optymalizacji) oraz kompozycji, po której najlepszy wynik wybierany jest przez najkrótszą drogę w algorytmie [7, 8] Mowa polska W większości artykułów i prac naukowych związanych z technologiami mowy, badania nad skutecznością działania systemów ASR, prowadzone są z reguły na przykładzie języka angielskiego. Jest to dość oczywiste, z uwagi na fakt uniwersalności tego języka na całym świecie. W języku angielskim może szacunkowo porozumiewać się nawet 1,8 mld osób, gdzie dla około 340 mln jest on językiem ojczystym. Dotyczy to między innymi krajów wysoko rozwiniętych, które w rozwój technologii mowy inwestują najwięcej. Przedmiotem tej pracy magisterskiej jest jednak wykorzystanie w systemie języka polskiego, zajmującego 15. miejsce na liście języków o znaczeniu komercyjnym (posługuje się nim na co dzień około 45 mln ludzi) [12]. Język polski, bywa powszechnie uznawany za język trudny do nauki dla obcokrajowców. Jest językiem fleksyjnym (z rozbudowaną fleksją), o prozodii pełnej sybilantów (głosek świszczących) i skomplikowanej syntaktyce. Można na tej podstawie można przedstawić hipotezę, że wymaga on szczególnego podejścia w konstruowaniu korpusów mowy, przede wszystkim na potrzeby systemów LVCSR. Niewielkie znaczenie języka polskiego na rynku komercyjnym, nie sprzyja rozwojowi technologii mowy w Polsce. Wynika to z przeciętnej w skali Europy zachodniej zamożności Polaków i z oporów przed wdrażaniem nowych, innowacyjnych technologii w przedsiębiorstwach [12]. 26

27 2. Zakłócenia sygnałów akustycznych Podstawowy problem w interpretacji sygnałów akustycznych, stanowią wszelkiego rodzaju zakłócenia. Od życiowych (np. płacz małego dziecka w tle rozmowy telefonicznej), po czysto techniczne (np. przesadnie wzmocniony i przesterowany sygnał), zakłócenia powodują pogorszenie naszej percepcji odbieranego sygnału, a czasem wręcz uniemożliwiają właściwe zrozumienie przekazywanej informacji. W ten sposób można wnioskować, że takie zakłócenia powodują też negatywne efekty w działaniu systemów ASR. W rozdziale wykorzystano wiedzę własną oraz ogólne informacje z materiału źródłowego [3] Zakłócenie sygnału i jego miara Zakłóceniem sygnału akustycznego nazywa się jego niepożądane składowe lub ich ubytek względem niezakłóconego sygnału podstawowego, co utrudnia bądź uniemożliwia zrozumienie informacji przekazywanej przez dany sygnał. Niestety tak otwarta definicja nie pozwala na badania naukowe nad zakłóconymi sygnałami. Niezbędnym jest, by w sposób możliwie dokładny określić ich zawartość w sygnale. Z takim założeniem, jest to możliwe jedynie w przypadku, gdy istnieje wersja danego sygnału bez zniekształceń oraz osobna ścieżka (plik audio, nagranie) z samymi zakłóceniami (lub też ściśle określone parametry danego zakłócenia, jeśli polega ono na modyfikacji istniejącego sygnału). W pierwszym przypadku można posłużyć się wartością SNR (ang. Signal-to-Noise Ratio), czyli stosunkiem mocy sygnału użytecznego do mocy sygnału zakłócającego, z zastosowaniem np. skali decybelowej. Parametr ten, przyjęto jako podstawową miarę poziomu zakłóceń akustycznych w sygnałach mowy: SNR db = 10 log 10 ( P signal P noise ) (2.1) 27

28 gdzie: SNR db stosunek sygnału użytecznego do danego zakłócenia w skali decybelowej, P signal uśredniona moc sygnału użytecznego, P noise uśredniona moc sygnału zakłócającego. Na poniższym rys. 2.1., można zaobserwować przykład mieszania czystego sygnału mowy z zakłóceniem, na podstawie ściśle określonej wartości parametru SNR db. Po porównaniu z rys i w zależności od wybranego SNR db, można zaobserwować istotne różnice w zawartości widmowej powstałego sygnału. W tym wypadku, szczególnie naruszone zostały wartości w niskim, ale zawierającym się w sygnale mowy paśmie częstotliwości. Rys Spektrogram w skali melowej, przedstawiający nagrane słowo Andrzej (głos żeński, 16kHz, PCM, mono wcześniej na rys. 1.4.), do którego dodano sygnał zakłócający w postaci rozmowy wielu osób naraz w tym samym pomieszczeniu, stosując wartość SNR db = 5 [db] Natomiast podczas symulacji zakłóceń, które polegają na samym przetwarzaniu sygnału mowy (a nie mieszaniu dwóch sygnałów akustycznych), należy przyjąć 28

29 oczywiście inne kryteria. Miara zakłóceń jest wtedy ściśle związana z rodzajem danego zakłócenia i powinna również być dobrana do rodzaju danego sygnału testowego. W tym aspekcie, dyplomant opracował swoje własne metody pomiarowe, wytłumaczone w rozdziale 4., który zawiera m.in. opis tworzenia zakłóconych sygnałów testowych Rodzaje zakłóceń sygnału mowy W tym podrozdziale zdecydowano się na praktyczne omówienie przykładów zakłóceń sygnału mowy, które faktycznie mogą się pojawić w komunikacji głosowej z komputerem w życiu codziennym. Pomijając zakłócenia spowodowane samym przetwarzaniem sygnału mowy lub jego stratną transmisją, istnieją dwie podstawowe kategorie zakłóceń sygnału mowy, ustalone na podstawie sposobu przeciwdziałania im [12]: zakłócenia z zakresu pasma częstotliwościowego sygnałów mowy, np. nakładające się na siebie głosy wielu mówców (ang. cocktail party), zakłócenia oparte o częstotliwości nie występujące w sygnale mowy. Z pierwszymi można sobie poradzić wykorzystując filtrację adaptacyjną (w przypadku rejestracji sygnału więcej niż jednym mikrofonem), a z drugimi filtracją pasmową. Jednak sprawa nie zawsze jest na tyle klarowana. Sygnały w realnym świecie z reguły są rejestrowane pojedynczym odbiornikiem dźwięku i najczęściej są zakłócane w paśmie istotnym dla prawidłowego przekazu sygnału mowy. Powoduje to zapotrzebowanie na możliwie dużą odporność systemów ASR na niepożądane informacje w sygnałach. Biorąc pod uwagę zapotrzebowanie na systemy ASR w codziennym życiu, wpływ zakłóceń sygnałów na ich skuteczność wydaje się niezwykle istotną informacją. Na potrzeby niniejszej pracy magisterskiej, opracowano własny sposób klasyfikacji zakłóceń (sygnałów zakłócających) w sygnałach mowy, wraz z opisanymi w rozdziale 4 przykładami. Uznano, że jest to konieczne, ze względu na bardzo dużą różnorodność zakłóceń sygnałów, jakie mogą wystąpić podczas komunikacji głosowej. Istnieją zakłócenia, które mają znikomy wpływ na rozpoznanie, 29

30 ale są też takie, które prawdopodobnie zupełnie to uniemożliwią. Niektóre zakłócenia można próbować niwelować, a niektóre są praktycznie nieodwracalne. Chcąc uwzględnić podobne przemyślenia, przy podziale zakłóceń zwrócono uwagę na: sposób, w jaki dane zakłócenie powstaje, zawartość częstotliwościową zakłóconego sygnału oraz ew. zmiany widmowej gęstości mocy w czasie trwania danego sygnału (spektrogram), czas trwania zakłócenia w sygnale, miejsce wystąpienia zakłócenia w sygnale. Zwracając uwagę na powyższe założenia oraz kładąc szczególny nacisk na zakłócenia powstałe w wyniku nakładania się na siebie różnych sygnałów, dokonano podziału na 4 podstawowe kategorie: zakłócenia akustyczne, stacjonarne (powstałe w wyniku mieszania sygnałów; widmo częstotliwościowe o charakterze niezmiennym w czasie lub zmiennym okresowo), zakłócenia akustyczne, niestacjonarne (powstałe w wyniku mieszania sygnałów; widmo częstotliwościowe o charakterze zmiennym w czasie), zakłócenia akustyczne, impulsowe (powstałe w wyniku mieszania sygnałów; o krótkim czasie trwania, występujące jedynie w niewielkim fragmencie sygnału mowy) zakłócenia edycyjne (powstałe w wyniku przetwarzania lub transmisji sygnału). Stosując tego rodzaju podział, sugerowano się zarówno naukową ciekawością jak i sytuacjami, które mogą się wydarzyć w życiu codziennym. Nie tylko w przypadku korzystania z systemu ASR w zamkniętym pomieszczeniu, ale też np. za pomocą urządzeń mobilnych, często na otwartej przestrzeni. 30

31 3. Przygotowanie do testów w systemie Kaldi Wykazując znajomość środowiska Kaldi oraz rozumiejąc strukturę zakłóceń w sygnałach mowy, zdecydowano się na przystąpienie do praktycznego etapu pracy. Kolejne rozdziały opisują przyjętą metodykę działań i tłumaczą pomysł dyplomanta na poprawne testowanie wpływu zakłóceń sygnałów na jakość automatycznego rozpoznawania mowy z użyciem niewielkiego korpusu mowy polskiej Środowisko pracy Zwracając uwagę na częste problemy użytkowników systemu Kaldi już na etapie samej instalacji, zdecydowano się dokładnie opisać wyposażenie sprzętowe dyplomanta oraz niezbędny proces odpowiedniego przygotowania systemu operacyjnego Dane sprzętowe stanowiska badawczego Przygotowana konfiguracja sprzętowa informuje o możliwościach odsłuchowych dyplomanta oraz mocy obliczeniowej komputera, wykorzystanych w procesie trenowania modelu akustycznego i przygotowania zakłóconych sygnałów testowych. Wyposażenie stanowiska, to m.in.: komputer stacjonarny PC (Intel Core i5 CPU 3,2 GHz, 6 GB RAM, 64-bit), zewnętrzny interfejs audio z kartą dźwiękową: Presonus Audiobox USB, profesjonalne słuchawki zamknięte: Beyerdynamic DT 770 PRO, zestaw głośników z dedykowanym wzmacniaczem: YAMAHA MCR Konfiguracja systemu operacyjnego Zgodnie z zaleceniami twórców systemu Kaldi, na podstawowy system operacyjny wybrano jedną z reprezentacji Linuxa Ubuntu. W związku z tym, że dyplomant nigdy nie miał do czynienia z systemami rodziny Linux, poświęcono trochę czasu na zapoznanie się z podstawowymi różnicami względem systemu Windows. 31

32 Zainstalowano Ubuntu w wersji 14.10, jednocześnie zachowując Windows 7 Professional na innej partycji dyskowej (podczas pracy, korzystano z obu systemów). Następnie zainstalowano pakiety programowe, zapewniające funkcjonalność niezbędną do poprawnej implementacji środowiska Kaldi [5]: atlas automatyzacja i optymalizacja obliczeń z dziedziny algebry liniowej, autoconf automatyczna kompilacja programów na różnych systemach operacyjnych, automake tworzenie przenośnych plików Makefile, git rozproszony system kontroli wersji, libtool tworzenie statycznych i dynamicznych bibliotek, svn system kontroli wersji (Subversion), wykorzystywany bezpośrednio do pobrania oraz instalacji systemu Kaldi, wget pobieranie plików za pomocą protokołów HTTP, HTTPS i FTP, zlib kompresja danych, Ubuntu jest bogatą w zasoby programowe dystrybucją, zawierającą w sobie większość standardowych pakietów systemowych rodziny Linux. W przypadku korzystania z innych wersji Linuxa, konieczna może być też instalacja następujących [5]: awk język programowania, stosowany do wyszukiwania i przetwarzania wzorców w plikach lub strumieniach danych, bash potocznie: skryptowy język programowania, a zgodnie z definicją: powłoka systemowa umożliwiająca interakcję z systemem operacyjnym za pomocą wygodnego w użyciu języka programowania, grep program służący wyszukiwaniu i wyodrębnianiu w tekście linii zawierających określony ciąg znaków, make program automatyzujący proces kompilacji programów, złożonych z więcej niż jednego pliku, perl język programowania, który jest przystosowany do pracy z tekstem. Podczas pracy z Ubuntu korzystano przede wszystkim z konsoli komend, obsługiwanej głównie za pomocą basha oraz z edytora tekstowego gedit, służącego 32

33 tworzeniu i edycji skryptów oraz programów napisanych w kilku językach programowania (bash, perl, a nawet drobne testy z użyciem C++) Instalacja systemu Kaldi Postępując zgodnie z dokumentacją techniczną projektu [5], przeprowadzono instalację systemu Kaldi za pomocą svn (Subversion). Przy wcześniejszym przygotowaniu wymaganych pakietów, proces jest w pełni automatyczny. W razie niepowodzenia instalacji, skrypty instalacyjne informują użytkownika o powodach przerwania instalacji. Proces zakończony sukcesem, tworzy folder kaldi-trunk we wskazanej wcześniej lokalizacji. W związku z tym, że Kaldi wymaga ręcznej i niskopoziomowej obsługi, istotnym jest zapoznanie się z zawartością wspomnianego folderu: EGS przykładowe skrypty, umożliwiające szybką budowę systemów ASR dla ponad 30 popularnych korpusów mowy (zawierają dokumentację), MISC dodatkowe narzędzia i materiały, zbędne do poprawnego działania podstawowych funkcji środowiska, SRC kod źródłowy systemu Kaldi, TOOLS miejsce przechowywania wykorzystywanych komponentów i narzędzi zewnętrznych, w tym między innymi: OpenFst wspomniana już biblioteka obsługująca WFST, IRSTLM zestaw narzędzi do tworzenia modeli językowych, sph2pipe pakiet służący do konwersji plików typu sph, sclite program opcjonalnie wykorzystywany do ewaluacji, ATLAS biblioteka automatycznie generująca zoptymalizowaną zawartość biblioteki BLAS, CLAPACK biblioteka LAPACK przepisana z języka Fortran na C, WINDOWS folder zawierający pliki do właściwej kompilacji systemu Kaldi z użyciem Windowsa (wariant możliwy, ale niezalecany). 33

34 3.2. Testy poprawnej implementacji systemu Kaldi Ten podrozdział poświęcono na opis kilku działań, mających na celu sprawdzenie poprawnej instalacji systemu Kaldi. Wykorzystano do tego celu skrypty przykładowe, poradnik uruchomienia dla korpusu RM (ang. Resource Management) oraz specyfikację techniczną procesu przygotowania danych akustycznych i językowych, ze strony internetowej projektu [5]. Podążając za radami twórców środowiska, na pierwszy system ASR wybrano korpus Yesno, powstały w ramach projektu OpenSLR [9]. W kolejnym teście uruchomiono przykładową recepturę dla o wiele większego korpusu Voxforge. Skrócony opis przeprowadzonych działań wraz z wnioskami: a) test 1: Yesno: korpus: 60 nagrań pojedynczej osoby płci męskiej, zawierających po 8 słów tak lub nie, wypowiadanych w języku hebrajskim, w różnej kolejności, opis systemu: trening MONO (monogłoskowy) od podstaw, korzystając z obliczonych parametrów MFCC; model językowy utworzony za pomocą narzędzia IRSTLM, zestaw testowy: wybrana losowo połowa nagrań z korpusu, ewaluacja: idealne rozpoznanie (WER = 0%), wnioski: zgodnie z oczekiwaniami i opisem tego korpusu, dekoder zwrócił bezbłędne wyniki (dla tak ubogiego modelu językowego i nawet przy takiej ilości danych, wystarczy trening MONO do uzyskania zadowalających wyników), b) test 2: Voxforge, korpus: wykorzystano wersję Voxforge dla języka angielskiego z 12 czerwca 2015, używając dialektów amerykańskiego i brytyjskiego, opis systemu: także przetestowano działanie skryptów jedynie na treningu MONO, stosując jednak inny zestaw narzędzi do tworzenia modeli językowych SRILM, zestaw testowy: losowych 20 mówców, wybranych zgodnie z ustalonymi w założeniach dialektami, 34

35 ewaluacja: po kilku testach MONO otrzymano wyniki rzędu WER równego 60-70%, wnioski: udało się skutecznie uruchomić przykładowy skrypt testowy dla korpusu Voxforge i otrzymać dodatni, ale też mniejszy od 100% wynik WER po dekodowaniu (co było jedynym założeniem); na przykładzie tego konkretnego testu przeanalizowano metodykę tworzenia wykonywalnych receptur w systemie Kaldi Wybór korpusu mowy polskiej Na podstawowy korpus, mający posłużyć do utworzenia własnego systemu ASR wybrano AGHDigits (jego wersję z kwietnia 2015 r.), powstały na Akademii Górniczo- Hutniczej w Krakowie. AGHDigits, to zestaw 4463 nagrań audio, z których każde zawiera trzy kolejno wypowiedziane w języku polskim cyfry. W korpusie wypowiada się 72 mówców (44 kobiety, 28 mężczyzn). Korpus oprócz nagrań audio w formacie WAV (PCM, mono, 16kHz), zawiera też zestaw plików MLF (pliki tekstowe z relatywnymi ścieżkami folderów docelowych i podstawowe informacje o treści nagrań) oraz kilka wersji słownika, utworzonego do pracy w systemie HTK (słowniki zawierające możliwe opcje wypowiedzi w zdaniu, razem z zapisem fonetycznym w różnych konfiguracjach). Zdecydowano się na właśnie ten korpus, z uwagi na cel pracy magisterskiej, który skupia się nie tyle na samej jakości rozpoznania, co na wpływie, jaki wywierają na nią zakłócenia sygnałów akustycznych. Zakładając powodzenie poprawnej implementacji systemu i stosując mocno ograniczony słownik, przewidywano wysokie wyniki rozpoznania przy testach z udziałem wzorcowych (niezakłóconych) sygnałów testowych. Stwierdzono, że pozostawia to duży i wygodny w obserwacji margines błędu dla testów na sygnałach zakłóconych. Jednocześnie uznano, że językowa zawartość nazw cyfr wypowiadanych w języku polskim jest na tyle bogata, że spełnia warunek zastosowania języka polskiego. Do kontroli plików dźwiękowych zawartych w korpusie wykorzystano niezwykle funkcjonalny, linuxowy program do pracy z audio o nazwie sox. 35

36 3.4. Scenariusz testowy Scenariusz testowy to szczegółowy plan postępowania, dzięki któremu cały proces testowania jest wiarygodny i powtarzalny. W tym wypadku scenariusz został dostosowany do wybranego korpusu mowy oraz znajomości środowiska Kaldi ze strony dyplomanta, w celu utworzenia odpowiedniego systemu ASR Podział korpusu na zestaw treningowy i testowy Założono, że pierwszym elementem scenariusza testowego jest m.in. dobranie odpowiedniego zestawu testowego. Zakładając użycie bardzo małego słownika, zdecydowano się na utworzenie relatywnie dużego zestawu testowego, składającego się z 10 mówców (5 głosów żeńskich, 5 męskich), z których każdy wypowiada 25 zdań, zawierających 3 kolejno wypowiedziane cyfry języku polskim. Sumarycznie otrzymano w ten sposób 250 zdań, czyli 750 słów (cyfr). Selekcji dokonano przesłuchując nagrania z całego korpusu, sugerując się jak najlepszą jakością nagrań i zróżnicowaną barwą głosu lektorów (np. głos żeński osoby starszej i młodszej). Ograniczoną ilość wypowiedzi każdego mówcy (25 nagrań) wybrano losowo. Następnie usunięto danych mówców z zestawu treningowego. Poniżej zamieszczono wykaz mówców (w pierwszej kolejności głosy żeńskie) reprezentujących zestaw testowy, wraz z nazewnictwem dostosowanym do pracy w systemie Kaldi (po pierwszym podkreślniku występuje oryginalna nazwa mówcy z korpusu AGHDigits): female1_agh_alj, female2_dspk_14_f, female3_wmn_ezi, female4_wmn_mja, female5_uspk_21_f, male1_agh_mwi, male2_agh_tja, male3_uspk_36_m, male4_agh_pja, 36

37 male5_uspk_31_m. Tym samym otrzymano zestaw treningowy składający się z 62 mówców (3656 zdań, zdań), co po podziale na płci daje: 23 głosy męskie (1013 nagrań, czyli 3039 wypowiedzianych słów), 39 głosów żeńskich (2643 nagrania, czyli 7929 wypowiedzianych słów) Założenia testowe Adekwatnie do doświadczenia dyplomanta, scenariusz testowy w początkowym etapie prac sprowadzono do formy konkretnych założeń: testy przeprowadzane na systemie wytrenowanym przynajmniej dwoma metodami treningowymi, możliwie od siebie różnymi (z różniącymi się wynikami, otrzymywanymi dla dekodowania z użyciem referencyjnego zestawu testowego), referencyjny test systemu zestawem danych wzorcowych, porównywany później ze wszystkimi kolejnymi wynikami testów, testy systemu zestawami sygnałów zakłóconych, utworzonymi w sposób uzasadniony naukowo, wpływ zakłóceń akustycznych testowany na podstawie parametru SNR, dla zakresu od -30 do 30dB, ze skokiem 5dB, pobranie i interpretacja wszystkich parametrów ewaluacyjnych zwracanych przez dekoder w systemie Kaldi, czyli WER, SER i RTF (zależnie od rodzaju i poziomu danego zakłócenia) niestety obsługa parametru CM nie została przez twórców Kaldi ego w żaden sposób zaimplementowana [5], przedstawienie kompletnych wyników testów w postaci tabelarycznej, z podziałem na rodzaje zakłóceń, graficzne porównanie wpływu zakłóceń na jakość rozpoznania, zestawione oddzielnie dla każdej kategorii zakłóceń. 37

38 4. Dane testowe, trening i testy właściwe W tym rozdziale zrealizowany jest ostatni etap pracy nad tytułowym problemem niniejszej pracy magisterskiej. Proces zakłócania sygnałów przeprowadzono korzystając z oprogramowania Matlab oraz z kilku skryptów wykorzystujących specjalistyczne oprogramowanie dostępne na system operacyjny Ubuntu. Operacje treningu i testów przeprowadzono z użyciem przygotowanych wcześniej receptur (skryptów) Zakłócone zestawy sygnałów testowych W pierwszej kolejności przygotowano utworzony wcześniej referencyjny zestaw testowy 250 zdań w wykonaniu 10 różnych mówców. Zestaw ten uznano za punkt odniesienia dla kolejnych zaplanowanych testów i wszelkie operacje zakłócania sygnałów przeprowadzano na jego wiernych kopiach. Dla każdej kategorii zakłóceń, z tych określonych w podrozdziale 2.2., wybrano kilka przykładów sygnałów zakłócających i zakłóceń edycyjnych. Wszystkie spektrogramy zawarte w tym podrozdziale zostały utworzone w oprogramowaniu Matlab, za pomocą programów autorstwa dyplomanta. Jeśli uznano to za konieczne, niektóre wykresy posiadają dodatkowe opisy Przygotowanie zakłóceń akustycznych W przypadku zakłóceń akustycznych, napisano własny program w środowisku Matlab, którego zadaniem było miksowanie sygnałów testowych z zadanymi zakłóceniami na podstawie wartości parametru SNR w skali decybelowej. Dodatkowo, w razie potrzeby zaimplementowano też funkcję resamplingu (dostosowania częstotliwości próbkowania) sygnałów zakłócających do 16kHz oraz normalizację amplitudy zmiksowanych sygnałów, przeciwdziałającą ewentualnemu przesterowaniu. W przypadku zakłóceń stacjonarnych i niestacjonarnych, przed zsumowaniem dopasowano ich długość do każdego sygnału testowego, zaczynając od początku każdego nagrania audio. Natomiast operując na sygnałach impulsowych (o bardzo 38

39 krótkim czasie trwania), zdecydowano się na ich losowe umiejscowienie w każdym sygnale testowym, w środkowych 2/3 możliwego zakresu (czyli sumarycznego czasu trwania). Miało to na celu uniknięcie zbyt częstej sytuacji, kiedy zakłócenie impulsowe pojawiało się całkowicie przed wypowiedzią lub też po wypowiedzi mówcy w nowopowstałym sygnale testowym. Podział sygnałów na zakłócenia stacjonarne i niestacjonarne jest umowny i oparty o podejście osoby posiadającej doświadczenie w odszumianiu nagrań audio. Zakłócenia stacjonarne często można w prosty sposób usunąć z sygnału (poprzez przechwycenie widma częstotliwościowego w dowolnym momencie trwania sygnału). W przypadku sygnałów niestacjonarnych, zmieniające się w czasie widmo częstotliwościowe najczęściej uniemożliwia przyjęcie takiej metody. Dla każdego sygnału zakłócającego, wygenerowano 13 zestawów testowych o różnym stopniu zakłócenia (zakres: -30 do 30 db, skok 5dB). Poniżej zestawiono wybrane przykłady zakłóceń akustycznych, wraz ze stosownym komentarzem i graficzną demonstracją. Szum biały (zakłócenie stacjonarne) Rys Spektrogram wykorzystanego sygnału z szumem białym 39

40 Akustyczny szum biały posiada stałą widmową gęstość mocy [3]. W tym wypadku pełni przede wszystkim rolę punktu odniesienia dla pozostałych testów. Występuje powszechnie w środowisku akademickim i często jest używany do symulacji wszelkiego rodzaju szumów rzeczywistych. Szum różowy (zakłócenie stacjonarne) Rys Spektrogram wykorzystanego sygnału z szumem różowym Akustyczny szum różowy, podobnie do szumu białego, bywa wykorzystywany w akustyce. Jego widmowa gęstość mocy jest proporcjonalna do odwrotności częstotliwości [3]. Dzięki temu, z punktu widzenia psychoakustyki, szum różowy może być bardziej naturalny w odsłuchu dla człowieka, niż szum biały. Tym samym może lepiej nadawać się do symulacji realnie występujących szumów. 40

41 Szum wnętrza jadącego samochodu (zakłócenie stacjonarne) Rys Spektrogram wykorzystanego sygnału z szumem we wnętrzu jadącego samochodu Niskoczęstotliwościowy hałas wewnątrz jadącego samochodu. Związany z jednostajną pracą silnika (np. podczas jazdy ze stałą prędkością na autostradzie) oraz oporem powietrza. Sygnał telefoniczny (zakłócenie stacjonarne) Rys Spektrogram wykorzystanego sygnału telefonicznego 41

42 Sygnał telefoniczny nie jest w tym wypadku sygnałem idealnie ciągłym, ale posiada idealnie powtarzalny charakter. Rozmowa wielu osób naraz (zakłócenie niestacjonarne) Rys Spektrogram wykorzystanego sygnału z rozmową wielu osób naraz Jeden z najbardziej istotnych sygnałów zakłócających, zawierający w swoim spektrogramie formanty wielu nakładających się na siebie sygnałów mowy. Szum biurowy (zakłócenie niestacjonarne) Rys Spektrogram wykorzystanego sygnału z szumem biurowym 42

43 Hałas miejski (zakłócenie niestacjonarne) Rys Spektrogram wykorzystanego sygnału z hałasem w centrum miasta Trzaśnięcie drzwiami (zakłócenie impulsowe) Rys Spektrogram wykorzystanego sygnału z trzaśnięciem drzwiami 43

44 Upadek długopisu na biurko (zakłócenie impulsowe) Rys Spektrogram wykorzystanego sygnału z upadkiem długopisu na biurko Upadek długopisu na biurko, w bliskiej odległości od rejestratora dźwięku (sygnał jest minimalnie przesterowany, co nadaje nagraniu więcej realizmu). Sygnał notyfikacji w telefonie (zakłócenie impulsowe) Rys Spektrogram wykorzystanego sygnału notyfikacji w telefonie komórkowym 44

45 Tworzenie zakłóceń edycyjnych Do kategorii zakłóceń edycyjnych zaliczono wszelkiego rodzaju stratne operacje modyfikacji i transmisji sygnałów. Do ich tworzenia wykorzystano również oprogramowanie Matlab, ale też kilka linuxowych programów do pracy z audio, jak choćby sox, lame i mpg123. Częstotliwościowa filtracja górnoprzepustowa i dolnoprzepustowa Do filtracji częstotliwościowej wykorzystano funkcję sinc programu sox, która pozwala na bardzo stromą filtrację przepustową. Pozostawiono domyślne parametry procedury. Testy wykonano na paśmie częstotliwości, w którym występuje w sposób znaczący sygnał mowy ludzkiej, stosując częstotliwościowy podział tercjowy (kolejne pasma częstotliwości występują pomiędzy częstotliwościami, których stosunek jest 3 równy 2) [3]. Miało to na celu zagęszczenie punktów pomiarowych w interesującym dyplomanta paśmie częstotliwościowym. Operacje testowe przeprowadzono dla środkowych częstotliwości standardowych tercji pomiarowych (ich wykaz jest zamieszczony w rozdziale 5). Rys Melowy spektrogram sygnału, na którym wykonano częstotliwościową filtrację górnoprzepustową dla częstotliwości granicznej 1kHz, która odpowiada akurat 1000 Mel (głos męski, wypowiedziane zdanie: dwa dziewięć siedem ) 45

46 Przesterowanie Symulację przesterowania sygnałów testowych, zrealizowano przy pomocy programu napisanego w środowisku Matlab. Z każdego sygnału testowego pobierano maksymalną wartość amplitudy i ustalano ją jako maksymalny możliwy zakres dynamiki danego sygnału. Następnie zwiększano amplitudę sygnału o określoną ilość decybeli (stworzony parametr MULT [db]), równając wszystkie zbyt duże wartości sygnału do utworzonego zakresu dynamiki. Testy przeprowadzono na zestawach o amplitudzie zmniejszonej w opisany sposób, dla wartości MULT od 1 do 15dB. Rys Melowy spektrogram sygnału, na którym zrealizowano algorytm przesterowania z parametrem MULT = 12 db (głos męski, wypowiedziane zdanie: osiem dziewięć dziesięć ) Stratne kodowanie i dekodowanie Do procesu stratnego kodowania i dekodowania sygnałów, wybrano standard MPEG-2 Audio Layer 3 (MP3). Do kompresji sygnałów z formatu WAV na format MP3, wykorzystano program lame (w parametrach procedury ustalono pożądaną wartość przepływności bitowej BR [kbit/s], ustawiono wbudowany parametr jakości algorytmu q na wartość 9 oraz wymuszono częstotliwość próbkowania równą 16kHz). Następnie przekonwertowano utworzone pliki MP3 z powrotem na format WAV, 46

47 używając programu mpg123 (z zastosowaniem parametrów domyślnych). Testy przeprowadzono dla różnych wartości parametru BR: 8, 16, 32, 64 oraz 128 kbit/s. Rys Melowy spektrogram sygnału, na którym zrealizowano algorytm stratnego kodowania i dekodowania, z parametrem BR = 8kbit/s (głos męski, wypowiedziane zdanie: sześć cztery zero ) Efekt echa Echo symulowano w programie Matlab, mieszając sygnały testowe z ich przesuniętymi w czasie kopiami o mniejszej amplitudzie. Wartości przesunięć mierzone w próbkach sygnału, ustalono na podstawie ilorazów dzielenia częstotliwości próbkowania poprzez dopasowane empirycznie liczby naturalne (wyniki zaokrąglano w dół). Amplitudy powtórzeń także dobrano doświadczalnie, tak aby otrzymać trzy wersje efektu echa o różnej intensywności. Wartości wspomnianych parametrów (tab. 4.1.) oraz graficzny przykład utworzonego sygnału z echem (rys ), zamieszczono poniżej. 47

48 Tab Wartości parametrów wykorzystanych do tworzenia efektu echa, gdzie: Fs częstotliwość próbkowania, A amplituda sygnału poddanego edycji, A1 amplituda pierwszego odbicia, D1 przesunięcie pierwszego odbicia Wersja: 1 odbicie D1 = Fs/7 A1 = 0,5A D1 = Fs/15 A1 = 0,65A Wersja: 3 odbicia D2 = Fs/5 A2 = 0,4A D3 = Fs/3 A3 = 0,15A D1 = Fs/15 A1 = 0,7A D2 = Fs/5 A2 = 0,45A Wersja: 5 odbić D3 = Fs/3 A3 = 0,25A D4 = Fs/2 A4 = 0,15A D5 = Fs/1,3 A5 = 0,1A Rys Melowy spektrogram sygnału, do którego dodano echo w wersji z 5 odbiciami (głos męski, wypowiedziane zdanie: trzy sześć osiem ) 4.2. Trening i testy systemu Proces przygotowania danych akustycznych wszystkich przetwarzanych nagrań (na podstawie nazw plików i zgodnie z wymaganiami wejściowymi systemu Kaldi), jest wykonywany automatycznie. Stworzono do tego celu kilkanaście skryptów pomocniczych. Jedynym wyjątkiem jest określanie płci mówców, co należy uzupełnić ręcznie, odsłuchując nagrania. Ręcznego przygotowania wymaga też część danych 48

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I AKUSTYKA MOWY Podstawy rozpoznawania mowy część I PLAN WYKŁADU Część I Podstawowe pojęcia z dziedziny rozpoznawania mowy Algorytmy, parametry i podejścia do rozpoznawania mowy Przykłady istniejących bibliotek

Bardziej szczegółowo

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:

KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12: KATEDRA SYSTEMÓW MULTIMEDIALNYCH Inteligentne systemy decyzyjne Ćwiczenie nr 12: Rozpoznawanie mowy z wykorzystaniem ukrytych modeli Markowa i pakietu HTK Opracowanie: mgr inż. Kuba Łopatka 1. Wprowadzenie

Bardziej szczegółowo

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, 2011 Spis treści Przedmowa 11 Rozdział 1. WPROWADZENIE 13 1.1. Czym jest automatyczne rozpoznawanie mowy 13 1.2. Poziomy

Bardziej szczegółowo

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych... Spis treści 1 Wstęp 11 1.1 Do kogo adresowana jest ta książka... 12 1.2 Historia badań nad mową i językiem... 12 1.3 Obecne główne trendy badań... 16 1.4 Opis zawartości rozdziałów... 18 2 Wyzwania i możliwe

Bardziej szczegółowo

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy Grupa: wtorek 18:3 Tomasz Niedziela I. CZĘŚĆ ĆWICZENIA 1. Cel i przebieg ćwiczenia. Celem ćwiczenia

Bardziej szczegółowo

Sposoby opisu i modelowania zakłóceń kanałowych

Sposoby opisu i modelowania zakłóceń kanałowych INSTYTUT TELEKOMUNIKACJI ZAKŁAD RADIOKOMUNIKACJI Instrukcja laboratoryjna z przedmiotu Podstawy Telekomunikacji Sposoby opisu i modelowania zakłóceń kanałowych Warszawa 2010r. 1. Cel ćwiczeń: Celem ćwiczeń

Bardziej szczegółowo

Mechatronika i inteligentne systemy produkcyjne. Modelowanie systemów mechatronicznych Platformy przetwarzania danych

Mechatronika i inteligentne systemy produkcyjne. Modelowanie systemów mechatronicznych Platformy przetwarzania danych Mechatronika i inteligentne systemy produkcyjne Modelowanie systemów mechatronicznych Platformy przetwarzania danych 1 Sterowanie procesem oparte na jego modelu u 1 (t) System rzeczywisty x(t) y(t) Tworzenie

Bardziej szczegółowo

Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania

Tom 6 Opis oprogramowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli obmiaru do celów fakturowania Część 8 Narzędzie do kontroli danych elementarnych, danych wynikowych oraz kontroli Diagnostyka stanu nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 21 maja 2012 Historia dokumentu

Bardziej szczegółowo

Opisy efektów kształcenia dla modułu

Opisy efektów kształcenia dla modułu Karta modułu - Technologia mowy 1 / 5 Nazwa modułu: Technologia mowy Rocznik: 2012/2013 Kod: RIA-1-504-s Punkty ECTS: 7 Wydział: Inżynierii Mechanicznej i Robotyki Poziom studiów: Studia I stopnia Specjalność:

Bardziej szczegółowo

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania

Bardziej szczegółowo

Omówienie różnych metod rozpoznawania mowy

Omówienie różnych metod rozpoznawania mowy Omówienie różnych metod rozpoznawania mowy Na podstawie artykułu: Comparative study of automatic speech recognition techniques Beniamin Sawicki Wydział Inżynierii Mechanicznej i Robotyki Inżynieria Akustyczna

Bardziej szczegółowo

Sprawozdanie z laboratoriów HTK!

Sprawozdanie z laboratoriów HTK! Inżynieria akustyczna - Technologia mowy 2013 Błażej Chwiećko Sprawozdanie z laboratoriów HTK! 1. Przeznaczenie tworzonego systemu! Celem było stworzenie systemu służącego do sterowania samochodem. Zaimplementowane

Bardziej szczegółowo

Przekształcenia sygnałów losowych w układach

Przekształcenia sygnałów losowych w układach INSTYTUT TELEKOMUNIKACJI ZAKŁAD RADIOKOMUNIKACJI Instrukcja laboratoryjna z przedmiotu Sygnały i kodowanie Przekształcenia sygnałów losowych w układach Warszawa 010r. 1. Cel ćwiczenia: Ocena wpływu charakterystyk

Bardziej szczegółowo

Teoria przetwarzania A/C i C/A.

Teoria przetwarzania A/C i C/A. Teoria przetwarzania A/C i C/A. Autor: Bartłomiej Gorczyński Cyfrowe metody przetwarzania sygnałów polegają na przetworzeniu badanego sygnału analogowego w sygnał cyfrowy reprezentowany ciągiem słów binarnych

Bardziej szczegółowo

Informatyka I stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny)

Informatyka I stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod Nazwa Nazwa w języku angielskim Obowiązuje od roku akademickiego 2012/2013 Programy grafiki rastrowej,

Bardziej szczegółowo

Tom 6 Opis oprogramowania

Tom 6 Opis oprogramowania Część 4 Narzędzie do wyliczania wielkości oraz wartości parametrów stanu Diagnostyka stanu nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 30 maja 2012 Historia dokumentu Nazwa

Bardziej szczegółowo

Informatyka I stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny)

Informatyka I stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) KARTA MODUŁU / KARTA PRZEDMIOTU Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. Kod Nazwa Nazwa w języku angielskim Obowiązuje od roku akademickiego 2012/2013 Programy grafiki rastrowej,

Bardziej szczegółowo

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2018/2019

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2018/2019 Politechnika Krakowska im. Tadeusza Kościuszki Karta przedmiotu Wydział Inżynierii Lądowej obowiązuje studentów rozpoczynających studia w roku akademickim 2018/2019 Kierunek studiów: Transport Forma sudiów:

Bardziej szczegółowo

Jak ustawić cele kampanii?

Jak ustawić cele kampanii? Jak ustawić cele kampanii? Czym są cele? Jest to funkcjonalność pozwalająca w łatwy sposób śledzić konwersje wygenerowane na Twojej stronie www poprzez wiadomości email wysłane z systemu GetResponse. Mierzenie

Bardziej szczegółowo

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki

Wykład II. Reprezentacja danych w technice cyfrowej. Studia Podyplomowe INFORMATYKA Podstawy Informatyki Studia Podyplomowe INFORMATYKA Podstawy Informatyki Wykład II Reprezentacja danych w technice cyfrowej 1 III. Reprezentacja danych w komputerze Rodzaje danych w technice cyfrowej 010010101010 001010111010

Bardziej szczegółowo

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej.

Efekt kształcenia. Ma uporządkowaną, podbudowaną teoretycznie wiedzę ogólną w zakresie algorytmów i ich złożoności obliczeniowej. Efekty dla studiów pierwszego stopnia profil ogólnoakademicki na kierunku Informatyka w języku polskim i w języku angielskim (Computer Science) na Wydziale Matematyki i Nauk Informacyjnych, gdzie: * Odniesienie-

Bardziej szczegółowo

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE Nazwa przedmiotu: Podstawy Informatyki Basic Informatics Kierunek: Zarządzanie i Inżynieria Produkcji Rodzaj przedmiotu: ogólny Poziom studiów: studia I stopnia forma studiów: studia stacjonarne Rodzaj

Bardziej szczegółowo

Cechy karty dzwiękowej

Cechy karty dzwiękowej Karta dzwiękowa System audio Za generowanie sygnału dźwiękowego odpowiada system audio w skład którego wchodzą Karta dźwiękowa Głośniki komputerowe Większość obecnie produkowanych płyt głównych posiada

Bardziej szczegółowo

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW

EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW EFEKTY KSZTAŁCENIA DLA KIERUNKU STUDIÓW WYDZIAŁ KIERUNEK z obszaru nauk POZIOM KSZTAŁCENIA FORMA STUDIÓW PROFIL JĘZYK STUDIÓW Podstawowych Problemów Techniki Informatyka technicznych 6 poziom, studia inżynierskie

Bardziej szczegółowo

Konwersja dźwięku analogowego do postaci cyfrowej

Konwersja dźwięku analogowego do postaci cyfrowej Konwersja dźwięku analogowego do postaci cyfrowej Schemat postępowania podczas przetwarzania sygnału analogowego na cyfrowy nie jest skomplikowana. W pierwszej kolejności trzeba wyjaśnić kilka elementarnych

Bardziej szczegółowo

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych Grupa efektów kierunkowych: Matematyka stosowana I stopnia - profil praktyczny (od 17 października 2014) Matematyka Stosowana I stopień spec. Matematyka nowoczesnych technologii stacjonarne 2015/2016Z

Bardziej szczegółowo

Programowanie obiektowe

Programowanie obiektowe Laboratorium z przedmiotu Programowanie obiektowe - zestaw 03 Cel zajęć. Celem zajęć jest zapoznanie z praktycznymi aspektami projektowania oraz implementacji klas abstrakcyjnych i interfejsów. Wprowadzenie

Bardziej szczegółowo

Rozpoznawanie mowy za pomocą HTK

Rozpoznawanie mowy za pomocą HTK Kinga Frydrych Wydział Inżynierii Mechanicznej i Robotyki Inżynieria Akustyczna, rok III, 2013/2014 Sprawozdanie z ćwiczeń laboratoryjnych z Technologii mowy Rozpoznawanie mowy za pomocą HTK 1. Opis gramatyki

Bardziej szczegółowo

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE Nazwa przedmiotu: Kierunek: Informatyka Rodzaj przedmiotu: moduł specjalności obowiązkowy: Sieci komputerowe Rodzaj zajęć: wykład, laboratorium I KARTA PRZEDMIOTU CEL PRZEDMIOTU PRZEWODNIK PO PRZEDMIOCIE

Bardziej szczegółowo

Zakładane efekty kształcenia dla kierunku Wydział Telekomunikacji, Informatyki i Elektrotechniki

Zakładane efekty kształcenia dla kierunku Wydział Telekomunikacji, Informatyki i Elektrotechniki Jednostka prowadząca kierunek studiów Nazwa kierunku studiów Specjalności Obszar kształcenia Profil kształcenia Poziom kształcenia Forma kształcenia Tytuł zawodowy uzyskiwany przez absolwenta Dziedziny

Bardziej szczegółowo

UCHWAŁA nr 03/2015/2016 Rady Wydziału Informatyki Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie z dnia 20 października 2015 r.

UCHWAŁA nr 03/2015/2016 Rady Wydziału Informatyki Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie z dnia 20 października 2015 r. UCHWAŁA nr 03/2015/2016 Rady Wydziału Informatyki Zachodniopomorskiego Uniwersytetu Technologicznego w Szczecinie z dnia 20 października 2015 r. w sprawie zatwierdzenia zasad procesu dyplomowania realizowanego

Bardziej szczegółowo

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015 Politechnika Krakowska im. Tadeusza Kościuszki Karta przedmiotu Wydział Inżynierii Lądowej obowiązuje studentów rozpoczynających studia w roku akademickim 01/015 Kierunek studiów: Transport Forma sudiów:

Bardziej szczegółowo

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE Nazwa przedmiotu: MODELOWANIE I SYMULACJA UKŁADÓW STEROWANIA Kierunek: Mechatronika Rodzaj przedmiotu: Rodzaj zajęć: wykład, laboratorium I KARTA PRZEDMIOTU CEL PRZEDMIOTU PRZEWODNIK PO PRZEDMIOCIE C1.

Bardziej szczegółowo

Przetwornik analogowo-cyfrowy

Przetwornik analogowo-cyfrowy Przetwornik analogowo-cyfrowy Przetwornik analogowo-cyfrowy A/C (ang. A/D analog to digital; lub angielski akronim ADC - od słów: Analog to Digital Converter), to układ służący do zamiany sygnału analogowego

Bardziej szczegółowo

Informatyka I stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) kierunkowy (podstawowy / kierunkowy / inny HES)

Informatyka I stopień (I stopień / II stopień) Ogólnoakademicki (ogólno akademicki / praktyczny) kierunkowy (podstawowy / kierunkowy / inny HES) Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod Nazwa Programy grafiki rastrowej, wektorowej i 3d Nazwa w języku angielskim Programs of raster,

Bardziej szczegółowo

Pierwszy projekt. Na początku warto wspomnieć, że program WebSite X5 dostępy jest w 3 wariantach: Start, Evolution oraz Professional

Pierwszy projekt. Na początku warto wspomnieć, że program WebSite X5 dostępy jest w 3 wariantach: Start, Evolution oraz Professional Projektowanie stron może być proste? Sprawdzamy. {reklama-artykul} Tworzenie stron internetowych to w teorii zagadnienie skomplikowane, często wymagające zaawansowanej wiedzy z dziedziny programowania.

Bardziej szczegółowo

KARTA PRZEDMIOTU. Techniki przetwarzania sygnałów, D1_3

KARTA PRZEDMIOTU. Techniki przetwarzania sygnałów, D1_3 KARTA PRZEDMIOTU 1. Informacje ogólne Nazwa przedmiotu i kod (wg planu studiów): Nazwa przedmiotu (j. ang.): Kierunek studiów: Specjalność/specjalizacja: Poziom kształcenia: Profil kształcenia: Forma studiów:

Bardziej szczegółowo

Repetytorium z matematyki 3,0 1,0 3,0 3,0. Analiza matematyczna 1 4,0 2,0 4,0 2,0. Analiza matematyczna 2 6,0 2,0 6,0 2,0

Repetytorium z matematyki 3,0 1,0 3,0 3,0. Analiza matematyczna 1 4,0 2,0 4,0 2,0. Analiza matematyczna 2 6,0 2,0 6,0 2,0 PROGRAM STUDIÓW I INFORMACJE OGÓLNE 1. Nazwa jednostki prowadzącej kierunek: Wydział Matematyki i Informatyki 2. Nazwa kierunku: Informatyka 3. Oferowane specjalności: 4. Poziom kształcenia: studia pierwszego

Bardziej szczegółowo

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE Nazwa przedmiotu: I KARTA PRZEDMIOTU CEL PRZEDMIOTU PRZEWODNIK PO PRZEDMIOCIE C1. Zapoznanie studentów z środowiskiem pracy wykorzystywanych w nim programach C2. Nabycie przez studentów praktycznych umiejętności

Bardziej szczegółowo

Algorytm. a programowanie -

Algorytm. a programowanie - Algorytm a programowanie - Program komputerowy: Program komputerowy można rozumieć jako: kod źródłowy - program komputerowy zapisany w pewnym języku programowania, zestaw poszczególnych instrukcji, plik

Bardziej szczegółowo

Elektrotechnika I stopień Ogólno akademicki. Przedmiot kierunkowy. Obowiązkowy Polski VI semestr zimowy

Elektrotechnika I stopień Ogólno akademicki. Przedmiot kierunkowy. Obowiązkowy Polski VI semestr zimowy KARTA MODUŁU / KARTA PRZEDMIOTU Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2012/2013

Bardziej szczegółowo

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU I. KARTA PRZEDMIOTU 1. Nazwa przedmiotu: TECHNOLOGIA INFORMACYJNA 2. Kod przedmiotu: Ot 3. Jednostka prowadząca: Wydział Mechaniczno-Elektryczny 4. Kierunek: Automatyka i Robotyka 5. Specjalność: Informatyka

Bardziej szczegółowo

Transformata Fouriera

Transformata Fouriera Transformata Fouriera Program wykładu 1. Wprowadzenie teoretyczne 2. Algorytm FFT 3. Zastosowanie analizy Fouriera 4. Przykłady programów Wprowadzenie teoretyczne Zespolona transformata Fouriera Jeżeli

Bardziej szczegółowo

Podstawy Przetwarzania Sygnałów

Podstawy Przetwarzania Sygnałów Adam Szulc 188250 grupa: pon TN 17:05 Podstawy Przetwarzania Sygnałów Sprawozdanie 6: Filtracja sygnałów. Filtry FIT o skończonej odpowiedzi impulsowej. 1. Cel ćwiczenia. 1) Przeprowadzenie filtracji trzech

Bardziej szczegółowo

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów 1. Przekształcenie sygnału analogowego na postać cyfrową określamy mianem: a. digitalizacji

Bardziej szczegółowo

Podsumowanie wyników ankiety

Podsumowanie wyników ankiety SPRAWOZDANIE Kierunkowego Zespołu ds. Programów Kształcenia dla kierunku Informatyka dotyczące ankiet samooceny osiągnięcia przez absolwentów kierunkowych efektów kształcenia po ukończeniu studiów w roku

Bardziej szczegółowo

SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD

SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD Dr inż. Jacek WARCHULSKI Dr inż. Marcin WARCHULSKI Mgr inż. Witold BUŻANTOWICZ Wojskowa Akademia Techniczna SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD Streszczenie: W referacie przedstawiono możliwości

Bardziej szczegółowo

E-E-A-1008-s5 Komputerowa Symulacja Układów Nazwa modułu. Dynamicznych. Elektrotechnika I stopień Ogólno akademicki. Przedmiot kierunkowy

E-E-A-1008-s5 Komputerowa Symulacja Układów Nazwa modułu. Dynamicznych. Elektrotechnika I stopień Ogólno akademicki. Przedmiot kierunkowy Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu E-E-A-1008-s5 Komputerowa Symulacja Układów Nazwa modułu Dynamicznych Nazwa modułu w języku

Bardziej szczegółowo

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW Maciej Piasecki, Szymon Zyśko Wydziałowy Zakład Informatyki Politechnika Wrocławska Wybrzeże Stanisława Wyspiańskiego

Bardziej szczegółowo

Opis efektów kształcenia dla modułu zajęć

Opis efektów kształcenia dla modułu zajęć Nazwa modułu: Techniki multimedialne Rok akademicki: 2015/2016 Kod: RIA-1-608-s Punkty ECTS: 2 Wydział: Inżynierii Mechanicznej i Robotyki Kierunek: Inżynieria Akustyczna Specjalność: - Poziom studiów:

Bardziej szczegółowo

Teoria sygnałów Signal Theory. Elektrotechnika I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny)

Teoria sygnałów Signal Theory. Elektrotechnika I stopień (I stopień / II stopień) ogólnoakademicki (ogólno akademicki / praktyczny) . KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2012/2013 Teoria sygnałów Signal Theory A. USYTUOWANIE MODUŁU W SYSTEMIE STUDIÓW

Bardziej szczegółowo

Lokalizacja Oprogramowania

Lokalizacja Oprogramowania mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji

Bardziej szczegółowo

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE

INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE Studia podyplomowe dla nauczycieli INFORMATYKA, TECHNOLOGIA INFORMACYJNA ORAZ INFORMATYKA W LOGISTYCE Przedmiot JĘZYKI PROGRAMOWANIA DEFINICJE I PODSTAWOWE POJĘCIA Autor mgr Sławomir Ciernicki 1/7 Aby

Bardziej szczegółowo

Efekty kształcenia dla kierunku studiów INFORMATYKA, Absolwent studiów I stopnia kierunku Informatyka WIEDZA

Efekty kształcenia dla kierunku studiów INFORMATYKA, Absolwent studiów I stopnia kierunku Informatyka WIEDZA Symbol Efekty kształcenia dla kierunku studiów INFORMATYKA, specjalność: 1) Sieciowe systemy informatyczne. 2) Bazy danych Absolwent studiów I stopnia kierunku Informatyka WIEDZA Ma wiedzę z matematyki

Bardziej szczegółowo

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Pomiary w technice studyjnej. TESTY PESQ i PEAQ Pomiary w technice studyjnej TESTY PESQ i PEAQ Wprowadzenie Problem: ocena jakości sygnału dźwiękowego. Metody obiektywne - np. pomiar SNR czy THD+N - nie dają pełnych informacji o jakości sygnału. Ważne

Bardziej szczegółowo

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy Kwantowanie sygnałów analogowych na przykładzie sygnału mowy Treść wykładu: Sygnał mowy i jego właściwości Kwantowanie skalarne: kwantyzator równomierny, nierównomierny, adaptacyjny Zastosowanie w koderze

Bardziej szczegółowo

WSKAŹNIKI ILOŚCIOWE - Punkty ECTS w ramach zajęć: Efekty kształcenia. Wiedza Umiejętności Kompetencje społeczne (symbole) MK_1. Analiza matematyczna

WSKAŹNIKI ILOŚCIOWE - Punkty ECTS w ramach zajęć: Efekty kształcenia. Wiedza Umiejętności Kompetencje społeczne (symbole) MK_1. Analiza matematyczna PROGRAM STUDIÓW I INFORMACJE OGÓLNE 1. Nazwa jednostki prowadzącej kierunek: Wydział Matematyki i Informatyki 2. Nazwa kierunku: Informatyka 3. Oferowane specjalności: 4. Poziom kształcenia: studia pierwszego

Bardziej szczegółowo

Kompresja dźwięku w standardzie MPEG-1

Kompresja dźwięku w standardzie MPEG-1 mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 7, strona 1. Kompresja dźwięku w standardzie MPEG-1 Ogólne założenia kompresji stratnej Zjawisko maskowania psychoakustycznego Schemat blokowy

Bardziej szczegółowo

PROGRAM KSZTAŁCENIA NA STUDIACH III STOPNIA Informatyka (nazwa kierunku)

PROGRAM KSZTAŁCENIA NA STUDIACH III STOPNIA Informatyka (nazwa kierunku) PROGRAM KSZTAŁCENIA NA STUDIACH III STOPNIA Informatyka (nazwa kierunku) 1. OPIS ZAKŁADANYCH EFEKTÓW KSZTAŁCENIA: 1) Tabela odniesień kierunkowych efektów kształcenia (EKK) do obszarowych efektów kształcenia

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

Dźwięk podstawowe wiadomości technik informatyk

Dźwięk podstawowe wiadomości technik informatyk Dźwięk podstawowe wiadomości technik informatyk I. Formaty plików opisz zalety, wady, rodzaj kompresji i twórców 1. Format WAVE. 2. Format MP3. 3. Format WMA. 4. Format MIDI. 5. Format AIFF. 6. Format

Bardziej szczegółowo

Tom 6 Opis oprogramowania

Tom 6 Opis oprogramowania Część 9 Narzędzie do wyliczania wskaźników statystycznych Diagnostyka Stanu Nawierzchni - DSN Generalna Dyrekcja Dróg Krajowych i Autostrad Warszawa, 31 maja 2012 Historia dokumentu Nazwa dokumentu Nazwa

Bardziej szczegółowo

KIERUNKOWE EFEKTY KSZTAŁCENIA

KIERUNKOWE EFEKTY KSZTAŁCENIA WYDZIAŁ INFORMATYKI I ZARZĄDZANIA Kierunek studiów: INFORMATYKA Stopień studiów: STUDIA II STOPNIA Obszar Wiedzy/Kształcenia: OBSZAR NAUK TECHNICZNYCH Obszar nauki: DZIEDZINA NAUK TECHNICZNYCH Dyscyplina

Bardziej szczegółowo

Międzyplatformowy interfejs systemu FOLANessus wykonany przy użyciu biblioteki Qt4

Międzyplatformowy interfejs systemu FOLANessus wykonany przy użyciu biblioteki Qt4 Uniwersytet Mikołaja Kopernika w Toruniu Wydział Matematyki i Informatyki Wydział Fizyki, Astronomii i Informatyki Stosowanej Agnieszka Holka Nr albumu: 187396 Praca magisterska na kierunku Informatyka

Bardziej szczegółowo

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE Nazwa przedmiotu: Kierunek: MECHANIKA I BUDOWA MASZYN Rodzaj przedmiotu: obowiązkowy na kierunku Rodzaj zajęć: wykład, laboratorium ROBOTYKA Robotics Forma studiów: stacjonarne Poziom przedmiotu: I stopnia

Bardziej szczegółowo

Tester oprogramowania 2014/15 Tematy prac dyplomowych

Tester oprogramowania 2014/15 Tematy prac dyplomowych Tester oprogramowania 2014/15 Tematy prac dyplomowych 1. Projekt i wykonanie automatycznych testów funkcjonalnych wg filozofii BDD za pomocą dowolnego narzędzia Jak w praktyce stosować Behaviour Driven

Bardziej szczegółowo

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań TABELA ODNIESIEŃ EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA PROGRAMU KSZTAŁCENIA DO EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA OBSZARU KSZTAŁCENIA I PROFILU STUDIÓW PROGRAM KSZTAŁCENIA: POZIOM KSZTAŁCENIA: PROFIL KSZTAŁCENIA:

Bardziej szczegółowo

IMPLEMENTATION OF THE SPECTRUM ANALYZER ON MICROCONTROLLER WITH ARM7 CORE IMPLEMENTACJA ANALIZATORA WIDMA NA MIKROKONTROLERZE Z RDZENIEM ARM7

IMPLEMENTATION OF THE SPECTRUM ANALYZER ON MICROCONTROLLER WITH ARM7 CORE IMPLEMENTACJA ANALIZATORA WIDMA NA MIKROKONTROLERZE Z RDZENIEM ARM7 Łukasz Deńca V rok Koło Techniki Cyfrowej dr inż. Wojciech Mysiński opiekun naukowy IMPLEMENTATION OF THE SPECTRUM ANALYZER ON MICROCONTROLLER WITH ARM7 CORE IMPLEMENTACJA ANALIZATORA WIDMA NA MIKROKONTROLERZE

Bardziej szczegółowo

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE Nazwa przedmiotu: Kierunek: Informatyka Rodzaj przedmiotu: obowiązkowy w ramach treści kierunkowych, moduł kierunkowy oólny Rodzaj zajęć: wykład, laboratorium I KARTA PRZEDMIOTU CEL PRZEDMIOTU PRZEWODNIK

Bardziej szczegółowo

Programowanie obiektowe

Programowanie obiektowe Laboratorium z przedmiotu - zestaw 03 Cel zajęć. Celem zajęć jest zapoznanie z praktycznymi aspektami projektowania oraz implementacji klas abstrakcyjnych i interfejsów. Wprowadzenie teoretyczne. Rozważana

Bardziej szczegółowo

Maciej Piotr Jankowski

Maciej Piotr Jankowski Reduced Adder Graph Implementacja algorytmu RAG Maciej Piotr Jankowski 2005.12.22 Maciej Piotr Jankowski 1 Plan prezentacji 1. Wstęp 2. Implementacja 3. Usprawnienia optymalizacyjne 3.1. Tablica ekspansji

Bardziej szczegółowo

KARTA KURSU. Systemy operacyjne

KARTA KURSU. Systemy operacyjne KARTA KURSU Nazwa Nazwa w j. ang. Systemy operacyjne Operating systems Kod Punktacja ECTS* 5 Koordynator dr inż. Grzegorz Sokal Zespół dydaktyczny: prof. dr hab. Bartłomiej Pokrzywka dr inż. Muchacki Mateusz

Bardziej szczegółowo

PREZENTACJA MODULACJI AM W PROGRAMIE MATHCAD

PREZENTACJA MODULACJI AM W PROGRAMIE MATHCAD POZNAN UNIVE RSITY OF TE CHNOLOGY ACADE MIC JOURNALS No 80 Electrical Engineering 2014 Jakub PĘKSIŃSKI* Grzegorz MIKOŁAJCZAK* PREZENTACJA MODULACJI W PROGRIE MATHCAD W artykule przedstawiono dydaktyczną

Bardziej szczegółowo

[1] [2] [3] [4] [5] [6] Wiedza

[1] [2] [3] [4] [5] [6] Wiedza 3) Efekty dla studiów drugiego stopnia - profil ogólnoakademicki na kierunku Informatyka w języku angielskim (Computer Science) na specjalności Sztuczna inteligencja (Artificial Intelligence) na Wydziale

Bardziej szczegółowo

Praca dyplomowa. Program do monitorowania i diagnostyki działania sieci CAN. Temat pracy: Temat Gdańsk Autor: Łukasz Olejarz

Praca dyplomowa. Program do monitorowania i diagnostyki działania sieci CAN. Temat pracy: Temat Gdańsk Autor: Łukasz Olejarz Temat Gdańsk 30.06.2006 1 Praca dyplomowa Temat pracy: Program do monitorowania i diagnostyki działania sieci CAN. Autor: Łukasz Olejarz Opiekun: dr inż. M. Porzeziński Recenzent: dr inż. J. Zawalich Gdańsk

Bardziej szczegółowo

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych Dariusz Krala 1 1 Wydział Inżynierii Mechanicznej i Informatyki Kierunek Informatyka, Rok V {dariusz.krala}@gmail.com Streszczenie

Bardziej szczegółowo

Opracowanie dodatkowego rodzaju pytań dla systemu Moodle

Opracowanie dodatkowego rodzaju pytań dla systemu Moodle Uniwersytet Mikołaja Kopernika w Toruniu Wydział Fizyki, Astronomii i Informatyki Stosowanej Rafał Święch Nr albumu: 236418 Praca inżynierska na kierunku Informatyka Stosowana Opracowanie dodatkowego rodzaju

Bardziej szczegółowo

Wymogi stawiane pracom dyplomowym na Wydziale Biznesu, Finansów i Administracji

Wymogi stawiane pracom dyplomowym na Wydziale Biznesu, Finansów i Administracji Wymogi stawiane pracom dyplomowym na Wydziale Biznesu, Finansów i Administracji 1. Wymogi regulaminowe dla prac licencjackich i magisterskich Praca dyplomowa (licencjacka lub magisterska): jest pracą wykonywaną

Bardziej szczegółowo

Systemy multimedialne. Instrukcja 5 Edytor audio Audacity

Systemy multimedialne. Instrukcja 5 Edytor audio Audacity Systemy multimedialne Instrukcja 5 Edytor audio Audacity Do sprawozdania w formacie pdf należy dołączyc pliki dźwiękowe tylko z podpunktu 17. Sprawdzić poprawność podłączenia słuchawek oraz mikrofonu (Start->Programy->Akcesoria->Rozrywka->Rejestrator

Bardziej szczegółowo

6. Algorytmy ochrony przed zagłodzeniem dla systemów Linux i Windows NT.

6. Algorytmy ochrony przed zagłodzeniem dla systemów Linux i Windows NT. WYDZIAŁ: GEOLOGII, GEOFIZYKI I OCHRONY ŚRODOWISKA KIERUNEK STUDIÓW: INFORMATYKA STOSOWANA RODZAJ STUDIÓW: STACJONARNE I STOPNIA ROK AKADEMICKI 2014/2015 WYKAZ PRZEDMIOTÓW EGZAMINACYJNYCH: I. Systemy operacyjne

Bardziej szczegółowo

Spis Treści. Co to jest? Budowa Próbkowanie Synteza FM Synteza WT MIDI

Spis Treści. Co to jest? Budowa Próbkowanie Synteza FM Synteza WT MIDI Karta dźwiękowa Spis Treści Co to jest? Budowa Próbkowanie Synteza FM Synteza WT MIDI Karta dźwiękowa Komputerowa karta rozszerzeń, umożliwiająca rejestrację, przetwarzanie i odtwarzanie dźwięku. Poprawnym

Bardziej szczegółowo

Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy

Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy Systemy i Sieci Telekomunikacyjne laboratorium Modulacja amplitudy 1. Cel ćwiczenia: Celem części podstawowej ćwiczenia jest zbudowanie w środowisku GnuRadio kompletnego, funkcjonalnego odbiornika AM.

Bardziej szczegółowo

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski

Automatyczne rozpoznawanie mowy. Autor: mgr inż. Piotr Bratoszewski Automatyczne rozpoznawanie mowy Autor: mgr inż. Piotr Bratoszewski Rys historyczny 1930-1950 pierwsze systemy Automatycznego rozpoznawania mowy (ang. Automatic Speech Recognition ASR), metody holistyczne;

Bardziej szczegółowo

Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08

Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08 Spis treści Wstęp.............................................................. 7 Część I Podstawy analizy i modelowania systemów 1. Charakterystyka systemów informacyjnych....................... 13 1.1.

Bardziej szczegółowo

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT) 8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT) Ćwiczenie polega na wykonaniu analizy widmowej zadanych sygnałów metodą FFT, a następnie określeniu amplitud i częstotliwości głównych składowych

Bardziej szczegółowo

WYDZIAŁ TRANSPORTU I INFORMATYKI INFORMATYKA I STOPIEŃ PRAKTYCZNY

WYDZIAŁ TRANSPORTU I INFORMATYKI INFORMATYKA I STOPIEŃ PRAKTYCZNY WYDZIAŁ TRANSPORTU I INFORMATYKI Nazwa kierunku Poziom kształcenia Profil kształcenia Symbole efektów kształcenia na kierunku INFORMATYKA I STOPIEŃ PRAKTYCZNY Efekty kształcenia - opis słowny Po ukończeniu

Bardziej szczegółowo

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU

I. KARTA PRZEDMIOTU CEL PRZEDMIOTU I. KARTA PRZEDMIOTU 1. Nazwa przedmiotu: TECHNOLOGIA INFORMACYJNA 2. Kod przedmiotu: Ot 3. Jednostka prowadząca: Wydział Mechaniczno-Elektryczny 4. Kierunek: Automatyka i Robotyka 5. Specjalność: Elektroautomatyka

Bardziej szczegółowo

PRZEWODNIK PO PRZEDMIOCIE

PRZEWODNIK PO PRZEDMIOCIE Nazwa przedmiotu: SYSTEMY KOMUNIKACJI MIĘDZYKOMPUTEROWEJ Kierunek: Mechatronika Rodzaj przedmiotu: obowiązkowy Rodzaj zajęć: wykład, laboratorium I KARTA PRZEDMIOTU CEL PRZEDMIOTU PRZEWODNIK PO PRZEDMIOCIE

Bardziej szczegółowo

Laboratorium Komputerowe Systemy Pomiarowe

Laboratorium Komputerowe Systemy Pomiarowe Jarosław Gliwiński, Łukasz Rogacz Laboratorium Komputerowe Systemy Pomiarowe ćw. Programowanie wielofunkcyjnej karty pomiarowej w VEE Data wykonania: 15.05.08 Data oddania: 29.05.08 Celem ćwiczenia była

Bardziej szczegółowo

Fundamentals of Data Compression

Fundamentals of Data Compression Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2012/2013

Bardziej szczegółowo

DLA SEKTORA INFORMATYCZNEGO W POLSCE

DLA SEKTORA INFORMATYCZNEGO W POLSCE DLA SEKTORA INFORMATYCZNEGO W POLSCE SRK IT obejmuje kompetencje najważniejsze i specyficzne dla samego IT są: programowanie i zarządzanie systemami informatycznymi. Z rozwiązań IT korzysta się w każdej

Bardziej szczegółowo

Sygnał a informacja. Nośnikiem informacji mogą być: liczby, słowa, dźwięki, obrazy, zapachy, prąd itp. czyli różnorakie sygnały.

Sygnał a informacja. Nośnikiem informacji mogą być: liczby, słowa, dźwięki, obrazy, zapachy, prąd itp. czyli różnorakie sygnały. Sygnał a informacja Informacją nazywamy obiekt abstarkcyjny, który może być przechowywany, przesyłany, przetwarzany i wykorzystywany y y y w określonum celu. Zatem informacja to każdy czynnik zmnejszający

Bardziej szczegółowo

<Nazwa firmy> <Nazwa projektu> Specyfikacja dodatkowa. Wersja <1.0>

<Nazwa firmy> <Nazwa projektu> Specyfikacja dodatkowa. Wersja <1.0> Wersja [Uwaga: Niniejszy wzór dostarczony jest w celu użytkowania z Unified Process for EDUcation. Tekst zawarty w nawiasach kwadratowych i napisany błękitną kursywą

Bardziej szczegółowo

IMiR - Inżynieria Akustyczna - opis kierunku 1 / 5

IMiR - Inżynieria Akustyczna - opis kierunku 1 / 5 IMiR Inżynieria Akustyczna opis kierunku 1 / 5 Warunki rekrutacji na studia Wymagania wstępne i dodatkowe: Warunkiem przystąpienia do rekrutacji na studia pierwszego stopnia jest posiadanie świadectwa

Bardziej szczegółowo

zakładane efekty kształcenia

zakładane efekty kształcenia Załącznik nr 1 do uchwały nr 41/2018 Senatu Politechniki Śląskiej z dnia 28 maja 2018 r. Efekty kształcenia dla kierunku: INFORMATYKA WYDZIAŁ AUTOMATYKI, ELEKTRONIKI I INFORMATYKI WYDZIAŁ ELEKTRYCZNY nazwa

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09 RZECZPOSPOLITA POLSKA (12) OPIS PATENTOWY (19) PL (11) 201536 (13) B1 (21) Numer zgłoszenia: 358531 (51) Int.Cl. G10L 21/02 (2006.01) H03G 3/00 (2006.01) Urząd Patentowy Rzeczypospolitej Polskiej (22)

Bardziej szczegółowo

przedmiot kierunkowy (podstawowy / kierunkowy / inny HES) obieralny (obowiązkowy / nieobowiązkowy) polski semestr VI

przedmiot kierunkowy (podstawowy / kierunkowy / inny HES) obieralny (obowiązkowy / nieobowiązkowy) polski semestr VI Załącznik nr 7 do Zarządzenia Rektora nr 10/12 z dnia 21 lutego 2012r. KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Obowiązuje od roku akademickiego 2018/2019

Bardziej szczegółowo

Parametryzacja przetworników analogowocyfrowych

Parametryzacja przetworników analogowocyfrowych Parametryzacja przetworników analogowocyfrowych wersja: 05.2015 1. Cel ćwiczenia Celem ćwiczenia jest zaprezentowanie istoty działania przetworników analogowo-cyfrowych (ADC analog-to-digital converter),

Bardziej szczegółowo

I. ZASADY PRZEPROWADZANIA EGZAMINÓW DYPLOMOWYCH NA KIERUNKU: KOMPOZYCJA I TEORIA MUZYKI / specjalność: TEORIA MUZYKI

I. ZASADY PRZEPROWADZANIA EGZAMINÓW DYPLOMOWYCH NA KIERUNKU: KOMPOZYCJA I TEORIA MUZYKI / specjalność: TEORIA MUZYKI Załącznik nr 1 do Uchwały nr 82/2015 Rady Wydziału Twórczości, Interpretacji i Edukacji Muzycznej Akademii Muzycznej w Krakowie Zasady przeprowadzania egzaminów dyplomowych na kierunkach Kompozycja i teoria

Bardziej szczegółowo