System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych

Podobne dokumenty
Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

ROZPOZNAWANIE GRANIC SŁOWA W SYSTEMIE AUTOMATYCZNEGO ROZPOZNAWANIA IZOLOWANYCH SŁÓW

Teoria przetwarzania A/C i C/A.

PL B1. Sposób i układ pomiaru całkowitego współczynnika odkształcenia THD sygnałów elektrycznych w systemach zasilających

Laboratorium EAM. Instrukcja obsługi programu Dopp Meter ver. 1.0

Politechnika Świętokrzyska. Laboratorium. Cyfrowe przetwarzanie sygnałów. Ćwiczenie 6. Transformata cosinusowa. Krótkookresowa transformata Fouriera.

Zastosowanie Informatyki w Medycynie

2. STRUKTURA RADIOFONICZNYCH SYGNAŁÓW CYFROWYCH

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

Komputerowe przetwarzanie sygnału mowy

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Podstawy Przetwarzania Sygnałów

Algorytmy detekcji częstotliwości podstawowej

INSTRUKCJA OBSŁUGI NVR 2708 NVR 2716

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09

9. Dyskretna transformata Fouriera algorytm FFT

2.2 Opis części programowej

FFT i dyskretny splot. Aplikacje w DSP

AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I

Kompresja dźwięku w standardzie MPEG-1

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.

Egzamin / zaliczenie na ocenę*

Omówienie różnych metod rozpoznawania mowy

1. Opis. 2. Wymagania sprzętowe:

Parametryzacja przetworników analogowocyfrowych

Rozpoznawanie obrazów na przykładzie rozpoznawania twarzy

Instrukcja użytkownika ARSoft-WZ1

Widmo akustyczne radia DAB i FM, porównanie okien czasowych Leszek Gorzelnik

Cechy karty dzwiękowej

O sygnałach cyfrowych

PRZEWODNIK PO PRZEDMIOCIE

Dane obrazowe. R. Robert Gajewski omklnx.il.pw.edu.pl/~rgajewski

PARAMETRYZACJA SYGNAŁU MOWY. PERCEPTUALNE SKALE CZĘSTOTLIWOŚCI.

IMPLEMENTATION OF THE SPECTRUM ANALYZER ON MICROCONTROLLER WITH ARM7 CORE IMPLEMENTACJA ANALIZATORA WIDMA NA MIKROKONTROLERZE Z RDZENIEM ARM7

Szybka transformacja Fouriera

dr inż. Jacek Naruniec

Ćwiczenie 3. Właściwości przekształcenia Fouriera

Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej

Wykrywacz kłamstw. Grzegorz Puzio, Łukasz Ulanicki 15 czerwca 2008

Programowanie Układów Logicznych kod kursu: ETD6203. Szczegóły realizacji projektu indywidualnego W dr inż.

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI)

CYFROWE PRZTWARZANIE SYGNAŁÓW (Zastosowanie transformacji Fouriera)

Mechatronika i inteligentne systemy produkcyjne. Modelowanie systemów mechatronicznych Platformy przetwarzania danych

POLITECHNIKA OPOLSKA

Rozdział ten zawiera informacje na temat zarządzania Modułem DMX oraz jego konfiguracji.

Kontrola topto. 1. Informacje ogólne. 2. Wymagania sprzętowe i programowe aplikacji. 3. Przykładowa instalacja topto. 4. Komunikacja.

Sprawdzian wiadomości z jednostki szkoleniowej M3.JM1.JS3 Użytkowanie kart dźwiękowych, głośników i mikrofonów

1 Moduł Konwertera. 1.1 Konfigurowanie Modułu Konwertera

Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG

7. Szybka transformata Fouriera fft

Systemy multimedialne. Instrukcja 5 Edytor audio Audacity

Obługa czujników do robota śledzącego linie. Michał Wendland czerwca 2011

Aby nie uszkodzić głowicy dźwiękowej, nie wolno stosować amplitudy większej niż 2000 mv.

Przetworniki cyfrowo analogowe oraz analogowo - cyfrowe

KARTA MODUŁU KSZTAŁCENIA

Badanie widma fali akustycznej

Laboratorium Komputerowe Systemy Pomiarowe

Architektura komputerów. Układy wejścia-wyjścia komputera

BIBLIOTEKA PROGRAMU R - BIOPS. Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat

Przekształcenia sygnałów losowych w układach

Skrócona instrukcja obsługi rejestratorów marki

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Konwersja dźwięku analogowego do postaci cyfrowej

Compact Open Remote Nao

Transformata Fouriera

WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI KARTA PRZEDMIOTU

Przedmowa Wykaz oznaczeń Wykaz skrótów 1. Sygnały i ich parametry Pojęcia podstawowe Klasyfikacja sygnałów

Sprawozdanie z laboratoriów HTK!

Architektura Systemów Komputerowych. Transmisja szeregowa danych Standardy magistral szeregowych

Politechnika Krakowska im. Tadeusza Kościuszki. Karta przedmiotu. obowiązuje studentów rozpoczynających studia w roku akademickim 2014/2015

Instrukcja konfiguracji programu TV Wall do zarządzania dekoderami IN-IP-5904-MP, IN-IP-5904

Sieci neuronowe - projekt

3. Przetwarzanie analogowo-cyfrowe i cyfrowo-analogowe... 43

f = 2 śr MODULACJE

Ćwiczenie 4: Próbkowanie sygnałów

Symfonia Mała Księgowość 2013 Specyfikacja zmian

Metoda weryfikacji mówcy na podstawie nieuzgodnionej wypowiedzi

INSTRUKCJA OBSŁUGI PROGRAMU INSTAR 1.0

DYSKRETNE PRZEKSZTAŁCENIE FOURIERA C.D.

Instrukcja konfiguracji dekodera strumienia IP H.264 na sygnał: Video (BNC), VGA, YPbPr, HDMI typ. IN-IP-5904, IN-IP-5904-MP

Technika analogowa. Problematyka ćwiczenia: Temat ćwiczenia:

INSTRUKCJA OBSŁUGI OPROGRAMOWANIA VMS. Spis treści Instalacja Instrukcje użytkowania i obsługi... 3

Cyfrowe Przetwarzanie Obrazów i Sygnałów

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Instrukcja wejścia na konsultacje on-line

Wydział Elektryczny Katedra Telekomunikacji i Aparatury Elektronicznej

Demodulator FM. o~ ~ I I I I I~ V

Interfejs PC INSTRUKCJA OBSŁUGI. Nr produktu Strona 1 z 8

Teoria informacji i kodowania Ćwiczenia Sem. zimowy 2016/2017

RZECZPOSPOLITA (12) OPIS PATENTOWY (19) PL (11)

Zadania semestralne. Programowanie obiektowe sem. II, lato 2014/2015

Dodawanie kamer w rejestratorach z PoE

LABORATORIUM Sygnałów, Modulacji i Systemów ĆWICZENIE 2: Modulacje analogowe

PL B1. Układ do lokalizacji elektroakustycznych przetworników pomiarowych w przestrzeni pomieszczenia, zwłaszcza mikrofonów

Wykrywanie twarzy na zdjęciach przy pomocy kaskad

Transformata Fouriera. Sylwia Kołoda Magdalena Pacek Krzysztof Kolago

Transkrypt:

System do sterowania ruchem kamery przemysłowej za pomocą komend głosowych Dariusz Krala 1 1 Wydział Inżynierii Mechanicznej i Informatyki Kierunek Informatyka, Rok V {dariusz.krala}@gmail.com Streszczenie System do sterowania kamerą przemysłową za pomocą komend głosowych (system CamDar) to aplikacja napisana w oparciu o bibliotekę Qt. Umożliwia przechwytywanie obrazu analogowego z kamery i wyświetlanie go w oknie aplikacji. Obraz analogowy z kamery jest zamieniany na postać cyfrową przy użyciu tunera wideo podłączonego do komputera za pomocą interfejsu USB 2.0. Kamerą aplikacja steruje z komputera poprzez port szeregowy RS-232. Kamera posiada głowicę, która ma możliwość zmiany ostrości obrazu, powiększenia oraz jasności. Możliwe jest również sterowanie głowicą kamery w płaszczyźnie poziomej oraz pionowej. Aplikacja umożliwia sterowanie kamerą zarówno ręcznie przy użyciu myszki i panelu sterowania dostępnego w oknie programu, jak również poprzez wypowiadanie poleceń głosowych, które aplikacja potrafi rozpoznawać. Komendy wypowiadane są do mikrofonu podłączonego do karty dźwiękowej komputera. Program przechwytuje wypowiadaną komendę, następnie poddaje ją skomplikowanemu procesowi obróbki, którego celem jest dokonanie parametryzacji wypowiedzianej komendy i określenie jej znaczenia. 1 Wstęp System CamDar to aplikacja okienkowa działająca pod kontrolą systemu Windows na komputerze klasy PC. Umożliwia sterowanie kamerą przemysłową oraz przechwytywanie z niej obrazu. Sterowanie kamerą możliwe jest przy pomocy przycisków znajdujących się w oknie aplikacji lub głosowo wypowiadając komendy do mikrofonu. Schemat blokowy systemu przedstawiono na rys.1. 2 Komunikacja z kamera przemysłowa Użyta kamera wykorzystuje do komunikacji z urządzeniem sterującym protokół PELCO. Kamera obsługuje dwie wersje tego protokołu: P [6] oraz D [5]. W systemie zaimplementowano obsługę każdej z wymienionych wyżej wersji. Kamera automatycznie rozpoznaje wersję użytego protokołu bez potrzeby dodatkowego konfigurowania jej. Program komunikuje się z kamerą poprzez port szeregowy RS-232 z zastosowaniem konwertera RS-232C RS-485. 1

Rys. 1: Elementy wchodzące w skład systemu CamDar. 3 Przechwytywanie obrazu Zastosowana w systemie CamDar kamera przemysłowa dostarcza obraz w postaci analogowej. W systemie CamDar odczyt obrazu z kamery PTZ zrealizowano poprzez zastosowanie karty przechwytującej obraz w postaci analogowej. Obraz transmitowany jest z kamery do karty wideo poprzez kabel kompozytowy. Karta przeprowadza digitalizację obrazu i wysyła go do komputera poprzez interfejs USB 2.0. Od strony programowej do przechwytywania obrazu z konwertera zastosowano bibliotekę OpenCV[3]. Jest to biblioteka funkcji wykorzystywanych podczas obróbki obrazu, oparta o otwarty kod. Jest wieloplatformowa, można z niej korzystać w Mac OS X, Windows jak i Linux. W systemie skorzystano z biblioteki w wersji 2.0. 4 Przechwytywanie dźwięku W systemie CamDar dźwięk pobierany jest z monofonicznego mikrofonu za pośrednictwem karty dźwiękowej. Dane są przechwytywane z domyślnego urządzenia rejestrującego w systemie. Odczyt danych audio z urządzenia rejestrującego w aplikacji zrealizowano za pomocą funkcji API systemu Windows. Dane dźwiękowe trafiają do programu w formacie MONO PCM, a więc w postaci 1-kanałowego nieskompresowanego ciągu próbek dźwiękowych. 5 Proces obróbki dźwięku Celem procesu obróbki dźwięku jest przetworzenie danych wejściowych, jakimi są kolejne próbki dźwięku zapisane z określoną rozdzielczością zależną od urządzenia rejestrującego i pobierane w równomiernych odstępach czasu, na ciąg parametrów możliwy do zinterpretowania i porównania z innymi parametrami, pochodzącymi z innych nagrań. Po zakończeniu tego procesu nagranie dźwiękowe podzielone jest na stacjonarne ramki równej długości, a każda ramka sygnału dźwiękowego opisywana jest przez 20 współczynników MFCC (ang. Mel Frequency Cepstral Coefficients). 2

Rys. 2: Schemat blokowy ilustrujący kolejne kroki obróbki próbek dźwiękowych. Normalizacja Normalizacja jest to proces polegający na sprowadzeniu parametrów dźwięku do odpowiednich stałych wartości. Parametrem takim może być np. maksymalna amplituda sygnału dźwiękowego. (a) (b) Rys. 3: Wykres amplitudowo czasowy komendy lewo: (a) przed normalizacją; (b) po normalizacji. Separacja Proces separacji polega na podzieleniu całego nagrania dźwiękowego na równe części zwane stacjonarnymi ramkami. Rys. 4: Schemat podziału nagrania na stacjonarne ramki. Rysunek 4 przedstawia zbiór wszystkich próbek dźwiękowych jakie zostały zarejestrowane w określonym czasie i znormalizowane. Po procesie separacji dane dźwiękowe zostały podzielone na równe ramki o określonym czasie trwania. Ramki te zachodzą 3

na siebie przez okres czasu określony przez parametr przesunięcia. Na rysunku jest to zaznaczone obszarem zakreskowanym. Jeżeli obszar danych nie da się podzielić równo pomiędzy wszystkie ramki, a na końcu zostaje pewna ilość próbek dźwięku o liczbie nie wystarczającej do utworzenia kolejnej ramki, to te próbki są porzucane. Na rysunku próbki porzucone są zaznaczone obszarem zakropkowanym. Izolacja Celem procesu izolacji jest wydzielenie sygnału użytecznego (w tym przypadku jest to wypowiadana komenda) z pozostałego sygnału, który nie niesie żadnej użytecznej informacji. (a) (b) Rys. 5: Wykres amplitudowo czasowy komendy lewo: (a) przed izolacją wraz z szumem otoczenia na początku i na końcu nagrania; (b) po izolacji. Okienkowanie Ponieważ sygnał dźwiękowy jest na tym etapie podzielony na ramki powstaje niebezpieczeństwo zakłócenia właściwych parametrów sygnału. Każda ramka powoduje powstawanie nieciągłości przetwarzanego sygnału, prowadząc do powstawania niepotrzebnych wysokich częstotliwości w widmie sygnału. W celu wygładzenia nieciągłości i usunięcia z widma fałszywych prążków zastosowano dla wydzielonych ramek zawężające okna tłumiące skrajne próbki. Dodatkową zaletą stosowania procesu okienkowania jest redukcja przecieku DFT. Proces okienkowania polega na przemnożeniu wartości próbek dźwiękowych zawartych w pojedynczej ramce przez wartości okna czasowego. (a) (b) (c) Rys. 6: Wykres: (a) Spróbkowanego sygnału X(t); (b) okna trójkątnego; (c) sygnału po nałożeniu trójkątnego okna czasowego [7]. Obliczanie DFT Celem tego procesu jest obliczenie widma amplitudowo częstotliwościowego sygnału zawartego w pojedynczej ramce. W tym celu zastosowano szybką transformatę Fouriera 4

(ang. Fast Fourier Transform, FFT). FFT to szybka odmiana algorytmu obliczania DFT czyli dyskretnego przekształcenia Fouriera (ang. Discrete Fourier Transform - DFT). W aplikacji, aby zrealizować obliczanie DFT skorzystano z biblioteki FFTW [4]. Biblioteka FFTW została napisana w języku C i przeznaczona jest do obliczania DFT w tablicach o jednym lub większej liczbie wymiarów. Tworzenie współczynników widma mocy Bazując na skali mel tworzony jest bank filtrów, dokonujący nieliniowej analizy częstotliwościowej sygnału, analogicznej do realizowanej przez ludzkie ucho. Filtry są równomiernie rozłożone w częstotliwościowej skali mel i mają prostokątne charakterystyki. W pracy zastosowano bank nakładających się filtrów o szerokości pasma dwa razy większego od przesunięcia względem siebie filtrów w skali mel. Rys. 7: Charakterystyki banku 19 filtrów o szerokości 300meli przesuniętych względem siebie o 150meli. Bank filtrów dla każdej ramki tworzy się na podstawie widma amplitudowego (lub mocy) obliczonego za pomocą DFT. Następnie wyznacza się oddzielnie dla każdego filtru z banku sumy współczynników widma amplitudowego (lub mocy) ważonych odpowiadającymi im wartościami charakterystyk amplitudowych filtru prostokątnego. Otrzymane sumy ważone nazywane są parametrami banku filtrów. S(k) = N 1 P(n)A(k,n), dla k = 0,1,2,...,K 1 (1) n=0 gdzie: S(k) współczynniki widma mocy; P(n) wartości DFT; A(k, n) amplituda filtra; N całkowita liczba próbek w ramce DFT; K - liczba filtrów w banku [1]. Tworzenie współczynników cepstrum Parametry banku filtrów są w dużym stopniu powiązane ze sobą powodując pogorszenie skuteczności rozpoznawania, nawet jeśli się założy niezależność parametrów w wektorze obserwacji. Poprawienie jakości rozpoznawania można uzyskać poprzez zastosowanie przekształcenia cepstralnego parametrów banku filtrów, polegającego na wyznaczeniu współczynników cepstralnych w skali mel MFCC jako dyskretnych przekształceń kosinusowych logarytmów parametrów banku filtrów według zależności [1]: MFCC(n) = K 1 [ log(s(k)) cos n(k 0.5) k=0 π K + 1 ], dla n = 0,1,2,...,N (2) gdzie: S(k) współczynniki widma mocy; K liczba filtrów w banku filtrów, N liczba wymaganych współczynników cepstrum [1]. 5

W pracy przyjęto liczbę wymaganych współczynników cepstrum N równą 20. Dodatkową zaletą współczynników MFCC jest uniezależnienie sygnału mowy od wpływu kanału transmisji. 6 Proces tworzenia ksiażki kodowej W procesie analizy sygnału audio w pierwszym kroku należy przygotować książkę kodową, odzwierciedlającą przestrzeń akustyczną danego użytkownika. Proces tworzenia książki kodowej wykonuje się za każdym razem, gdy do systemu CamDar dodawany jest nowy użytkownik. Książka kodowa jest niezbędnym mechanizmem przy ekstrakcji wymaganych charakterystyk sygnału audio i tworzeniu wektorów obserwacji. Rys. 8: Schemat blokowy procesu tworzenia książki kodowej. W procesie tworzenia książki kodowej, analizie cepstralnej należy poddać nagranie zawierające zbiór wypowiedzi danego użytkownika, dobrany co do ilości i rodzaju słów w ten sposób, aby w całości pokryć przestrzeń akustyczną dla tego użytkownika. Zbiór taki powinien zawierać słowa obejmujące wszystkie fonemy języka polskiego wchodzące w skład przyjętego zagadnienia systemu. W przypadku sterowania systemem odpowiednimi komendami, można utworzyć zbiór wypowiedzi złożonych z wszystkich komend, jednak jeśli jest to tylko wykonalne, można ograniczyć ten zbiór pomijając komendy, których poszczególne fonemy występują już w innych, wziętych do zbioru komendach [1]. Podczas tworzenia książki kodowej podawany jest zestaw słów, które proces traktuje jako jedną wypowiedź. Nie stosuje się tutaj wydzielania właściwych słów, poprzez usunięcie ciszy, gdyż również dla ciszy przydzielany jest pewien symbol książki kodowej. Następnie podany zestaw słów poddawany jest procesowi obróbki dźwięku. W systemie CamDar wszystkie poszczególne wypowiadane słowa są kodowane przy pomocy 37 symboli (20-wymiarowych wektorów) kodowych, odpowiadających liczbie fonemów języka polskiego. Wektory kodowe z książki reprezentują te wektory, które otrzymuje się z danych źródłowych. Każdemu wektorowi kodowemu przypisany jest liczbowy indeks. Zbiór współczynników cepstrum wyznaczonych dla wszystkich ramek sygnału wejściowego tworzącego książkę kodową podlega podziałowi na przyjętą liczbę obszarów. Podział ten w systemie CamDar dokonuje się wykorzystując algorytm k-means. Każde- 6

mu wyróżnionemu obszarowi przypisana zostaje wartość symbolu z ograniczonego przyjętą liczbą obszarów zbioru symboli. W ten sposób wszystkie zakodowane przy pomocy współczynników cepstrum ramki zostają sklasyfikowane do jednego z wydzielonych obszarów zwanych klastrami. Klaster jest obszarem zawierającym elementy o podobnych cechach fonetycznych. Dla każdego klastra wyznaczany jest środek ciężkości (ang. Centroid) będący elementem leżącym pośrodku w grupie elementów tworzących klaster. 7 Proces uczenia Proces uczenia polega na zakodowaniu każdej ramki sygnału zawierającego komendę uczącą opisywaną przez 20 współczynników MFCC przy pomocy symboli książki kodowej. Symbole książki kodowej są to numery kolejnych środków ciężkości zawartych w książce. Takie kodowanie to tzw. kwantyzacja wektorowa, gdzie zbiór wektorów współczynników cepstrum zostaje zamieniony na ciąg symboli, w pracy nazwany wektorem obserwacji. Tworzenie wektora obserwacji dla każdej ramki polega na obliczeniu odle- Rys. 9: Schemat blokowy procesu uczenia. głości wektora współczynników cepstrum, od każdego z obszarów wydzielonych w książce kodowej. Symbol obszaru, dla którego ta odległość jest najmniejsza zostaje przypisany badanej ramce. W pracy do rozpoznawania mowy wykorzystano modele UMM (Ukryte Modele Markowa), w których podstawą rozpoznawania są jednostki fonetyczne, dla których tworzone są oddzielne modele akustyczne. Do tworzenia i zarządzania modelami UMM wykorzystano bibliotekę Voice_HMM [2]. W systemie rozpoznawania słów zastosowano dla każdego słowa oddzielny model UMM. Wszystkie modele w systemie są tych samych rozmiarów. Liczba modeli odpowiada liczbie słów zawartych w słowniku systemu. W systemie CamDar każdy użytkownik posiada własny zbiór modeli UMM. 8 Proces rozpoznawania polecenia W procesie rozpoznawania cały przebieg budowy wektorów obserwacji komend głosowych jest taki sam, jak w procesie uczenia. W tym przypadku jednak na wejście podawane są wektory obserwacji tylko jednej wypowiedzi, bez jej powtórzeń. Rozpoznawane słowo reprezentowane przez wektor obserwacji porównywane jest z wszystkimi modelami UMM w systemie przyporządkowanych danemu użytkownikowi. Największe prawdopodobieństwo określa model, który był uczony na danych najbardziej zbliżonych do rozpoznawanego słowa. Jeśli na wejście poda się słowo, dla którego 7

Rys. 10: Schemat blokowy procesu rozpoznawania komendy głosowej. system nie został nauczony, wówczas wynikiem rozpoznania będzie słowo o podobnym brzmieniu, na którym system był uczony. Jest to jednak błędne rozpoznanie. W tym celu wprowadzono wartość progową określającą, kiedy prawdopodobieństwo wygenerowania sekwencji obserwacji można uznać za właściwe. Próg prawdopodobieństwa określa wartość jaką musi przekroczyć wartość bezwzględna różnicy prawdopodobieństw obliczana między dwoma najbardziej prawdopodobnymi modelami dla rozpoznawanej komendy. Jeśli warunek progu zostanie spełniony to na podstawie zapisanego w bazie danych znaczenia zwycięskiego modelu UMM podejmowanie jest określone działanie systemu. 9 Podsumowanie System CamDar jest w pełni działający oraz skuteczny. Polecenia są w większości przypadków rozpoznawane poprawnie przy zastosowaniu różnych ustawień systemu wpływających na jakość rejestrowanego dźwięku oraz na proces jego obróbki. System poprawnie współpracuje z zastosowaną kamerą oraz z urządzeniem digitalizującym obraz z niej przechwytywany. Cały system można z pewnością uznać za sprawny i nadający się do użytkowania. Literatura [1] dr inż. Mariusz Kubanek. Metoda rozpoznawania audio-wideo mowy polskiej w oparciu o ukryte modele Markowa. Częstochowa, 2005. [2] Adam Mikuta. Analiza metod stochastycznego modelowania ciagów czasowych w oparciu o komponent VOICE_HMM. Częstochowa, 2008. [3] http://opencv.willowgarage.com/wiki [4] http://www.fftw.org/index.html [5] http://www.commfront.com/rs232_examples/cctv/- Pelco_D_Pelco_P_Examples_Tutorial.HTM#3 [6] http://www.commfront.com/rs232_examples/cctv/- Pelco_D_Pelco_P_Examples_Tutorial2.HTM#6 [7] dict.comm.pl/wst_g/okna%20czasowe.doc 8