POLITECHNIKA WARSZAWSKA ROZPRAWA DOKTORSKA

Wielkość: px
Rozpocząć pokaz od strony:

Download "POLITECHNIKA WARSZAWSKA ROZPRAWA DOKTORSKA"

Transkrypt

1 POLITECHNIKA WARSZAWSKA Wydział Elektroniki i Technik Informacyjnych ROZPRAWA DOKTORSKA mgr Aneta Świercz Model filtrów słuchowych a deskryptory MPEG-7 w rozpoznawaniu dźwięku Promotor prof. nzw. dr hab. inż. Jan Żera Warszawa, 2013

2

3 Podziękowania Pragnę z serca podziękować wszystkim osobom, które w jakikolwiek sposób przyczyniły się do powstania tej rozprawy. Dzięki ich zaangażowaniu i otwartości na drugiego człowieka praca ta w ogóle mogła powstać. Dziękuję promotorowi prof. nzw. dr hab. inż. Janowi Żera za jego zaangażowanie, poświęcony czas, pomysły z dziedziny psychoakustyki, cenne, merytoryczne uwagi, duże wsparcie w pisaniu pracy i wszelką inną pomoc, która przyczyniła się do powstania tej rozprawy. Prof. dr hab. inż. Władysławowi Skarbkowi dziękuję za zachętę do podjęcia studiów doktoranckich i opiekę merytoryczną w pierwszej fazie ich trwania. Dziękuję rektorowi prof. dr hab. inż. Władysławowi Wieczorkowi za cierpliwość, wyrozumiałość, wypożyczanie specjalistycznego sprzętu i zapewnianie dogodnego miejsca w akademiku. Dziękuję rektorowi prof. nzw. dr hab. inż. Andrzejowi Jakubiakowi za zakup i wypożyczanie specjalistycznego sprzętu, zapewnianie dogodnego miejsca w akademiku, wsparcie stypendialne, umiejętność zauważania problemów i natychmiastowe ich rozwiązywanie. Dziękuję prof. nzw. dr hab. inż. Andrzejowi Kraśniewskiemu za pomoc w rozwiązywaniu kwestii formalnych związanych ze studiami doktoranckimi oraz pani dyrektor Biblioteki Głównej PW Jolancie Stępniak za wypożyczanie drukarki brajlowskiej. Koleżankom i kolegom z Zakładu Elektroakustyki, zwłaszcza dr Marcinowi Lewandowskiemu, chciałam bardzo podziękować za życzliwość, za to, że zawsze mogłam liczyć na ich pomoc, służenie okiem i wsparcie techniczne. Szczególną wdzięczność pragnę wyrazić przyjaciołom, znajomym i wszystkim innym ludziom dobrej woli, którzy poświęcali mi swój czas, hojnie dzielili się swoją wiedzą i umiejętnościami, pomagali dotrzeć do niedostępnej dla mnie informacji i wspierali na wszelkie inne sposoby zwłaszcza na ostatnim etapie powstawania pracy doktorskiej. Bardzo dziękuję osobom, które wzięły udział w nagraniach niezbędnych do przeprowadzenia badań. Chciałam także serdecznie podziękować ks. Marcinowi Żurkowi, każdemu z karmelitów bosych posługujących w Warszawie od 2009 r., dominikanom, szczególnie o. Mirosławowi Pilśniakowi i o. Łukaszowi Kubiakowi, za wsparcie w pogłębianiu osobistej relacji z Bogiem - źródłem, z którego czerpałam siły do pokonywania kolejnych trudności. Wszystkim wspierajacym mnie osobom, duchownym i świeckim, z serca dziękuję za każde dobre słowo, a zwłaszcza za modlitwę. Dziękuję także fundacjom i instytucjom, z których finansowego wsparcia korzystałam podczas studiów doktoranckich i pisania rozprawy doktorskiej: Narodowemu Centrum Nauki (grant promotorski nr NN ), Fundacji Wspierania Rozwoju Radiokomunikacji i Technik Multimedialnych, Fundacji Mieczysława Króla, Towarzystwu Opieki nad Ociemniałymi (Działowi ds. Absolwentów) oraz Państwowemu Funduszowi Rehabilitacji Osób Niepełnosprawnych.

4

5 Streszczenie Badania opisane w rozprawie podjęto w celu ustalenia, czy zastosowanie modelu filtracji dźwięku występującej w układzie słuchowym może poprawić jakość opisu oraz rozpoznawania dźwięku z zastosowaniem deskryptorów MPEG-7 audio wysokiego poziomu. Jako model filtrów słuchowych zastosowano filtry gammatone. Oceny dokonano poprzez porównanie aplikacji, w której zastosowano filtry gammatone i aplikacji wykorzystującej oryginalny deskryptor MPEG-7 AudioSpectrumEnvelope, który analizuje dźwięk z użyciem krótkoterminowej transformaty Fouriera (STFT). Testy przeprowadzono na dźwiękach instrumentów muzycznych i mowy. Stwierdzono, że zastosowanie filtrów gammatone w miejsce STFT w deskryptorze niskiego poziomu prowadzi do lepszego rozpoznawania dźwięku z wykorzystaniem narzędzi wysokiego poziomu MPEG-7 audio. Uzyskany wynik jest istotny z uwagi na to, że obecnie stosowane deskryptory MPEG-7 audio nie odnoszą się bezpośrednio do filtracji dźwięku w układzie słuchowym. Abstract The research project described in the dissertation was undertaken to determine whether the application of a model of signal processing occurring in the auditory system can improve the quality of sound description and recognition with the use of MPEG-7 audio high-level descriptors. The model of auditory filters comprised a bank of gammatone filters. The assessment was made by comparing an application employing gammatone filters with an application using the original MPEG-7 AudioSpectrumEnvelope descriptor, which analyzes sound using short-term Fourier transform (STFT). The tests were run on the sounds of musical instruments and speech. It was found that the use of the gammatone filters in place of STFT in the low-level descriptor produces better sound recognition with the use of MPEG-7 audio high-level tools. The result is significant due to the fact that the currently used MPEG-7 audio descriptors do not make use of filters corresponding to filtering in the human auditory system. 5

6

7 Spis treści 1. Wprowadzenie Norma MPEG-7 w zakresie dźwięku Deskryptory audio MPEG Deskryptory audio MPEG-7 niskiego poziomu Narzędzia MPEG-7 audio wysokiego poziomu Deskryptory audio MPEG-7 wykorzystane w badaniach Deskryptory audio MPEG-7 niskiego poziomu Narzędzia wysokiego poziomu MPEG-7 audio Modelowanie filtrów słuchowych z zastosowaniem filtru gammatone Pasmowość słuchu Zjawiska wskazujące na pasmowe właściwości słuchu Filtr Roex(p, r) jako model filtru słuchowego Filtry gammatone i gammachirp Przegląd prac z zakresu rozpoznawania dźwięku oraz zastosowania filtru gammatone Zastosowania deskryptorów MPEG-7 audio Rozpoznawanie dźwięku Zastosowania filtrów gammatone Teza i zakres pracy Zakres zrealizowanych prac numerycznych rozpoznawania dźwięku Deskryptor AudioSpectrumEnvelopeGT Aplikacja GT i aplikacja MP Badania z użyciem dźwięków instrumentów muzycznych Materiał eksperymentalny i sposób przeprowadzenia badań Materiał eksperymentalny Podział na zbiory uczące i testujące Sposób symulacji Rozpoznawanie dźwięków dziewięciu instrumentów muzycznych Rozpoznawanie dźwięków w podgrupach instrumentów Podział na rodziny instrumentów Podział instrumentów ze względu na zakres wysokościowy skali Wpływ zmniejszania liczebności zbiorów uczących

8 7.5. Rozpoznawanie dźwięków instrumentów przy użyciu zbiorów uczących i testujących pochodzących z różnych źródeł nagrań Podsumowanie rozdziału Badania z użyciem dźwięków mowy Materiał eksperymentalny i sposób przeprowadzenia badań Materiał eksperymentalny Podział na zbiory uczące i testujące Sposób symulacji Rozpoznawanie głosów dwunastu mówców Rozpoznawanie głosów w podgrupach sześciu mówców Rozpoznawanie głosów sześciu mówców przy podziale na głosy żeńskie i głosy męskie Rozpoznawanie sześciu mówców przy głosach mieszanych Wpływ zmniejszania liczebności zbiorów uczących Rozpoznawanie głosów żeńskich i męskich Podsumowanie rozdziału Badania z jednoczesnym użyciem dźwięków instrumentów muzycznych i dźwięków mowy Materiał eksperymentalny i sposób przeprowadzenia badań Rozpoznawanie dźwięków instrumentów muzycznych i głosów mówców Podsumowanie rozdziału Wnioski Bibliografia

9 1. Wprowadzenie Postęp techniki w urządzeniach i oprogramowaniu spowodował, że w dzisiejszych czasach mamy do czynienia z powodzią informacji. Jest to informacja multimedialna, tj. przekazywana poprzez obraz, film, dźwięk i tekst. Dostępność urządzeń elektronicznych spowodowała, że każdy człowiek wytwarza dużo informacji cyfrowej, np. przy użyciu kamery czy aparatu fotograficznego. Internet umożliwia powszechny dostęp do informacji. Jednakże, by móc korzystać z informacji multimedialnej, konieczne jest zarządzanie nią. Informacja, której nie można znaleźć, w jakimś sensie nie istnieje. Opanowanie obecnej powodzi informacyjnej wymaga efektywnych narzędzi: tworzenia opisów, indeksowania, wyszukiwania, kompresji danych czy metadanych [109]. W celu rozwiązania wyżej wspomnianych problemów została stworzona grupa robocza International Electrotechnic Commettee (IEC) pod nazwą Moving Picture Experts Group (MPEG), która pracuje od roku 1988 [78, 86, 109]. MPEG opracowuje normy dotyczące m.in. kompresji i transmisji danych oraz ich opisu. Normy MPEG-1, MPEG-2 i MPEG-4 [86] standardyzują wyłącznie audiowizualną zawartość multimediów, natomiast norma MPEG-7 [51, 78, 86] pozwala na nawigowanie po ich zawartości. Celem opisu zawartości multimediów znanego pod nazwą MPEG-7, który jest przedmiotem normy ISO/IEC [51, 78, 86], jest określenie sposobu opisu różnych typów informacji zawartej w multimediach, ułatwienie szybkiej i efektywnej identyfikacji interesującej i istotnej informacji, a także efektywne zarządzanie nią. Ujednolicenie zasad opisu obiektów audio i wideo pozwala na integrację różnych systemów i aplikacji korzystających z takiej informacji, np. multimedialnych baz danych oraz aplikacji do wyszukiwania lub obróbki materiałów audio i wideo. Norma MPEG-7 opisuje informację zawartą w obiektach multimedialnych, zarówno obrazu jak i dźwięku, poprzez opisanie ich cech. W normie tej definiuje się opis i opisuje cechy intuicyjnie rozumiane jako cechy tych obiektów, takie jak kolor, kształt, wysokość dźwięku czy jego barwa, a także cechy oparte na wielkościach statystycznych. Do zapisania informacji przypisanej do konkretnej cechy obiektu stosowane są deskryptory. W celu zapewnienia kompatybilności opisu cech obiektów przez różne aplikacje lub formaty, stworzony został język definiowania deskryptorów description definition language (DDL). Normę MPEG-7 stosują takie firmy, jak Sony, Toshiba czy IBM [51]. Posiadanie opisu cech obiektów umożliwia analizę obiektów na podstawie ich cech, a nie całych obiektów, co przyspiesza proces analizy związanej np. z wyszukiwaniem obiektów. Jest to związane z tym, że algorytmy mają mniej danych do zanalizowania. 9

10 Ponadto, wyszukiwanie obiektów ze względu na ich cechy, a nie na podstawie zawartej w nich informacji tekstowej, otwiera nowe możliwości wyszukiwania informacji. Umiejętność wyodrębniania cech przez wyszukiwarki otwiera nową przestrzeń docierania do informacji, czego przykładem jest wyszukiwanie obiektów dźwiękowych na podstawie zarejestrowanego dźwięku. Opisywanie obiektów poprzez ich cechy, a nie poprzez metadane tekstowe, takie jak tagi, jest bardziej obiektywne. Opisy tekstowe tworzone są bowiem przez człowieka, a więc mają cechy wynikające z jego subiektywnych decyzji. Co więcej, opis obiektu na podstawie obliczeniowego charakteryzowania jego cechy może być tworzony automatycznie, natomiast do utworzenia wspomnianego opisu tekstowego wciąż potrzebny jest udział człowieka. W licznych pracach badawczych prowadzonych w minionych dziesięcioleciach w odniesieniu do percepcji dźwięku stosuje się zaawansowane modele analizy widmowo-czasowej występującej w układzie słuchowym. Możliwość opracowania tych modeli wynikała z coraz doskonalszej wiedzy o działaniu układu słuchowego, a zwłaszcza ze szczegółowego poznania właściwości słuchu jako analizatora widma działającego w czasie rzeczywistym. Znane są szerokości pasm częstotliwościowych występujących w procesie słyszenia oraz stałe uśredniania czasowego. W modelowaniu stosuje się więc reprezentacje filtrów słuchowych w postaci filtrów, takich jak Roex, gammatone i gammachirp [44, 48, 49, 97, 98]. Modele te umożliwiają numeryczną symulację analizy pasmowej dokonywanej przez układ słuchowy i na jej użycie w różnych zastosowaniach [62, 95, 97]. Ważnym etapem indeksowania dźwięku jest wyodrębnienie na podstawie analizy sygnału fonicznego cech utworu muzycznego lub innej produkcji dźwiękowej pozwalających na identyfikację obiektu dźwiękowego. Deskryptory audio standardu MPEG-7 stanowią obecnie jedną z podstawowych propozycji indeksowania i rozpoznawania dźwięku. Deskryptory te w analizie statystycznej dźwięku w żadnym stopniu nie odnoszą się do filtracji dźwięku zachodzacej w układzie słuchowym. W pracy proponuje się rozszerzenie grupy deskryptorów zgodnych ze standardem MPEG-7 o deskryptor obliczany na podstawie procedur, które realizują psychoakustyczny model analizy widmowej odpowiadający analizie widmowej dźwięku, która występuje w układzie słuchowym. Celem pracy jest stwierdzenie, czy rozszerzenie grupy deskryptorów MPEG-7 o deskryptor uwzględniający przetwarzanie sygnału odpowiadające modelowi przetwarzania dźwięku w układzie słuchowym poprawi jakość ekstrakcji cech istotnych dla rozpoznawania dźwięku, a co za tym idzie jego rozpoznawanie. W tym celu został zaimplementowany deskryptor kompatybilny ze standardem MPEG-7, lecz opisujący dźwięk za pomocą informacji uzyskanej poprzez analizę z użyciem filtrów gammatone. Przeprowadzono testy mające na celu porównanie skuteczności zastosowania nowego deskryptora w miejsce dotychczas stosowanego deskryptora w rozpoznawaniu dźwięku z wykorzystaniem deskryptorów wysokiego poziomu MPEG-7. Testy przeprowadzono na dźwiękach instrumentów muzycznych i dźwiękach mowy. Rozprawa składa się z dziesięciu rozdziałów. Deskryptory MPEG-7 audio zostały opi- 10

11 sane w rozdziale 2. Rozdział 3 zawiera podstawowe informacje o filtrach słuchowych. W rozdziale 4 przeprowadzono przegląd literatury. Tezę i zakres pracy przedstawiono w rozdziale 5. Nowy deskryptor oparty na filtrach pasmowych gammatone i aplikacje stosowane przy przeprowadzeniu testów opisano w rozdziale 6. W kolejnych rozdziałach 7, 8 i 9 omówiono wyniki przeprowadzonych badań. W rozdziale 10 przedstawiono wnioski pozwalające na ustosunkowanie się do tezy pracy. 11

12 2. Norma MPEG-7 w zakresie dźwięku 2.1. Deskryptory audio MPEG-7 Norma MPEG-7 zawiera odrębną część opisującą obiekty dźwiękowe MPEG-7 audio ISO/IEC [51]. Norma ta odnosi się do wszelkich form informacji dźwiękowej: muzyki, mowy, efektów dźwiękowych, ścieżek dźwiękowych filmów itp., niezależnie od form kodowania czy zapisu tej informacji. MPEG-7 audio zawiera opis cech obiektów dźwiękowych [51, 78]. Opis każdej cechy obiektu dźwiękowego zapisany jest w deskryptorze. Deskryptory MPEG-7 audio dzielą się na deskryptory niskiego poziomu (low-level descriptors LLD), zawierające opis cech obiektów dźwiękowych, oraz na narzędzia wysokiego poziomu (high-level tools HLT) stworzone na potrzeby aplikacji. Deskryptory niskiego poziomu są bardziej uniwersalne. Mogą być wykorzystywane przez narzędzia wysokiego poziomu MPEG-7 audio, ale również przez inne części systemu MPEG-7, a także przez różne aplikacje. Narzędzia wysokiego poziomu mają węższy charakter. Są przeznaczone dla aplikacji realizujących konkretne zastosowania, np. wyszukujących informację czy rozpoznających mowę. Narzędzia wysokiego poziomu wykorzystują wyniki obliczeń deskryptorów niskiego poziomu Deskryptory audio MPEG-7 niskiego poziomu Deskryptory niskiego poziomu MPEG-7 audio (LLD) [51,78] obejmują zbiór procedur obliczania pewnych wielkości statystycznych na podstawie sygnału fonicznego. Są one obliczane dla segmentu sygnału lub dla ramki okna czasowego, zazwyczaj o długości 10 ms lub 30 ms. Zdefiniowanych jest 17 deskryptorów LLD opisujących dźwięk zarówno w dziedzinie czasu jak i częstotliwości. W dziedzinie czasu opisują one kształt i moc sygnału w każdej ramce. Deskryptory opisujące dźwięk w dziedzinie częstotliwośći można podzielić na te, które bazują wyłącznie na analizie widma, odnoszą się do częstotliwości podstawowej f 0 lub opisują barwę dźwięku. Odrębna grupa deskryptorów LLD jest przeznaczona do zapamiętywania informacji o ciszy w sygnale. Deskryptory niskiego poziomu odnoszące sie do czasu opisują sygnał dźwiękowy poprzez: obwiednię jego przebiegu czasowego (wartości międzyszczytowe) AudioWaveForm, energię moc chwilową wygładzoną w czasie (wartości kwadratowe próbek przebiegu czasowego) AudioPower. 12

13 Deskryptory opisujące dzwięk w dziedzinie czasu są obliczane dla ramki o długości 10 ms, gdyż wartość ta mieści się w przedziale szacowanych rozdzielczości czasowych słuchu (od 8 do 13 ms [51]). Umożliwiają one oszczędną reprezentację dźwięku. Pierwszy z nich pozwala na oszczędną wizualizację przebiegu czasowego dźwięku, co może być wykorzystane przy edytowaniu dźwięku w sieci czy do szybkiego porównywania przebiegów czasowych. Bez względu na liczbę próbek przebieg czasowy może być wizualizowany z użyciem małego zestawu wartości, które reprezentują ekstrema (minimum i maksimum) próbek w ramkach. Drugi z deskryptorów zawiera moc chwilową (energię), która jest użyteczną miarą amplitudy sygnału jako funkcji czasu P (t) = s(t) 2. Umożliwia on oszczędną reprezentację widma mocy sygnału dzięki temu, że moc chwilowa jest spójna z widmem mocy. W zestawieniu z deskryptorami opisującymi dźwięk w dziedzinie częstotliwości deskryptor ten umożliwia oszczędną reprezentację widma mocy jednocześnie w dziedzinie czasu i częstotliwości. W tym celu wartości deskryptora AudioPower należy przekonwertować do skali decybelowej. W dziedzinie częstotliwości deskryptory audio MPEG-7 niskiego poziomu pochodzące z analizy czasowo-częstotliwościowej sygnału dźwiękowego opisują obiekt dźwiękowy poprzez: widmo dźwięku w logarytmicznej skali częstotliwości AudioSpectrumEnvelope, środek ciężkości (centroid) widma mocy o logarytmicznej skali częstotliwości AudioSpectrumCentroid, rozproszenie widma mocy o logarytmicznej skali częstotliwości (drugi moment widma mocy) AudioSpectrumSpread, spłaszczenie widma sygnału dźwiękowego w określonych pasmach częstotliwości w skali logarytmicznej (średnia geometryczna przez średnią arytmetyczną) AudioSpectrumFlatness, funkcje bazowe (stosowane do rzutowania metadanych widmowych o dużej wymiarowości na reprezentacje o małej wymiarowości) AudioSpectrumBasis, reprezentację cech widma o małej liczbie wymiarów po zrzutowaniu na bazę o zredukowanym wymiarze AudioSpectrumProjection. Deskryptory z tej grupy oparte są na obliczaniu wielkości odnoszących się do ogólnego opisu dźwięku i jego cech szumowych. Są one obliczane dla ramki o długości 30 ms. Ramki są przesuwane o 10 ms. Długość okna 30 ms dobrana jest tak, aby pozwolić na analizę sygnału dźwiękowego o najniższej rozpatrywanej częstotliwości 62,5 Hz. Norma zakłada, że analizowany jest sygnał w przedziale od 62,5 Hz do 16 khz. Deskryptory te mogą być zastosowane do wizualizacji spektrogramu, do wyszukiwania i porównywania (AudioSpectrumEnvelope), do opisu kształtu mocy (AudioSpectrumCentroid, AudioSpectrumSpread, AudiospectrumFlatness), do automatycznej klasyfikacji i wyszukiwania czy do sporządzania wyciągu ze spektrogramu (AudiospectrumBasis i AudioSpectrumProjection). Wszystkie te deskryptory opisują obiekt dźwiękowy w logaryt- 13

14 micznej skali częstotliwości. Zdecydowano się na logarytmiczną skalę częstotliwości, żeby uzyskać zwięzłą reprezentację zawartości częstotliwościowej, jak również dlatego, że skala taka w przybliżeniu odzwierciedla logarytmiczną odpowiedź ludzkiego ucha. Deskryptor AudioSpectrumEnvelope jest wyjściowym deskryptorem dla tej grupy deskryptorów. Wszystkie one obliczają dodatkowe wartości (cechy) na podstawie współczynników widma krótkoterminowej transformaty Fouriera (short-term Fourier transform STFT) z logarytmiczną osią częstotliwości zapamiętanych w tym deskryptorze. Centroid widma wskazuje, czy widmo mocy jest zdominowane przez niskie czy wysokie częstotliwości oraz, dodatkowo, jest skorelowany z podstawowym percepcyjnym wymiarem barwy dźwięku, tzn. z ostrością. Rozproszenie widma wskazuje, czy jest ono skoncentrowane w pobliżu jego centroidu, czy też rozproszone w pełnym zakresie częstotliwości. Pozwala na rozróżnienie dźwięków tonowych od szumowych. Płaskość widma natomiast wyraża odchylenie widma mocy sygnału od kształtu płaskiego, co w dziedzinie częstotliwości odpowiada sygnałowi typu szumowego albo impulsowego. Duże odchylenie od kształtu płaskiego może oznaczać obecność komponentów tonalnych. Wartości zapamiętane w tym deskryptorze są wykorzystywane przez narzędzia wysokiego poziomu MPEG-7 audio związane z podpisem audio. Ostatnie dwa deskryptory z tej grupy AudioSpectrumBasis i AudioSpectrumProjection zawierają zwięzłą reprezentację najistotniejszej informacji statystycznej odnoszącej się do widma analizowanych segmentów dźwiękowych. Te dwa typy są stosowane zawsze razem. Reprezentację tę uzyskuje się poprzez redukcję wymiarów widma częstotliwościowego za pomocą SVD (Singular Value Decomposition). Redukowane jest widmo otrzymywane przy obliczaniu wcześniej opisanego deskryptora AudioSpectrumEnvelope. Informacje zapisane w tych deskryptorach są wykorzystywane przez narzędzia wysokiego poziomu MPEG-7 audio przeznaczone do ogólnego rozpoznawania i indeksowania dźwięku. Deskryptory opisujące harmoniczność dźwięku opisują ją poprzez: częstotliwość podstawową AudioFundamentalFrequency, stopień harmoniczności AudioHarmonicity. Deskryptory te opisują harmoniczną strukturę dźwięku. Są one obliczane dla okien czasowych o długości 30 ms, przesuwanych o 10 ms. Cechy te są uzupełniające w stosunku do metadanych, takich jak AudioSpectrumEnvelope, przy obliczaniu których informacja o harmoniczności sygnału jest utracona. Częstotliwość podstawowa stanowi dobrą predykcję muzycznej wysokości tonu i intonacji mowy. Jest więc ważną metadaną sygnału dźwiękowego. Nie jest ona przeznaczona do opisu melodii, ale mimo to możliwe jest wykonywanie porównań pomiędzy danymi opisanymi za pomocą deskryptorów melodii i danymi opisanymi za pomocą częstotliwości podstawowej. Miara harmoniczności pozwala na rozróżnienie dźwięków, które mają widmo harmoniczne (dźwięki muzyczne, mowa dźwięczna itp.) i tych, które mają widmo nieharmoniczne (instrumenty perkusyjne, zmieszanie wielu instrumentów itp.). Deskryptor AudioHarmonicity zawiera dwie miary: HarmonicRatio i UpperLimitOfHarmonicity. Pierwsza z nich opisuje stosunek mocy składowych harmo- 14

15 nicznych do mocy całkowitej sygnału, zaś druga określa częstotliwość, powyżej której widmo nie może być uważane za harmoniczne. Kolejna grupa deskryptorów audio MPEG-7 deskryptory barwy dźwięku opisują dźwięk poprzez: czas narastania (logarytm dziesiętny czasu trwania od chwili pojawienia się sygnału do chwili osiągnięcia przez niego wartości ustalonej) LogAttackTime, czas uśredniony po obwiedni energii TemporalCentroid, średnią częstotliwość przedziałów w widmie mocy ważoną mocą SpectralCentroid, centroid składowych harmonicznych (amplitudowo ważona średnia (skala liniowa) z częstotliwości składowych harmonicznych) HarmonicSpectralCentroid, odchylenie widmowych składowych logarytmicznych amplitudy od obwiedni globalnej HarmonicSpectralDeviation, odchylenie standardowe składowych harmonicznych ważone amplitudowo, normalizowane za pomocą wartości HarmonicSpectralCentroid HarmonicSpectralSpread, znormalizowaną korelację pomiędzy amplitudami składowych harmonicznych dwóch przyległych ramek HarmonicSpectralVariation. Deskryptory z tej grupy są obliczane dla segmentów dźwiękowych, np. odpowiadających pojedynczym nutom. W przypadku czterech ostatnich: HarmonicSpectralCentroid, HarmonicSpectralDeviation, HarmonicSpectralSpread i HarmonicSpectralVariation wartości dla segmentów dźwiękowych są średnimi z wartości tych deskryptorów obliczanych dla ramek czasowych o długości 30 ms przemnożonych przez okno Hamminga i przesuwanych o 10 ms. Dwa pierwsze deskryptory z tej grupy: LogAttackTime i Temporal- Centroid opisują dźwięk w dziedzinie czasu. Pozostałe deskryptory z opisujących barwę dźwięku opisują dźwięk w dziedzinie częstotliwości. W odróżnieniu od wcześniejszej grupy odnoszącej się do częstotliwości, deskryptory barwy opisują dźwięk w liniowej, a nie logarytmicznej skali częstotliwości. Wyjątek stanowi deskryptor HarmonicSpectralDeviation, który obliczany jest w logarytmicznej skali częstotliwości. Deskryptory z tej grupy są wykorzystywane przez narzędzia wysokiego poziomu opisujące barwę dźwięku. Ostatnią grupę deskryptorów MPEG-7 audio niskiego poziomu stanowią deskryptory opisujące ciszę. Cisza jest rozumiana jako cecha oznaczająca, że w segmencie nie występuje żaden znaczący dźwięk. Podstawową informacją zawartą w tych deskryptorach jest czas rozpoczęcia i czas trwania ciszy w segmencie. Metadane te zapamiętują minimalny próg czasowy decydujący, czy wycinek sygnału jest traktowany jako segment ciszy oraz współczynnik wskazujący, czy dany segment zawiera ciszę. Informacja o ciszy w danym materiale dźwiękowym ma znaczenie semantyczne, np. cisza w filmie zazwyczaj oznacza, że za chwilę wydarzy się coś ważnego. Deskryptory z tej grupy umożliwiają bezpośredni dostęp do semantycznych zdarzeń materiału dźwiękowego. Deskryptory ciszy są również przydatne do segmentacji materiału dźwiękowego na mniejsze części, dając dostęp do jego fizycznej struktury, np. na fragmenty rozdzielone ciszą. Mogą być też używane przez narzę- 15

16 dzia segmentacji do wstawiania komentarzy i wyszukiwania, np. segmentacji wiadomości czy oprogramowania do wstawiania podpisów Narzędzia MPEG-7 audio wysokiego poziomu Narzędzia wysokiego poziomu MPEG-7 audio (HLT) [51,78] przeznaczone są do wspierania konkretnych zastosowań. Wykorzystują one informacje zapamiętane w deskryptorach niskiego poziomu LLD. Norma MPEG-7 zawiera pięć grup narzędzi wysokiego poziomu. Są to narzędzia służące do: automatycznej identyfikacji sygnałów dźwiękowych Audio Signature, opisywania percepcyjnych cech dźwięków instrumentów muzycznych Timbre, automatycznego rozpoznawania i indeksowania dźwięku General Sound Recognition and Indexing, reprezentacji danych uzyskiwanych na wyjściu ASR (Automatic Speech Recognition) Spoken Content, reprezentacji melodii monofonicznej Melody. Deskryptor sygnatury dźwięku (Audio Signature) zawiera zwięzłą reprezentację sygnału dźwiękowego. Reprezentacja ta wykorzystywana jest do uzyskania unikatowego identyfikatora zawartości dźwięku, który może być stosowany do skutecznej automatycznej identyfikacji sygnałów dźwiękowych. Deskryptor ten obliczany jest na podstawie informacji zawartej w deskryptorach LLD AudioSpectrumFlatness. Deskryptory barwy dźwięku (Timbre) opisują percepcyjne cechy dźwięków instrumentów muzycznych, takie jak ich narastanie, żywość czy głębokość. Barwa dźwięku jest powszechnie definiowana w literaturze jako zbiór cech percepcyjnych, które są powodem różnego brzmienia dwóch dźwięków o takiej samej wysokości i głośności. Celem schematu metadanych barwy dźwięku jest opisanie tych cech percepcyjnych z użyciem ograniczonego zestawu deskryptorów. Deskryptory barwy dzwięku do obliczeń wykorzystują deskryptory niskiego poziomu (LLD) opisujące barwę dźwięku (rozdz ). Deskryptory barwy dźwięku wysokiego poziomu mogą być wykorzystane przez: narzędzia autorskie przeznaczone dla projektantów dźwięku i muzyków (zarządzanie bazą danych próbek muzycznych), narzędzia wyszukiwania dla producentów ( zapytanie poprzez przykład na podstawie cech percepcyjnych). Kolejna grupa General Sound Recognition and Indexing wspiera aplikacje automatycznego rozpoznawania i indeksowania dźwięków. Narzędzia te mogą być stosowane zarówno do klasyfikacji dźwięków dla klas o szerszym zakresie, takich jak: efekty dźwiękowe, muzyka, mowa, jak również do klafyfikacji dźwięków do klas o węższym zakresie, np. gatunków muzycznych. Narzędzia te do klasyfikacji wykorzystują ukryte modele Markova (HMM hidden Markov model). Są one obliczane na podstawie informacji zawartej w deskryptorach LLD: AudioSpectrumBasis i AudioSpectrumProjection. 16

17 Deskryptory treści wypowiadanej (Spoken Content) są reprezentacją danych uzyskiwanych na wyjściu systemów rozpoznawania mowy (ASR). Zawierają one dane zdekodowane przez system rozpoznawania mowy, a także informacje o systemie rozpoznawania mowy i rozpoznawanych osobach. Deskryptory te mogą być wykorzystane w procesach wyszukiwania: indeksowaniu i wyszukiwaniu w strumieniu dźwiękowym oraz indeksowaniu obiektów multimedialnych z komentarzami mówionymi. Przykładowe zastosowania uwzględniają: Przywoływanie danych dźwiękowych/wideo na podstawie zapamiętanych zdarzeń mowy. Przykładem może być film lub nagranie wideo, w którym postać lub osoba wypowiada określone słowo lub sekwencję słów. Dokument źródłowy jest znany, a wynikiem wyszukiwania jest pozycja w tym dokumencie. Wyszukiwanie dokumentów zawierających mowę. W tym przypadku, istnieje baza danych składająca się z oddzielnych dokumentów mówionych. Wynikiem wyszukiwania są odpowiednie dokumenty oraz, opcjonalnie, pozycja dopasowanej mowy w tych dokumentach. Wyszukiwanie dokumentów multimedialnych z komentarzami mówionymi. Jest to podobne do wyszukiwania dokumentów zawierających mowę, ale część mówiona tych dokumentów zwykle bywa dosyć krótka (kilka sekund). Wynikiem wyszukiwania jest dokument zawierający przypisany komentarz mówiony, a nie sama mowa. Przykładem może być fotografia wyszukana z wykorzystaniem komentarza mówionego. Deskryptory melodii (Melody) stanowią bogatą reprezentację melodii monofonicznych. Dają one możliwość efektywnego i wydajnego dopasowania podobieństwa melodii. Grupa tych deskryptorów zawiera narzędzia służące do zwięzłej i efektywnej reprezentacji konturów melodii oraz narzędzia do obszernej, kompletnej reprezentacji melodii. Obydwa narzędzia pozwalają na dopasowywanie melodii oraz dostarczają informacji dotyczącej melodii, która może być wykorzystywana w procesie wyszukiwania. Pierwsze narzędzie (MelodyContour) opisuje melodie w bardzo uproszczony sposób poprzez różnice między sąsiednimi nutami. Różnice te są określane w skali pięciostopniowej. Dostarcza ono informacji także o innych cechach melodii, takich jak rytm, ale w formie bardzo uproszczonej. Może być ono stosowane np. przez aplikacje zapytanie przez nucenie. Drugie narzędzie (MelodySequence) natomiast opisuje melodie w sposób dużo bardziej precyzyjny, zapamiętuje wysokości i czasy trwania nut. Poziom szczegółowości informacji zapamiętanej o melodii jest porównywalny z tym, który można odczytać z jej zapisu nutowego. Oprócz informacji o melodii może ono dostarczać również informacji o związanym z nią tekście. Narzędzie to, w odróżnieniu od pierwszego umożliwia zrekonstruowanie linii melodycznej i tekstu utworu muzycznego. W deskryptorach tej grupy zapamiętana jest również bardzo szczegółowa informacja dotycząca percepcyjnych cech melodii, takich jak: nastrój (wesoła, smutna), rodzaj nagrania (studio, sala koncertowa), energia (spokojna, dynamiczna). 17

18 2.2. Deskryptory audio MPEG-7 wykorzystane w badaniach W badaniach wykorzystane zostały deskryptory mające zastosowanie w rozpoznawaniu i indeksowaniu dźwięku. W procesie rozpoznawania dźwięku zgodnym ze standardem MPEG-7 [51,78] wykorzystywane są deskryptory niskiego poziomu: AudioSpectrumEnvelope, AudioSpectrumBasis i AudioSpectrumProjection, oraz wysokiego poziomu z grupy do ogólnego rozpoznawania i indeksowania dźwięku: SoundModel, SoundClassification- Model, SoundModelStatePath i SoundModelStateHistogram. W rozdziale tym znajduje się dokładniejszy opis wyżej wymienionych deskryptorów z wyjątkiem deskryptora SoundModelStateHistogram, gdyż ten nie był wykorzystany w badaniach Deskryptory audio MPEG-7 niskiego poziomu Wszystkie trzy opisane poniżej deskryptory niskiego poziomu audio MPEG-7 Audio- SpectrumEnvelope, AudioSpectrumBasis i AudioSpectrumProjection [51, 78] są metadanymi widma dźwięku. Pochodzą one z czasowo-częstotliwościowej analizy sygnału dźwiękowego. Są obliczane na podstawie krótkoterminowej transformaty Fouriera (rozdz ). Mają one wspólne atrybuty zapamiętane w deskryptorze AudioSpectrumAttributeGrp: loedge dolna częstotliwość krawędzi pasm rozłożonych logarytmicznie, hiedge górna częstotliwość krawędzi pasm rozłożonych logarytmicznie, Resolution rozdzielczość częstotliwości widma przedstawionego w skali logarytmicznej (liczba współczynników na każde pasmo widma (oktawę) pomiędzy loedge i hiedge). Parametry loedge i hiedge określają zakres częstotliwości, w jakim opisywany jest sygnał dźwiękowy. Parametr Resolution decyduje o dokładności spectogramu poprzez określenie liczby współczynników na pasmo oktawę. Przyjmuje on wartości od 1 oktawy do 8 oktaw. Przykładowo Resolution = 1 oznacza, że każda oktawa opisywana jest 16 4 przez 4 współczynniki. Atrybuty te przyjmują domyślnie następujące wartości: loedge = 62,5 Hz 8 oktaw poniżej hiedge, hiedge = Hz przyjęta w normie MPEG-7 jako najwyższa częstotliwość słyszalna przez człowieka, Resolution = 1 tzn. 1 współczynnik na oktawę. Pierwszy z trzech deskryptorów audio MPEG-7 niskiego poziomu wykorzystanych w badaniach AudioSpectrumEnvelope opisuje widmo dźwięku za pomocą współczynników krótkookresowego widma Fouriera (STFT) w logarytmicznej skali częstotliwości. Deskryptor ten opisuje krótkoterminowe widmo mocy na podstawie przebiegu czasowego dźwięku. Jest on obliczany dla ramki czasowej 30 ms. Ramki są przesuwane o 10 ms. W deskryptorze, dla każdego okna czasowego, zapamiętane jest widmo składające się z jednego współczynnika reprezentującego moc pomiędzy 0 Hz a loedge, ciągu współczynników reprezentujących moc w pasmach o szerokości określonej przez Resolution pomiędzy 18

19 loedge a hiedge oraz współczynnika reprezentującego moc powyżej hiedge. Jeśli HiEdge jest równe połowie częstotliwości Nyquista, to współczynnik opisujący sygnał w przedziale powyżej HiEdge jest równy 0. W efekcie deskryptor ten opisuje dźwięk poprzez listę współczynników charakteryzujących dźwięk w poszczególnych przedziałach czasowych i częstotliwościowych, a dokładniej poprzez serię wektorów charakteryzujących przedziały częstotliwościowe w przedziałach czasowych. W deskryptorze zapamiętana jest macierz B F, gdzie B jest liczbą pasm, a F liczbą ramek czasowych analizowanego dźwięku. Przykładowo, jeśli loedge=62,5 Hz, hiedge=16000 Hz, Resolution = 1, to każda ramka sygnału reprezentowana jest przez 34 współczynniki: 1 poniżej 62,5 Hz, 1 4 powyżej Hz i po 4 w każdej z 8 oktaw. W celu obliczenia AudioSpectrumEnvelope należy przeprowadzić następujące operacje: 1. Wyznaczyć długość kroku h; zazwyczaj 10 ms. 2. Ustalić długość okna lw; powinna być ona 3 razy dłuższa od kroku zazwyczaj wynosi 30 ms. 3. Wyznaczyć długość STFT nf f t; najmniejsza potęga dwójki większa od liczby próbek sygnału w oknie o długości lw. 4. Obliczyć STFT w każdym oknie, stosując okna Hamminga długości lw, okna przesuwane są o krok h. 5. W każdej ramce czasowej częstotliwość dzielona jest na przedziały zgodnie z zadaną rozdzielczością. W każdym przedziale częstotliwościowym obliczana jest średnia moc widma P w zgodnie ze wzorem: P w = gdzie X w (k) jest widmem sygnału. nfft 1 1 lw NF F T X w (k) 2, 6. Przepróbkować do skali logarytmicznej. Niech DF będzie odstępem częstotliwości dla STFT (DF = sr/nf F T ). Współczynnik STFT oddalony o więcej niż DF/2 od krawędzi pasma jest przypisany temu pasmu. Współczynnik oddalony o mniej niż DF/2 od krawędzi pasma jest proporcjonalnie dzielony pomiędzy pasmami.. Deskryptory AudioSpectrumBasis i AudioSpectrumProjection służą do zwięzłej reprezentacji widma (rozdz ). Bardziej zwięzłą reprezentację widma można uzyskać poprzez zmniejszenie liczby współczynników opisujących widmo w każdej ramce sygnału poprzez odpowiedni dobór parametru Resolution co opisano powyżej. Taka redukcja widma wiąże się jednak z utratą istotnej informacji charakteryzującej dźwięk. Zatem norma MPEG-7 audio proponuje redukcję wymiaru całej macierzy reprezentującej obiekt dźwiękowy, zapamiętanej w deskryptorze AudioSpectrumEnvelope, algorytmem SVD (singular value decomposition). Ta metoda powoduje usunięcie z macierzy informacji nieistotnej statystycznie. W efekcie otrzymuje się zredukowaną informację o widmie sygnału z mniejszą k=0 19

20 utratą istotnej informacji niż przy redukcji wspólczynników opisujących widmo. Rezultat tej redukcji zapamiętany jest w deskryptorach AudioSpectrumBasis i AudioSpectrum- Projection. Pierwszy z nich zapamiętuje funkcje bazowe, zaś drugi macierz, którą należy pomnożyć przez funkcje bazowe, żeby odtworzyć pierwotną macierz reprezentującą obiekt dźwiękowy, czyli jego deskryptor AudioSpectrumEnvelope. Deskryptor AudioSpectrumBasis zawiera funkcje bazowe, które są stosowane do rzutowania metadanych widmowych o dużej wymiarowości na reprezentacje o małej wymiarowości. Funkcje te zapamiętane są jako macierz B K, gdzie B jest długością widma, a K jest liczbą funkcji bazowych. W deskryptorze tym przechowywana jest także informacja o parametrach widmowych wektorów bazowych zapamiętanych w deskryptorze AudioSpectrumAttrGroup. Deskryptor AudioSpectrumProjection stanowi uzupełnienie deskryptora AudioSpectrumBasis i jest stosowany do reprezentacji cech widma o małej liczbie wymiarów po zrzutowaniu na bazę o zredukowanym wymiarze. W deskryptorze tym zapamiętana jest reprezentacja widma o małej liczbie wymiarów, wykorzystująca rzutowanie na widmowe funkcje bazowe jako macierz F K + 1, gdzie F jest liczbą ramek czasowych, a K jest liczbą funkcji bazowych. W celu obliczenia AudioSpectrumBasis i AudioSpectrumProjection należy: 1. Obliczyć deskryptor AudioSpectrumEnvelope zgodnie z opisem podanym powyżej. Deskryptor AudioSpectrumEnvelope zawiera F wektorów x t o długości B, gdzie: F liczba ramek czasowych, B liczba współczynników opisujących widmo sygnału w ramce. 2. Unormować skalę logarytmiczną: Przekształcić wektory widmowe x t opisujące kolejne ramki czasowe w deskryptorze AudioSpectrumEnvelope do skali decybelowej: κ = 10 log 10 (x t ) i dla uzyskanego wektora obliczyć normę l 2 : r = B κ k2. Nowy wektor widmowy unormowany jednostkowo jest wyrażony jako: k=1 tildemathbfx = κ r. 3. Obliczyć macierz obserwacji: umieścić każdą znormalizowaną ramkę widmową x w wierszu macierzy X. Rozmiar uzyskanej macierzy wynosi F B, gdzie F jest liczbą ramek czasowych, a B jest liczbą współczynników opisujących przedziały częstotliwości. Macierz będzie miała następującą strukturę: 20

21 T x 1 T x X = 2... x T F. 4. Wyznaczyć bazę z użyciem dekompozycji na wartości singularne (SVD). Po przekształceniach macierzy X zapamiętanej w deskryptorze AudioSpectrumEnvelope wyznaczyć wektory bazowe za pomocą algorytmu SVD X = USV T, gdzie X jest faktoryzowana na wynik mnożenia trzech macierzy; bazy wierszowej U, diagonalnej macierzy wartości singularnych S i transponowanej macierzy kolumnowych funkcji bazowych V. Należy zredukować widmową (kolumnową) bazę, zachowując tylko pierwsze k funkcji bazowych, tzn. pierwsze k kolumn V : V K = [v 1, v 2,, v k ]. Tak więc macierz V jest wymiaru B K, gdzie B jest liczbą przedziałów częstotliwości, a K liczbą wektorów bazowych. W przypadku zastosowania do klasyfikacji dźwięku i agregacji widma, za k przyjmuje się zazwyczaj od 3 do 10 funkcji bazowych. Funkcje bazowe są przechowywane w deskryptorze AudioSpectrumBasis. 5. Obliczyć deskryptor AudioSpectrumProjection: posiadając wektory bazowe, możemy informację o wektorach x t zapisać w bardziej skompresowany sposób: y t = [r t, x T t v 1, x T t v 2,, x T t v k ]. Macierz Y, której wierszami są wektory y t jest wymiaru F K, gdzie: F liczba ramek czasowych, K liczba wektorów bazowych. Macierz ta zapamiętywana jest w deskryptorze AudioSpectrumProjection. Redukcja wymiarowości widma odgrywa znaczącą rolę w zastosowaniu automatycznej klasyfikacji z powodu zwięzłej reprezentacji najistotniejszej informacji statystycznej odnośnie segmentów dźwiękowych. Jak wiadomo, cechy te są przydatne w automatycznej klasyfikacji i wyszukiwaniu, dlatego też metadane AudioSpectrumBasis i AudioSpectrum- Projection są stosowane w narzędziach klasyfikacji i indeksowania dźwięku do automatycznej klasyfikacji segmentów dźwiękowych z zastosowaniem modeli probabilistycznych. 21

22 Narzędzia wysokiego poziomu MPEG-7 audio W badaniach zostały wykorzystane narzędzia wysokiego poziomu do ogólnego rozpoznawania i indeksowania dźwięku [51, 78]. Narzędzia te wspierają aplikacje ogólnej klasyfikacji i indeksowania treści, np.: automatyczną klasyfikację i segmentację dźwięku na klasy o szerokim zakresie, takie jak mowa, muzyka, odgłosy tła, albo na klasy o węższym zakresie, takie jak gatunki muzyczne. W standardzie MPEG-7 do rozpoznawania dźwięku stosowane są ukryte modele Markowa (HMM) [66]. Modele te z powodzeniem wykorzystywane są w różnorodnych algorytmach wyszukujących informację. Wymagają one skondensowanej reprezentacji cech zjawiska, dla którego są budowane wynika to z dużej złożoności obliczeniowej tych modeli. W procesie rozpoznawania zgodnym z normą MPEG-7 ukryte modele Markova uczone są na zredukowanej informacji o dźwiękach zapamiętanej w macierzach AudioSpectrumProjection (rozdz ). Do opisywanej w tym rozdziale grupy deskryptorów zaliczają się: SoundModel, SoundClassificationModel, i SoundModelStatePath. Deskryptor SoundModel przechowuje informacje o pojedynczej klasie dźwięków. Zawiera on model tej klasy (czyli ciągły ukryty model Markowa CHMM continous hidden Markov model) i jej etykietę. Parametry ukrytego modelu Markowa są obliczane z zastosowaniem algorytmu Bauma-Welcha, operującego na dźwiękowym zbiorze danych trenujących. Raz nauczony ukryty model Markowa może być wykorzystywany do porównywania nowych dźwięków z tym modelem w celu określenia stopnia dopasowania. Domyślnym deskryptorem przeznaczonym do klasyfikacji dźwięku jest AudioSpectrum- Projection. Razem z każdym modelem przechowywany jest zbiór funkcji bazowych, które są stosowane do obliczania rzutów widm segmentów dźwiękowych; są one zapamiętane w deskryptorze AudioSpectrumBasis. Klasyfikacja może się odbywać na podstawie innych deskryptorów. Deskryptor SoundModel zawiera: ukryty model Markowa (HMM) rozszerzony deskryptor ContinuousHiddenMarkovModelType zdefiniowany w ISO/IEC 15938, Część 5 [52]; HMM składa się z trzech komponentów θ j = {A j, B j, π j }, odpowiadających początkowemu rozkładowi stanów Initial π i = P (q 1 = i), gdzie q t {1 K}, macierzy przejść stanów Transitions A ij = P (q t = j q t 1 = i) oraz zdefiniowanego dla każdego stanu ObservationDistributionType B j (y) = P (y q t = j). Początkowy rozkład stanów i ich prawdopodobieństwa przejść charakteryzują zmienność stanów w czasie. SoundClassLabel unikatowa etykieta albo odniesienie do etykiety w schemacie klasyfikacji, która określa klasę dźwięków modelu. SpectrumBasis funkcje bazowe dla klasy dźwięków uzyskane na podstawie danych. SoundModelRef opcjonalne odniesienie do SoundModel, które wskazuje na instancję zawierającą definicję modelu. Deskryptor SoundClassificationModel zawiera zbiór modeli klas opisujących dźwięki 22

23 przez deskryptory SoundModel poszczególnych klas. W deskryptorze tym zapamiętana jest również informacja o relacjach między pojedynczymi modelami kategoriami, tj. ich zależności w hierarchicznej strukturze klas. Deskryptor ten zawiera: SoundModel sekwencja instancji schematów metadanych SoundModel definiująca opcje modeli dla klasyfikatora. Deskryptor SoundModelStatePath składa się z sekwencji stanów wygenerowanych przez SoundModel dla danego segmentu dźwiękowego. Deskryptor ten przechowuje ciąg indeksów stanów, który odnosi się do stanów ciągłego ukrytego modelu Markowa z Sound- Model. Sekwencja stanów dla konkretnego dźwięku jest generowana za pomocą algorytmu Viterbiego. Deskryptor ten zawiera: StatePath regularnie próbkowany ciąg indeksów stanu przedstawiony za pomocą liczb całkowitych z zakresu 1 K, gdzie K jest liczbą stanów. Wartość ta reprezentuje kolejność stanów w ukrytym modelu Markowa. SoundModelRef Odniesienie do instancji schematu metadanej SoundModel, która wygenerowała podaną StatePath. 23

24 3. Modelowanie filtrów słuchowych z zastosowaniem filtru gammatone 3.1. Pasmowość słuchu Zjawiska wskazujące na pasmowe właściwości słuchu Analityczne zdolności słuchu pojawiają się na etapie obwodowego układu słuchowego już na poziomie mechanicznym, gdy przebieg czasowy sygnału akustycznego wywołuje falę biegnącą na błonie podstawnej ucha wewnętrznego. Na rys. 3.1 przedstawiona jest wizualizacja drgań błony podstawnej w uchu wewnętrznym. Kolejne przebiegi oznaczone liczbami 1 4 reprezentują propagację wychylenia w czterech momentach czasowych, a linia przerywana zaznacza obwiednię wychyleń. Obwiednia wychyleń ma wyraźny kształt filtru pasmowego o niesymetrycznym nachyleniu zboczy. Maksimum obwiedni przypada w różnej odległości od początku błony podstawnej (podstawy ślimaka) w ścisłym powiązaniu z częstotliwością sygnału wejściowego drgań strzemiączka, co uwidocznione jest na rys Jest to pasmowa analiza widmowa przeprowadzana w układzie słuchowym. Obrazy przedstawione na rys. 3.1 i 3.2 pokazują pasmowość układu słuchowego już na etapie pobudzenia mechanicznego. Ponadto wskazują na rozmycie pobudzenia, ponieważ każda z przedstawionych charakterystyk jest odpowiedzią na pojedynczą częstotliwość w widmie fourierowskim. Rozmycie to wyjaśnia zjawisko maskowania dźwięków, jako wynikające z nakładania się pobudzeń powstających w odpowiedzi na prążki widmowe o bliskiej częstotliwości. Na dalszym etapie obserwowane są neurologiczne krzywe strojenia, które pokazują, że odpowiedź pojedynczego neuronu zmienia się w funkcji częstotliwości sygnału pobudzenia, odzwierciedlając charakterystykę typową dla filtru pasmowego (rys. 3.3). Zjawiska pokazane na rys znajdują swoje odzwierciedlenie na poziomie percepcyjnym. Pierwsze dowody eksperymentalne pasmowości słuchu, jako narzędzia pasmowej analizy częstotliwościowej sygnału pochodzą z lat 40-tych XX w. Fletcher [38] zaobserwował, że próg maskowania tonu (dźwięku wynikającego z przebiegu sinusoidalnego) rośnie wraz ze wzrostem szerokości pasma szumu maskującego o tej samej częstotliwości środkowej co częstotliwość tonu tylko do pewnej szerokości pasma, a potem pozostaje stały (rys. 3.4). Wskazuje to na fakt, że tylko częstotliwości pasma szumu bliskie częstotliwości maskowanego tonu biorą udział w maskowaniu. Fletcher [38] wprowadził pojęcie stosunku krytycznego dla oceny ilościowej tego zjawiska. 24

25 Rysunek 3.1. Kolejne fazy i obwiednia fali biegnącej na błonie podstawnej ucha wewnętrznego [102]. Rysunek 3.2. Obwiednia i przesunięcie fazowe fali biegnącej na błonie podstawnej ucha wewnętrznego w zależności od częstotliwości pobudzenia [102]. Rysunek 3.3. Schematyczny obraz neurologicznej krzywej strojenia neuronu o częstotliwości charakterystycznej cf [44]. Rysunek 3.4. Wzrost progu maskowania przy wzroście szerokości pasma szumu maskującego [84]. Badania późniejsze doprowadziły do pierwszej miary pasmowości słuchu, czyli pasmowego filtru słuchowego, określanej mianem pasma krytycznego [130]. Ostatecznie badania pasmowości słuchu prowadzone przez Pattersona [94] metodą maskowania szumem pasmowo zaporowym doprowadziły do wyznaczenia najdokładniejszej miary szerokości filtrów słuchowych określane jako ERB (Equivalent Rectangular Bandwidth) Filtr Roex(p, r) jako model filtru słuchowego W psychoakustycznych badaniach słuchu pasmowość słuchu wiąże się ze zjawiskiem maskowania. Przyjmuje się model odpowiadający zarówno obserwacjom przedstawionym na rys , jak i związany z innymi badaniami słuchu, że wokół maskowanego tonu o określonej częstotliwości istnieje filtr pasmowo przepustowy, przez który przedostaje się zarówno energia tonu maskowanego, jak i energia maskującego go szumu. Przyjmuje się założenie, że w maskowaniu tonu uczestniczy tylko ta cześć energii szumu, która 25

26 przechodzi przez filtr, przy zachowaniu ważącej charakterystyki filtru. Odpowiada to w pełni różnym obserwacjom, że jedynie energia sygnału maskującego bliska częstotliwości sygnału maskowanego uczestniczy w maskowaniu. Patterson [94] uzyskał znaczną dokładność wyznaczenia filtru słuchowego w drodze eksperymentalnej, posługując się jako sygnałem maskującym szumem pasmowo-zaporowym o różnej szerokości pasma zaporowego (rys. 3.5). Eksperyment Pattersona polegał na wyznaczeniu wartości progów maskowania tonu w funkcji szeregu wartości szerokości pasma zaporowego 2 f. Uzyskuje się w ten sposób zbiór wartości poziomów tonu na progu maskowania pozwalający, przy określonych założeniach, na wyznaczenie parametrów przyjętej analitycznej postaci filtru słuchowego. Dokładność metody Pattersona, której brakowało metodom wcześniejszym, bierze się stąd, że zastosowanie pasma zaporowego powoduje zmianę wartości progów w zakresie stosowanych szerokości pasma zaporowego w przedziale około 30 db, przy odchyleniu standardowym pomiarów rzędu 2 3 db. We wcześniejszych pomiarach filtrem pasmowym o zmiennej szerokości pasma całkowita zmiana wartości progów w granicach 4 6 db (rys. 3.4) była porównywalna do odchylenia standardowego pomiarów. Rysunek 3.5. Układ bodźców przy wyznaczaniu parametrów filtru słuchowego Roex(p, r) [44]. Rysunek 3.6. Charakterystyka filtru Roex(p, r) we względnej skali częstotliwości g. Obszar zacieniony reprezentuje równoważną szerokość prostokątną ERB [44]. Do reprezentacji analitycznej filtru słuchowego Patterson przyjął funkcję o nazwie Roex(p, r) (od ROunded EXponential). Jest to funkcja określona wzorem: H(f) 2 = r + (1 r)(1 + pg)e pg, (3.1) gdzie: p określa stromość nachylenia (selektywność) filtru, r określa dynamikę filtru, tj. poziom asymptoty poza pasmem przenoszenia (np. dla r = 10 5 charakterystyka filtru z dala od częstotliwości środkowej jest zbieżna do asymptoty na poziomie 10 log 10 (r) = 50 db), 26

Kompresja dźwięku w standardzie MPEG-1

Kompresja dźwięku w standardzie MPEG-1 mgr inż. Grzegorz Kraszewski SYSTEMY MULTIMEDIALNE wykład 7, strona 1. Kompresja dźwięku w standardzie MPEG-1 Ogólne założenia kompresji stratnej Zjawisko maskowania psychoakustycznego Schemat blokowy

Bardziej szczegółowo

Percepcja dźwięku. Narząd słuchu

Percepcja dźwięku. Narząd słuchu Percepcja dźwięku Narząd słuchu 1 Narząd słuchu Ucho zewnętrzne składa się z małżowiny i kanału usznego, zakończone błoną bębenkową, doprowadza dźwięk do ucha środkowego poprzez drgania błony bębenkowej;

Bardziej szczegółowo

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT)

8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT) 8. Analiza widmowa metodą szybkiej transformaty Fouriera (FFT) Ćwiczenie polega na wykonaniu analizy widmowej zadanych sygnałów metodą FFT, a następnie określeniu amplitud i częstotliwości głównych składowych

Bardziej szczegółowo

Przygotowała: prof. Bożena Kostek

Przygotowała: prof. Bożena Kostek Przygotowała: prof. Bożena Kostek Ze względu na dużą rozpiętość mierzonych wartości ciśnienia (zakres ciśnień akustycznych obejmuje blisko siedem rzędów wartości: od 2x10 5 Pa do ponad 10 Pa) wygodniej

Bardziej szczegółowo

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski

Wprowadzenie do multimedialnych baz danych. Opracował: dr inż. Piotr Suchomski Wprowadzenie do multimedialnych baz danych Opracował: dr inż. Piotr Suchomski Wprowadzenie bazy danych Multimedialne bazy danych to takie bazy danych, w których danymi mogą być tekst, zdjęcia, grafika,

Bardziej szczegółowo

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, 2011 Spis treści Przedmowa 11 Rozdział 1. WPROWADZENIE 13 1.1. Czym jest automatyczne rozpoznawanie mowy 13 1.2. Poziomy

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Sposoby opisu i modelowania zakłóceń kanałowych

Sposoby opisu i modelowania zakłóceń kanałowych INSTYTUT TELEKOMUNIKACJI ZAKŁAD RADIOKOMUNIKACJI Instrukcja laboratoryjna z przedmiotu Podstawy Telekomunikacji Sposoby opisu i modelowania zakłóceń kanałowych Warszawa 2010r. 1. Cel ćwiczeń: Celem ćwiczeń

Bardziej szczegółowo

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy

Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy Ćwiczenie 3,4. Analiza widmowa sygnałów czasowych: sinus, trójkąt, prostokąt, szum biały i szum różowy Grupa: wtorek 18:3 Tomasz Niedziela I. CZĘŚĆ ĆWICZENIA 1. Cel i przebieg ćwiczenia. Celem ćwiczenia

Bardziej szczegółowo

Podstawy Przetwarzania Sygnałów

Podstawy Przetwarzania Sygnałów Adam Szulc 188250 grupa: pon TN 17:05 Podstawy Przetwarzania Sygnałów Sprawozdanie 6: Filtracja sygnałów. Filtry FIT o skończonej odpowiedzi impulsowej. 1. Cel ćwiczenia. 1) Przeprowadzenie filtracji trzech

Bardziej szczegółowo

Transformata Fouriera

Transformata Fouriera Transformata Fouriera Program wykładu 1. Wprowadzenie teoretyczne 2. Algorytm FFT 3. Zastosowanie analizy Fouriera 4. Przykłady programów Wprowadzenie teoretyczne Zespolona transformata Fouriera Jeżeli

Bardziej szczegółowo

Pomiary w technice studyjnej. TESTY PESQ i PEAQ

Pomiary w technice studyjnej. TESTY PESQ i PEAQ Pomiary w technice studyjnej TESTY PESQ i PEAQ Wprowadzenie Problem: ocena jakości sygnału dźwiękowego. Metody obiektywne - np. pomiar SNR czy THD+N - nie dają pełnych informacji o jakości sygnału. Ważne

Bardziej szczegółowo

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI)

Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI) Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L Ćwiczenie 4. Filtry o skończonej odpowiedzi impulsowej (SOI) 1. Filtracja cyfrowa podstawowe

Bardziej szczegółowo

Akustyka muzyczna ANALIZA DŹWIĘKÓW MUZYCZNYCH

Akustyka muzyczna ANALIZA DŹWIĘKÓW MUZYCZNYCH Akustyka muzyczna ANALIZA DŹWIĘKÓW MUZYCZNYCH Dźwięk muzyczny Dźwięk muzyczny sygnał wytwarzany przez instrument muzyczny. Najważniejsze parametry: wysokość związana z częstotliwością podstawową, barwa

Bardziej szczegółowo

Ze względu na dużą rozpiętość mierzonych wartości ciśnienia (zakres ciśnień akustycznych obejmuje blisko siedem rzędów wartości: od 2x10 5 Pa do

Ze względu na dużą rozpiętość mierzonych wartości ciśnienia (zakres ciśnień akustycznych obejmuje blisko siedem rzędów wartości: od 2x10 5 Pa do Ze względu na dużą rozpiętość mierzonych wartości ciśnienia (zakres ciśnień akustycznych obejmuje blisko siedem rzędów wartości: od 2x10 5 Pa do ponad 10 Pa) wygodniej jest mierzone ciśnienie akustyczne

Bardziej szczegółowo

LABORATORIUM PODSTAW TELEKOMUNIKACJI

LABORATORIUM PODSTAW TELEKOMUNIKACJI WOJSKOWA AKADEMIA TECHNICZNA im. Jarosława Dąbrowskiego w Warszawie Wydział Elektroniki LABORATORIUM PODSTAW TELEKOMUNIKACJI Grupa Podgrupa Data wykonania ćwiczenia Ćwiczenie prowadził... Skład podgrupy:

Bardziej szczegółowo

f = 2 śr MODULACJE

f = 2 śr MODULACJE 5. MODULACJE 5.1. Wstęp Modulacja polega na odzwierciedleniu przebiegu sygnału oryginalnego przez zmianę jednego z parametrów fali nośnej. Przyczyny stosowania modulacji: 1. Umożliwienie wydajnego wypromieniowania

Bardziej szczegółowo

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe.

Zjawisko aliasingu. Filtr antyaliasingowy. Przecieki widma - okna czasowe. Katedra Mechaniki i Podstaw Konstrukcji Maszyn POLITECHNIKA OPOLSKA Komputerowe wspomaganie eksperymentu Zjawisko aliasingu.. Przecieki widma - okna czasowe. dr inż. Roland PAWLICZEK Zjawisko aliasingu

Bardziej szczegółowo

Instrukcja do laboratorium z Fizyki Budowli. Temat laboratorium: CZĘSTOTLIWOŚĆ

Instrukcja do laboratorium z Fizyki Budowli. Temat laboratorium: CZĘSTOTLIWOŚĆ Instrukcja do laboratorium z Fizyki Budowli Temat laboratorium: CZĘSTOTLIWOŚĆ 1 1. Wprowadzenie 1.1.Widmo hałasu Płaską falę sinusoidalną można opisać następującym wyrażeniem: p = p 0 sin (2πft + φ) (1)

Bardziej szczegółowo

Systemy multimedialne. Instrukcja 5 Edytor audio Audacity

Systemy multimedialne. Instrukcja 5 Edytor audio Audacity Systemy multimedialne Instrukcja 5 Edytor audio Audacity Do sprawozdania w formacie pdf należy dołączyc pliki dźwiękowe tylko z podpunktu 17. Sprawdzić poprawność podłączenia słuchawek oraz mikrofonu (Start->Programy->Akcesoria->Rozrywka->Rejestrator

Bardziej szczegółowo

Algorytmy detekcji częstotliwości podstawowej

Algorytmy detekcji częstotliwości podstawowej Algorytmy detekcji częstotliwości podstawowej Plan Definicja częstotliwości podstawowej Wybór ramki sygnału do analizy Błędy oktawowe i dokładnej estymacji Metody detekcji częstotliwości podstawowej czasowe

Bardziej szczegółowo

Mapa akustyczna Torunia

Mapa akustyczna Torunia Mapa akustyczna Torunia Informacje podstawowe Mapa akustyczna Słownik terminów Kontakt Przejdź do mapy» Słownik terminów specjalistycznych Hałas Hałasem nazywamy wszystkie niepożądane, nieprzyjemne, dokuczliwe

Bardziej szczegółowo

Przekształcenia sygnałów losowych w układach

Przekształcenia sygnałów losowych w układach INSTYTUT TELEKOMUNIKACJI ZAKŁAD RADIOKOMUNIKACJI Instrukcja laboratoryjna z przedmiotu Sygnały i kodowanie Przekształcenia sygnałów losowych w układach Warszawa 010r. 1. Cel ćwiczenia: Ocena wpływu charakterystyk

Bardziej szczegółowo

Układy i Systemy Elektromedyczne

Układy i Systemy Elektromedyczne UiSE - laboratorium Układy i Systemy Elektromedyczne Laboratorium 1 Stetoskop elektroniczny parametry sygnałów rejestrowanych. Opracował: dr inż. Jakub Żmigrodzki Zakład Inżynierii Biomedycznej, Instytut

Bardziej szczegółowo

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20).

2. Próbkowanie Sygnały okresowe (16). Trygonometryczny szereg Fouriera (17). Częstotliwość Nyquista (20). SPIS TREŚCI ROZDZIAŁ I SYGNAŁY CYFROWE 9 1. Pojęcia wstępne Wiadomości, informacje, dane, sygnały (9). Sygnał jako nośnik informacji (11). Sygnał jako funkcja (12). Sygnał analogowy (13). Sygnał cyfrowy

Bardziej szczegółowo

Zaawansowane algorytmy DSP

Zaawansowane algorytmy DSP Zastosowania Procesorów Sygnałowych dr inż. Grzegorz Szwoch greg@multimed.org p. 732 - Katedra Systemów Multimedialnych Zaawansowane algorytmy DSP Wstęp Cztery algorytmy wybrane spośród bardziej zaawansowanych

Bardziej szczegółowo

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania

Bardziej szczegółowo

AKADEMIA MORSKA KATEDRA NAWIGACJI TECHNICZEJ

AKADEMIA MORSKA KATEDRA NAWIGACJI TECHNICZEJ AKADEMIA MORSKA KATEDRA NAWIGACJI TECHNICZEJ ELEMETY ELEKTRONIKI LABORATORIUM Kierunek NAWIGACJA Specjalność Transport morski Semestr II Ćw. 2 Filtry analogowe układy całkujące i różniczkujące Wersja opracowania

Bardziej szczegółowo

Nauka o słyszeniu. Wykład III +IV Wysokość+ Głośność dźwięku

Nauka o słyszeniu. Wykład III +IV Wysokość+ Głośność dźwięku Nauka o słyszeniu Wykład III +IV Wysokość+ Głośność dźwięku Anna Preis, email: apraton@amu.edu.pl 21-28.10.2015 Plan wykładu - wysokość Wysokość dźwięku-definicja Periodyczność Dźwięk harmoniczny Wysokość

Bardziej szczegółowo

BIBLIOTEKA PROGRAMU R - BIOPS. Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat

BIBLIOTEKA PROGRAMU R - BIOPS. Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat BIBLIOTEKA PROGRAMU R - BIOPS Narzędzia Informatyczne w Badaniach Naukowych Katarzyna Bernat Biblioteka biops zawiera funkcje do analizy i przetwarzania obrazów. Operacje geometryczne (obrót, przesunięcie,

Bardziej szczegółowo

Nauka o słyszeniu. Wykład I Dźwięk. Anna Preis,

Nauka o słyszeniu. Wykład I Dźwięk. Anna Preis, Nauka o słyszeniu Wykład I Dźwięk Anna Preis, email: apraton@amu.edu.pl 7. 10. 2015 Co słyszycie? Plan wykładu Demonstracja Percepcja słuchowa i wzrokowa Słyszenie a słuchanie Natura dźwięku dwie definicje

Bardziej szczegółowo

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania

Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania Kodowanie podpasmowe Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania Zasada ogólna Rozkład sygnału źródłowego na części składowe (jak w kodowaniu transformacyjnym) Wada kodowania

Bardziej szczegółowo

Dźwięk podstawowe wiadomości technik informatyk

Dźwięk podstawowe wiadomości technik informatyk Dźwięk podstawowe wiadomości technik informatyk I. Formaty plików opisz zalety, wady, rodzaj kompresji i twórców 1. Format WAVE. 2. Format MP3. 3. Format WMA. 4. Format MIDI. 5. Format AIFF. 6. Format

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Dynamiczne badanie wzmacniacza operacyjnego- ćwiczenie 8

Dynamiczne badanie wzmacniacza operacyjnego- ćwiczenie 8 Dynamiczne badanie wzmacniacza operacyjnego- ćwiczenie 8 1. Cel ćwiczenia Celem ćwiczenia jest dynamiczne badanie wzmacniacza operacyjnego, oraz zapoznanie się z metodami wyznaczania charakterystyk częstotliwościowych.

Bardziej szczegółowo

Przekształcenia widmowe Transformata Fouriera. Adam Wojciechowski

Przekształcenia widmowe Transformata Fouriera. Adam Wojciechowski Przekształcenia widmowe Transformata Fouriera Adam Wojciechowski Przekształcenia widmowe Odmiana przekształceń kontekstowych, w których kontekstem jest w zasadzie cały obraz. Za pomocą transformaty Fouriera

Bardziej szczegółowo

LABORATORIUM. Pomiar poziomu mocy akustycznej w komorze pogłosowej. Instrukcja do zajęć laboratoryjnych

LABORATORIUM. Pomiar poziomu mocy akustycznej w komorze pogłosowej. Instrukcja do zajęć laboratoryjnych LABORATORIUM Pomiar poziomu mocy akustycznej w komorze pogłosowej Instrukcja do zajęć laboratoryjnych Kraków 2010 Spis treści 1. Wstęp...3 2. Wprowadzenie teoretyczne...4 2.1. Definicje terminów...4 2.2.

Bardziej szczegółowo

Ćwiczenie - 1 OBSŁUGA GENERATORA I OSCYLOSKOPU. WYZNACZANIE CHARAKTERYSTYKI AMPLITUDOWEJ I FAZOWEJ NA PRZYKŁADZIE FILTRU RC.

Ćwiczenie - 1 OBSŁUGA GENERATORA I OSCYLOSKOPU. WYZNACZANIE CHARAKTERYSTYKI AMPLITUDOWEJ I FAZOWEJ NA PRZYKŁADZIE FILTRU RC. Ćwiczenie - 1 OBSŁUGA GENERATORA I OSCYLOSKOPU. WYZNACZANIE CHARAKTERYSTYKI AMPLITUDOWEJ I FAZOWEJ NA PRZYKŁADZIE FILTRU RC. Spis treści 1 Cel ćwiczenia 2 2 Podstawy teoretyczne 2 2.1 Charakterystyki częstotliwościowe..........................

Bardziej szczegółowo

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów

WYKŁAD 12. Analiza obrazu Wyznaczanie parametrów ruchu obiektów WYKŁAD 1 Analiza obrazu Wyznaczanie parametrów ruchu obiektów Cel analizy obrazu: przedstawienie każdego z poszczególnych obiektów danego obrazu w postaci wektora cech dla przeprowadzenia procesu rozpoznania

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Teoria przetwarzania A/C i C/A.

Teoria przetwarzania A/C i C/A. Teoria przetwarzania A/C i C/A. Autor: Bartłomiej Gorczyński Cyfrowe metody przetwarzania sygnałów polegają na przetworzeniu badanego sygnału analogowego w sygnał cyfrowy reprezentowany ciągiem słów binarnych

Bardziej szczegółowo

POMIARY WYBRANYCH PARAMETRÓW TORU FONICZNEGO W PROCESORACH AUDIO

POMIARY WYBRANYCH PARAMETRÓW TORU FONICZNEGO W PROCESORACH AUDIO Politechnika Rzeszowska Katedra Metrologii i Systemów Diagnostycznych Laboratorium Elektroniczne przyrządy i techniki pomiarowe POMIARY WYBRANYCH PARAMETRÓW TORU FONICZNEGO W PROCESORACH AUDIO Grupa Nr

Bardziej szczegółowo

Wyszukiwanie informacji w internecie. Nguyen Hung Son

Wyszukiwanie informacji w internecie. Nguyen Hung Son Wyszukiwanie informacji w internecie Nguyen Hung Son Jak znaleźć informację w internecie? Wyszukiwarki internetowe: Potężne machiny wykorzystujące najnowsze metody z różnych dziedzin Architektura: trzy

Bardziej szczegółowo

Ćwiczenie 3. Właściwości przekształcenia Fouriera

Ćwiczenie 3. Właściwości przekształcenia Fouriera Politechnika Wrocławska Wydział Elektroniki Mikrosystemów i Fotoniki Przetwarzanie sygnałów laboratorium ETD5067L Ćwiczenie 3. Właściwości przekształcenia Fouriera 1. Podstawowe właściwości przekształcenia

Bardziej szczegółowo

Analiza właściwości filtrów dolnoprzepustowych

Analiza właściwości filtrów dolnoprzepustowych Ćwiczenie Analiza właściwości filtrów dolnoprzepustowych Program ćwiczenia. Zapoznanie się z przykładową strukturą filtra dolnoprzepustowego (DP) rzędu i jego parametrami.. Analiza widma sygnału prostokątnego.

Bardziej szczegółowo

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...

4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych... Spis treści 1 Wstęp 11 1.1 Do kogo adresowana jest ta książka... 12 1.2 Historia badań nad mową i językiem... 12 1.3 Obecne główne trendy badań... 16 1.4 Opis zawartości rozdziałów... 18 2 Wyzwania i możliwe

Bardziej szczegółowo

Ćwiczenie nr 65. Badanie wzmacniacza mocy

Ćwiczenie nr 65. Badanie wzmacniacza mocy Ćwiczenie nr 65 Badanie wzmacniacza mocy 1. Cel ćwiczenia Celem ćwiczenia jest poznanie podstawowych parametrów wzmacniaczy oraz wyznaczenie charakterystyk opisujących ich właściwości na przykładzie wzmacniacza

Bardziej szczegółowo

Analiza właściwości filtra selektywnego

Analiza właściwości filtra selektywnego Ćwiczenie 2 Analiza właściwości filtra selektywnego Program ćwiczenia. Zapoznanie się z przykładową strukturą filtra selektywnego 2 rzędu i zakresami jego parametrów. 2. Analiza widma sygnału prostokątnego..

Bardziej szczegółowo

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU

ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU ANALIZA SEMANTYCZNA OBRAZU I DŹWIĘKU i klasyfikacja sygnału audio dr inż. Jacek Naruniec Sygnał mowy mózg (układ sterujący) głośnia (źródło dźwięku) rezonator akustyczny (filtr) sygnał mowy 2 Sygnał mowy

Bardziej szczegółowo

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie. SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:

Bardziej szczegółowo

Ponieważ zakres zmian ciśnień fal akustycznych odbieranych przez ucho ludzkie mieści się w przedziale od 2*10-5 Pa do 10 2 Pa,

Ponieważ zakres zmian ciśnień fal akustycznych odbieranych przez ucho ludzkie mieści się w przedziale od 2*10-5 Pa do 10 2 Pa, Poziom dźwięku Decybel (db) jest jednostką poziomu; Ponieważ zakres zmian ciśnień fal akustycznych odbieranych przez ucho ludzkie mieści się w przedziale od 2*10-5 Pa do 10 2 Pa, co obejmuje 8 rzędów wielkości

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

A-2. Filtry bierne. wersja

A-2. Filtry bierne. wersja wersja 04 2014 1. Zakres ćwiczenia Celem ćwiczenia jest zrozumienie propagacji sygnałów zmiennych w czasie przez układy filtracji oparte na elementach rezystancyjno-pojemnościowych. Wyznaczenie doświadczalne

Bardziej szczegółowo

Generowanie sygnałów na DSP

Generowanie sygnałów na DSP Zastosowania Procesorów Sygnałowych dr inż. Grzegorz Szwoch greg@multimed.org p. 732 - Katedra Systemów Multimedialnych Generowanie sygnałów na DSP Wstęp Dziś w programie: generowanie sygnałów za pomocą

Bardziej szczegółowo

PREZENTACJA MODULACJI AM W PROGRAMIE MATHCAD

PREZENTACJA MODULACJI AM W PROGRAMIE MATHCAD POZNAN UNIVE RSITY OF TE CHNOLOGY ACADE MIC JOURNALS No 80 Electrical Engineering 2014 Jakub PĘKSIŃSKI* Grzegorz MIKOŁAJCZAK* PREZENTACJA MODULACJI W PROGRIE MATHCAD W artykule przedstawiono dydaktyczną

Bardziej szczegółowo

LABORATORIUM AUDIOLOGII I AUDIOMETRII

LABORATORIUM AUDIOLOGII I AUDIOMETRII LABORATORIUM AUDIOLOGII I AUDIOMETRII ĆWICZENIE NR 4 MASKOWANIE TONU TONEM Cel ćwiczenia Wyznaczenie przesunięcia progu słyszenia przy maskowaniu równoczesnym tonu tonem. Układ pomiarowy I. Zadania laboratoryjne:

Bardziej szczegółowo

Cyfrowe przetwarzanie i kompresja danych

Cyfrowe przetwarzanie i kompresja danych Cyfrowe przetwarzanie i kompresja danych dr inż.. Wojciech Zając Wykład 5. Dyskretna transformata falkowa Schemat systemu transmisji danych wizyjnych Źródło danych Przetwarzanie Przesył Przetwarzanie Prezentacja

Bardziej szczegółowo

Nauka o słyszeniu Wykład IV Wysokość dźwięku

Nauka o słyszeniu Wykład IV Wysokość dźwięku Nauka o słyszeniu Wykład IV Wysokość dźwięku Anna Preis, email: apraton@amu.edu.pl 8.11.2017 Plan wykładu Wysokość dźwięku-definicja Periodyczność Dźwięk harmoniczny Wysokość dźwięku, z i bez fo JND -

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

(1.1) gdzie: - f = f 2 f 1 - bezwzględna szerokość pasma, f śr = (f 2 + f 1 )/2 częstotliwość środkowa.

(1.1) gdzie: - f = f 2 f 1 - bezwzględna szerokość pasma, f śr = (f 2 + f 1 )/2 częstotliwość środkowa. MODULACJE ANALOGOWE 1. Wstęp Do przesyłania sygnału drogą radiową stosuje się modulację. Modulacja polega na odzwierciedleniu przebiegu sygnału oryginalnego przez zmianę jednego z parametrów fali nośnej.

Bardziej szczegółowo

WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI

WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI WYZNACZANIE NIEPEWNOŚCI POMIARU METODAMI SYMULACYJNYMI Stefan WÓJTOWICZ, Katarzyna BIERNAT ZAKŁAD METROLOGII I BADAŃ NIENISZCZĄCYCH INSTYTUT ELEKTROTECHNIKI ul. Pożaryskiego 8, 04-703 Warszawa tel. (0)

Bardziej szczegółowo

Metodyka i system dopasowania protez słuchu w oparciu o badanie percepcji sygnału mowy w szumie

Metodyka i system dopasowania protez słuchu w oparciu o badanie percepcji sygnału mowy w szumie Metodyka i system dopasowania protez w oparciu o badanie percepcji sygnału mowy w szumie opracowanie dr inż. Piotr Suchomski Koncepcja metody korekcji ubytku Dopasowanie szerokiej dynamiki odbieranego

Bardziej szczegółowo

Diagnostyka obrazowa

Diagnostyka obrazowa Diagnostyka obrazowa Ćwiczenie drugie Podstawowe przekształcenia obrazu 1 Cel ćwiczenia Ćwiczenie ma na celu zapoznanie uczestników kursu Diagnostyka obrazowa z podstawowymi przekształceniami obrazu wykonywanymi

Bardziej szczegółowo

Analiza sygnałów biologicznych

Analiza sygnałów biologicznych Analiza sygnałów biologicznych Paweł Strumiłło Zakład Elektroniki Medycznej Instytut Elektroniki PŁ Co to jest sygnał? Funkcja czasu x(t) przenosząca informację o stanie lub działaniu układu (systemu),

Bardziej szczegółowo

Omówienie różnych metod rozpoznawania mowy

Omówienie różnych metod rozpoznawania mowy Omówienie różnych metod rozpoznawania mowy Na podstawie artykułu: Comparative study of automatic speech recognition techniques Beniamin Sawicki Wydział Inżynierii Mechanicznej i Robotyki Inżynieria Akustyczna

Bardziej szczegółowo

Politechnika Warszawska

Politechnika Warszawska Politechnika Warszawska Wydział Elektryczny Laboratorium Teletechniki Skrypt do ćwiczenia T.02. Woltomierz RMS oraz Analizator Widma 1. Woltomierz RMS oraz Analizator Widma Ćwiczenie to ma na celu poznanie

Bardziej szczegółowo

8. Realizacja projektowanie i pomiary filtrów IIR

8. Realizacja projektowanie i pomiary filtrów IIR 53 8. Realizacja projektowanie i pomiary filtrów IIR Cele ćwiczenia Realizacja na zestawie TMX320C5515 ezdsp prostych liniowych filtrów cyfrowych. Pomiary charakterystyk amplitudowych zrealizowanych filtrów

Bardziej szczegółowo

Dźwięk dźwiękowi nierówny, czyli o tym jak brzmi XXI wiek

Dźwięk dźwiękowi nierówny, czyli o tym jak brzmi XXI wiek IX Studenckie Spotkania Analityczne 13-14.03.2008 Dźwięk dźwiękowi nierówny, czyli o tym jak brzmi XXI wiek Justyna Słomka Plan 1. Co to jest dźwięk? 2. Pojęcie syntezy dźwięku 3. Cel syntezowania dźwięków

Bardziej szczegółowo

Ćwiczenie: "Obwody prądu sinusoidalnego jednofazowego"

Ćwiczenie: Obwody prądu sinusoidalnego jednofazowego Ćwiczenie: "Obwody prądu sinusoidalnego jednofazowego" Opracowane w ramach projektu: "Informatyka mój sposób na poznanie i opisanie świata realizowanego przez Warszawską Wyższą Szkołę Informatyki. Zakres

Bardziej szczegółowo

Zad. 3: Układ równań liniowych

Zad. 3: Układ równań liniowych 1 Cel ćwiczenia Zad. 3: Układ równań liniowych Wykształcenie umiejętności modelowania kluczowych dla danego problemu pojęć. Definiowanie właściwego interfejsu klasy. Zwrócenie uwagi na dobór odpowiednich

Bardziej szczegółowo

SYMULACJA KOMPUTEROWA SYSTEMÓW

SYMULACJA KOMPUTEROWA SYSTEMÓW SYMULACJA KOMPUTEROWA SYSTEMÓW ZASADY ZALICZENIA I TEMATY PROJEKTÓW Rok akademicki 2015 / 2016 Spośród zaproponowanych poniżej tematów projektowych należy wybrać jeden i zrealizować go korzystając albo

Bardziej szczegółowo

PL B1. Sposób i układ pomiaru całkowitego współczynnika odkształcenia THD sygnałów elektrycznych w systemach zasilających

PL B1. Sposób i układ pomiaru całkowitego współczynnika odkształcenia THD sygnałów elektrycznych w systemach zasilających RZECZPOSPOLITA POLSKA (12) OPIS PATENTOWY (19) PL (11) 210969 (13) B1 (21) Numer zgłoszenia: 383047 (51) Int.Cl. G01R 23/16 (2006.01) G01R 23/20 (2006.01) Urząd Patentowy Rzeczypospolitej Polskiej (22)

Bardziej szczegółowo

W celu obliczenia charakterystyki częstotliwościowej zastosujemy wzór 1. charakterystyka amplitudowa 0,

W celu obliczenia charakterystyki częstotliwościowej zastosujemy wzór 1. charakterystyka amplitudowa 0, Bierne obwody RC. Filtr dolnoprzepustowy. Filtr dolnoprzepustowy jest układem przenoszącym sygnały o małej częstotliwości bez zmian, a powodującym tłumienie i opóźnienie fazy sygnałów o większych częstotliwościach.

Bardziej szczegółowo

b n y k n T s Filtr cyfrowy opisuje się również za pomocą splotu dyskretnego przedstawionego poniżej:

b n y k n T s Filtr cyfrowy opisuje się również za pomocą splotu dyskretnego przedstawionego poniżej: 1. FILTRY CYFROWE 1.1 DEFIICJA FILTRU W sytuacji, kiedy chcemy przekształcić dany sygnał, w inny sygnał niezawierający pewnych składowych np.: szumów mówi się wtedy o filtracji sygnału. Ogólnie Filtracją

Bardziej szczegółowo

dr inż. Jacek Naruniec

dr inż. Jacek Naruniec dr inż. Jacek Naruniec Przetwarzanie wstępne Wyznaczenie obszarów zainteresowania Ekstrakcja cech - dźwięk Klasyfikacja detekcja mowy okno analizy spektrogram filtr preemfazy wokodery (formantów, kanałowe,

Bardziej szczegółowo

Technika audio część 2

Technika audio część 2 Technika audio część 2 Wykład 12 Projektowanie cyfrowych układów elektronicznych Mgr inż. Łukasz Kirchner lukasz.kirchner@cs.put.poznan.pl http://www.cs.put.poznan.pl/lkirchner Wprowadzenie do filtracji

Bardziej szczegółowo

Ćwiczenie nr 6 Charakterystyki częstotliwościowe

Ćwiczenie nr 6 Charakterystyki częstotliwościowe Wstęp teoretyczny Ćwiczenie nr 6 Charakterystyki częstotliwościowe 1 Cel ćwiczenia Celem ćwiczenia jest wyznaczenie charakterystyk częstotliwościowych układu regulacji oraz korekta nastaw regulatora na

Bardziej szczegółowo

5. Rozwiązywanie układów równań liniowych

5. Rozwiązywanie układów równań liniowych 5. Rozwiązywanie układów równań liniowych Wprowadzenie (5.1) Układ n równań z n niewiadomymi: a 11 +a 12 x 2 +...+a 1n x n =a 10, a 21 +a 22 x 2 +...+a 2n x n =a 20,..., a n1 +a n2 x 2 +...+a nn x n =a

Bardziej szczegółowo

ANALIZA HARMONICZNA DŹWIĘKU SKŁADANIE DRGAŃ AKUSTYCZNYCH DUDNIENIA.

ANALIZA HARMONICZNA DŹWIĘKU SKŁADANIE DRGAŃ AKUSTYCZNYCH DUDNIENIA. ĆWICZENIE NR 15 ANALIZA HARMONICZNA DŹWIĘKU SKŁADANIE DRGAŃ AKUSYCZNYCH DUDNIENIA. I. Cel ćwiczenia. Celem ćwiczenia było poznanie podstawowych pojęć związanych z analizą harmoniczną dźwięku jako fali

Bardziej szczegółowo

3GHz (opcja 6GHz) Cyfrowy Analizator Widma GA4063

3GHz (opcja 6GHz) Cyfrowy Analizator Widma GA4063 Cyfrowy Analizator Widma GA4063 3GHz (opcja 6GHz) Wysoka kla sa pomiarowa Duże możliwości pomiarowo -funkcjonalne Wysoka s tabi lność Łatwy w użyc iu GUI Małe wymiary, lekki, przenośny Opis produktu GA4063

Bardziej szczegółowo

Wyznaczanie prędkości dźwięku w powietrzu

Wyznaczanie prędkości dźwięku w powietrzu Imię i Nazwisko... Wyznaczanie prędkości dźwięku w powietrzu Opracowanie: Piotr Wróbel 1. Cel ćwiczenia. Celem ćwiczenia jest wyznaczenie prędkości dźwięku w powietrzu, metodą różnicy czasu przelotu. Drgania

Bardziej szczegółowo

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09

PL B BUP 16/04. Kleczkowski Piotr,Kraków,PL WUP 04/09 RZECZPOSPOLITA POLSKA (12) OPIS PATENTOWY (19) PL (11) 201536 (13) B1 (21) Numer zgłoszenia: 358531 (51) Int.Cl. G10L 21/02 (2006.01) H03G 3/00 (2006.01) Urząd Patentowy Rzeczypospolitej Polskiej (22)

Bardziej szczegółowo

Reprezentacja wiedzy. Rodzaje danych i ich wstępna obróbka. Metody akwizycji sygnałów fonicznych. MPEG7. Zebrała: prof.

Reprezentacja wiedzy. Rodzaje danych i ich wstępna obróbka. Metody akwizycji sygnałów fonicznych. MPEG7. Zebrała: prof. Reprezentacja wiedzy. Rodzaje danych i ich wstępna obróbka. Metody akwizycji sygnałów fonicznych. MPEG7 Zebrała: prof. Bożena Kostek Standard MPEG-7 Standard MPEG-Moving Picture and Audio Coding Experts;

Bardziej szczegółowo

Przygotowali: Bartosz Szatan IIa Paweł Tokarczyk IIa

Przygotowali: Bartosz Szatan IIa Paweł Tokarczyk IIa Przygotowali: Bartosz Szatan IIa Paweł Tokarczyk IIa Dźwięk wrażenie słuchowe, spowodowane falą akustyczną rozchodzącą się w ośrodku sprężystym (ciele stałym, cieczy, gazie). Częstotliwości fal, które

Bardziej szczegółowo

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy

Kwantowanie sygnałów analogowych na przykładzie sygnału mowy Kwantowanie sygnałów analogowych na przykładzie sygnału mowy Treść wykładu: Sygnał mowy i jego właściwości Kwantowanie skalarne: kwantyzator równomierny, nierównomierny, adaptacyjny Zastosowanie w koderze

Bardziej szczegółowo

Nauka o słyszeniu Wykład IV Głośność dźwięku

Nauka o słyszeniu Wykład IV Głośność dźwięku Nauka o słyszeniu Wykład IV Głośność dźwięku Anna Preis, email: apraton@amu.edu.pl 26.10.2016 Plan wykładu - głośność Próg słyszalności Poziom ciśnienia akustycznego SPL a poziom dźwięku SPL (A) Głośność

Bardziej szczegółowo

Neurobiologia na lekcjach informatyki? Percepcja barw i dźwięków oraz metody ich przetwarzania Dr Grzegorz Osiński Zakład Dydaktyki Fizyki IF UMK

Neurobiologia na lekcjach informatyki? Percepcja barw i dźwięków oraz metody ich przetwarzania Dr Grzegorz Osiński Zakład Dydaktyki Fizyki IF UMK Neurobiologia na lekcjach informatyki? Percepcja barw i dźwięków oraz metody ich przetwarzania Dr Grzegorz Osiński Zakład Dydaktyki Fizyki IF UMK IV Konferencja Informatyka w Edukacji 31.01 01.02. 2007

Bardziej szczegółowo

Analiza stateczności zbocza

Analiza stateczności zbocza Przewodnik Inżyniera Nr 25 Aktualizacja: 06/2017 Analiza stateczności zbocza Program: MES Plik powiązany: Demo_manual_25.gmk Celem niniejszego przewodnika jest analiza stateczności zbocza (wyznaczenie

Bardziej szczegółowo

VÉRITÉ rzeczywistość ma znaczenie Vérité jest najnowszym, zaawansowanym technologicznie aparatem słuchowym Bernafon przeznaczonym dla najbardziej wymagających Użytkowników. Nieprzypadkowa jest nazwa tego

Bardziej szczegółowo

Politechnika Warszawska Wydział Elektryczny Laboratorium Teletechniki

Politechnika Warszawska Wydział Elektryczny Laboratorium Teletechniki Politechnika Warszawska Wydział Elektryczny Laboratorium Teletechniki Skrypt do ćwiczenia T.09 Określenie procentu modulacji sygnału zmodulowanego AM 1. Określenie procentu modulacji sygnału zmodulowanego

Bardziej szczegółowo

Laboratorium Przetwarzania Sygnałów Biomedycznych

Laboratorium Przetwarzania Sygnałów Biomedycznych Laboratorium Przetwarzania Sygnałów Biomedycznych Ćwiczenie 3 Analiza sygnału o nieznanej strukturze Opracowali: - prof. nzw. dr hab. inż. Krzysztof Kałużyński - mgr inż. Tomasz Kubik Politechnika Warszawska,

Bardziej szczegółowo

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1.

Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1. Teraz bajty. Informatyka dla szkół ponadpodstawowych. Zakres rozszerzony. Część 1. Grażyna Koba MIGRA 2019 Spis treści (propozycja na 2*32 = 64 godziny lekcyjne) Moduł A. Wokół komputera i sieci komputerowych

Bardziej szczegółowo

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH

ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH Przetwarzanie dźwięków i obrazów ROZPOZNAWANIE SYGNAŁÓW FONICZNYCH mgr inż. Kuba Łopatka, p. 628 klopatka@sound.eti.pg.gda.pl Plan wykładu 1. Wprowadzenie 2. Zasada rozpoznawania sygnałów 3. Parametryzacja

Bardziej szczegółowo

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania

Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja

Bardziej szczegółowo

WYZNACZANIE FILTRÓW SŁUCHOWYCH METODĄ SZUMU PRZESTRAJANEGO. Karolina Kluk, kkluk@amu.edu.pl

WYZNACZANIE FILTRÓW SŁUCHOWYCH METODĄ SZUMU PRZESTRAJANEGO. Karolina Kluk, kkluk@amu.edu.pl WYZNACZANIE FILTRÓW SŁUCHOWYCH METODĄ SZUMU PRZESTRAJANEGO Fast method for auditory filter shapes measurements Karolina Kluk, kkluk@amu.edu.pl Instytut Akustyki, Uniwersytet im. Adama Mickiewicza Institute

Bardziej szczegółowo

Egzamin / zaliczenie na ocenę*

Egzamin / zaliczenie na ocenę* WYDZIAŁ PODSTAWOWYCH PROBLEMÓW TECHNIKI Zał. nr 4 do ZW 33/01 KARTA PRZEDMIOTU Nazwa w języku polskim CYFROWE PRZETWARZANIE SYGNAŁÓW Nazwa w języku angielskim DIGITAL SIGNAL PROCESSING Kierunek studiów

Bardziej szczegółowo

SPRZĘTOWA REALIZACJA FILTRÓW CYFROWYCH TYPU SOI

SPRZĘTOWA REALIZACJA FILTRÓW CYFROWYCH TYPU SOI 1 ĆWICZENIE VI SPRZĘTOWA REALIZACJA FILTRÓW CYFROWYCH TYPU SOI (00) Celem pracy jest poznanie sposobu fizycznej realizacji filtrów cyfrowych na procesorze sygnałowym firmy Texas Instruments TMS320C6711

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

TEORETYCZNE PODSTAWY INFORMATYKI

TEORETYCZNE PODSTAWY INFORMATYKI 1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie

Bardziej szczegółowo

Sposoby modelowania układów dynamicznych. Pytania

Sposoby modelowania układów dynamicznych. Pytania Sposoby modelowania układów dynamicznych Co to jest model dynamiczny? PAScz4 Modelowanie, analiza i synteza układów automatyki samochodowej równania różniczkowe, różnicowe, równania równowagi sił, momentów,

Bardziej szczegółowo