ZASTOSOWANIE TECHNIK MULTIMEDIALNYCH W BADANIACH I TERAPII ZMYSŁÓW KOMUNIKACJI dr inż. Piotr Odya Politechnika Gdańska, Wydział ETI Katedra Systemów Multimedialnych Systemy badań przesiewowych systemy do badania słuchu, wzroku i mowy przez Internet, ale nie tylko liczbę przebadanych dzieci można szacować na ponad 500 tysięcy zdobyły liczne nagrody, także międzynarodowe, m.in. złoty medal i puchar Grand Prix podczas Światowego Salonu Wynalazczości Eureka w Brukseli 1
Systemy badań przesiewowych system Słyszę powstał pod koniec roku 1999, pozostałe na przełomie roku 2000 i 2001 współpraca z Instytutem Fizjologii i Patologii Słuchu główne założenia wykorzystanie Internetu do prowadzenia badań HTML testy przesiewowe duża ilość materiałów informacyjnych dodatkowe urządzenia (kalibratory) pozwalające na uzyskanie powtarzalnych i porównywalnych wyników przesyłanie wyników do bazy danych Ogólne założenia małe wymagania sprzętowe prosty kod w HTML-u prosty interfejs wykorzystanie ciastek (cookies) do zapisu wyników badań dwie wersje: on-line i off-line w ostatnim czasie rozwijane wyłącznie wersję off-line 2
Słyszę miał działać na komputerach klasy 486 problem z prędkością łączy dźwięki były kompresowane do mp3, ściągane w tej postaci na dysk twardy użytkownika, specjalny program je wypakowywał, dekodował do WAV-a i dodawał szum problemy z kartami dźwiękowymi kalibrator wstępnie kalibrowany na sztucznym uchu Słyszę schemat badania ankieta osobowa z pytaniami test tonalny 1kHz, 2kHz, 4kHz dźwięki przeplatane ciszą testy mowy w szumie szum CCITT plansze z czterema wyrazami (test zamknięty) test obrazkowy dla dzieci młodszych wyrazy dwusylabowe test słowny dla dzieci starszych i dorosłych wyraz jednosylabowe diagnoza progi zaliczeniowe dobrane na podstawie testów pilotażowych 3
Zrozumiałość [%] SRT SDT Zrozumiałość [%] SRT SDT Audiometria słowna bez szumu 100 2-syl. 1-syl. słuch normalny 80 słuch uszkodzony 60 40 20 0 10 20 30 40 50 60 70 80 90 100 SPL [db] Audiometria słowna w szumie 100 80 60 L 40 20 0 10 20 30 40 50 60 70 80 90 100 SPL [db] 4
Widmo szumu CCITT i szumu Fastla Poziom [db] częstotliwość [Hz] Przebieg czasowy szumu CCITT i szumu Fastla szum CCITT szum Fastla czas [s] amplituda amplituda czas [s] 5
Zrozumiałość [%] Zrozumiałość [%] Porównanie szumów 100 Hojan, Fastl, (1996) słuch normalny 80 60 szum Fastla 40 szum CCITT 20 68 db SPL 0-20 -15-10 -5 0 5 10 S / N [db] Porównanie szumów 100 słuch uszkodzony 80 60 40 szum Fastla 20 szum CCITT 0-20 -15-10 -5 0 5 10 S / N [db] 6
Kalibracja (w procesie produkcji) Próbnik słuchu (komputer) Kalibrator Słuchawka Sztuczne ucho sygnał sinus, 1000 Hz, - 15 db U ref Miernik poziomu dźwięku 68,4 db SPL Kalibracja (po stronie użytkownika) Komputer Kalibrator Słuchawki za głośno + 0 - dobrze za cicho 7
Audiometria słowna zaleta audiometrii słownej w szumie: względna skala audiogramu (ważny stosunek S/N) zmniejszenie wymogów kalibracyjnych łatwa procedura kalibracyjna zaleta audiometrii słownej: minimalizacja wpływu szumów otoczenia Widzę opracowany we współpracy z prof. Szaflikiem bardziej zaawansowany niż Słyszę konieczna kalibracja monitora różnice między CRT, starymi LCD i nowymi LCD 8
Widzę schemat badania ankieta osobowa z pytaniami test różnicowania kontrastu pozwala wykryć poważniejsze problemy ze wzrokiem polega na prezentowaniu kół wypełnionych liniami o zmiennym kontraście; dodatkowo linie te nachylone są pod różnymi kątami: 0, +45 i -45 stopni test widzenia barwnego test widzenia stereoskopowego wykorzystuje anaglify Mówię największa liczba testów ocena motoryki narządów mowy, słuchu fonemowego, słuchu fonetycznego, artykulacji, powtarzanie słów, powtarzanie ciągu wyrazów, słuchowa analiza głoskowa, słuchowa synteza głoskowa, ocena słownictwa, ocena gramatyki polecenia czytane przez lektora najbardziej skomplikowany od strony graficznej konieczna osoba nadzorująca badania 9
Stan aktualny systemy w wersji Flash współpraca z YDP specjalne wersje dla dzieci przedszkolnych i ze specjalnymi potrzebami edukacyjnymi dodanie elementów audiometrii behawioralnej: filtrowane dźwięki zwierząt zamiast testu tonalnego instalowane na twardym dysku użytkownika specjalny program do analizowania wyników wyniki zapisywane w postaci plików tekstowych na dysku użytkownika obecnie także wersja na palmtopy Tinnitus miał służyć osobom cierpiącym na szumy uszne nie wykorzystywał testów pozwalał na odsłuchiwanie plików dźwiękowych praktycznie nie jest rozwijany 10
Audiometria komputerowa od końca lat 90-tych powstało kilka wersji komputerowych audiometrów podstawowe założenia dźwięki testowe nagrane na płycie CD w trybie Mixed-Mode aplikacja sterujące odtwarzaniem dźwięku zintegrowana baza danych kalibrator Porównanie z tradycyjnym audiometrem testy wykazały, że MAK wskazuje na większe ubytki niż tradycyjny audiometr średnia różnica wskazań mieści się w zakresie +/-5dB, za wyjątkiem najniższych częstotliwości różnice mogą być spowodowane słuchawkami Tonsil parametrami przetwornika C/A i wzmacniacza słuchawkowego 11
MAK 2007 zakres badania: 125 Hz do 8 khz możliwość dodawania szumu Jąkanie Jąkanie jest jedną z częściej spotykanych wad mowy ok. 0,5-1% populacji każdego kraju to osoby jąkające się jąkanie zakłóca proces komunikowania się jąkanie jest zaburzeniem złożonym i długotrwałym Patogeneza jąkania nie jest do końca poznana dziedziczne skłonności w formie niepełnowartościowego systemu wegatatywnego przyuczanie dzieci leworęcznych do posługiwania się prawą ręką ogólna niesprawność motoryczna silne emocje defekty kontrolnych pętli sprzężenia zwrotnego 12
Kontrolne pętle sprzężenia zwrotnego nadzorowanie procesu artykułowania mowy pętla dotykowa - prawidłowy ruch mięśni i stawów pętla audytywna - kontrola jakości wytworzonych dźwięków dokładna analiza i kontrola wypowiadanych słów oraz ruchów mięśni narządu mowy są niezbędne tylko na etapie nauki mówienia płynne mówienie jest możliwe dzięki zautomatyzowaniu procesu tworzenia mowy nadzorowanie przez mózg procesu mówienia po zakończeniu przyswajania mowy Audytywne sprzężenie zwrotne Modyfikacje wprowadzane w pętli audytywnego sprzężenia zwrotnego mogą poprawiać płynność mowy słuch ośrodek mowy narządy mowy przekształcenie sygnału mowy maskowanie sygnału mowy szumem (MAF Masked Auditory Feedback) opóźnianie sygnału mowy (DAF Delayed Auditory Feedback) transpozycja widmowa sygnału mowy (FAF Frequency Altered Feedback) Rozwój technologii pozwala na wprowadzanie modyfikacji w pętli audytywnego sprzężenia zwrotnego 13
Cyfrowy Korektor Mowy wynalazek prof. A. Czyżewskiego i dr M.R. Mieszkowskiego opracowany na początku lat 90. wykorzystuje algorytmy DAF i FAF Badania kliniczne skuteczności wybranych algorytmów korekcji mowy na przełomie 2002 i 2003 roku 100 korektorów trafia do poradni w całej Polsce opracowane zostają zasady prowadzenia terapii i oceny jej postępów wyniki nadsyłane z poradni są analizowane w celu oceny skuteczności algorytmów korekcji mowy próby wykonano z udziałem kilkuset osób, terapią objętych zostało 128 osób 14
Ocena postępów terapii ankiety dwa typy dotyczące (samo)oceny mowy pacjenta dotyczące korektora od strony technicznej pozwalają ocenić pacjenta nie tylko w sposób obiektywny, ale subiektywny próba sylabowa opracowana przez dr Z.M. Kurkowskiego podział wg wieku nagrania wypowiedzi Pacjenci głównie dzieci w wieku szkolnym 75% stanowili chłopcy zaledwie 30% ankietowanych stwierdziło, że ma w rodzinie osobę jąkającą się brak bezpośredniego powiązania z dziedzicznością jąkania zaledwie 9% osób leworęcznych brak bezpośredniego związku z leworęcznością większość osób zaczęła się jąkać w wieku ok. 5-7 lat potwierdzenie teorii wiążącej jąkanie z defektami kontrolnych pętli mowy 15
liczba osób Ocena skuteczności ponad 75% pacjentów dostrzega, że ich mowa w trakcie korzystania z korektora ulega poprawie ponad 70% osób twierdzi, że mówi bardziej płynnie także po wyłączeniu korektora w przypadku metody FAF pacjenci wybierali algorytmy o niewielkim przesunięciu na skali częstotliwości 66% osób nosząc korektor czuje się pewniej 25% osób uznaje noszenie korektora za coś wstydliwego Ocena skuteczności odsetek osób zauważających poprawę swojej mowy z podziałem na poszczególne algorytmy korekcji 90% 87,18% 85% 80% 81,25% 75% 72,88% 70% 65% DAF FAF DAF+FAF 16
wynik próby sylabowej [%] wynik próby sylabowej [%] wynik próby sylabowej [%] wynik próby sylabowej [%] Ocena skuteczności porównanie metod wyniki prób sylabowych 35 30 25 20 15 10 5 0 Bad. 1 Bad. 2 Bad. 3 Bad. 4 R1 R8 R11 R12 R14 R17 R21 R22 R23 R27 R36 R48 R50 R100 R104 pacjent metoda DAF 45 40 35 30 25 20 15 10 5 0 Bad. 1 Bad. 2 Bad. 3 Bad. 4 Bad. 5 Bad. 6 R5 R25 R28 R29 R37 R52 R53 pacjent R65 R107 R110 R121 R122 metoda DAF+FAF Ocena skuteczności porównanie metod wyniki prób sylabowych 35 30 25 20 15 10 5 0 45 40 35 30 25 20 15 10 5 0 Bad. 1 Bad. 2 Bad. 3 Bad.4 R18 R19 R24 R38 R79 R115 R118 R123 pacjent Bad. 1 Bad. 2 Bad. 3 Bad. 4 Bad. 5 Bad. 6 R5 R25 R28 R29 R37 R52 R53 R65 R107 R110 R121 R122 pacjent metoda FAF metoda DAF+FAF 17
Analiza mowy zaburzonej metody opracowane w Katedrze Systemów Multimedialnych analiza i detekcja przedłużeń analiza i detekcja powtórzeń analiza i detekcja przerw w fonacji wykorzystanie do wyznaczania częstotliwości tonu krtaniowego oraz częstotliwości i amplitudy formantów implementacja algorytmów w programie Matlab Analiza tonu krtaniowego sygnał mowy detekcja maksimów wygładzanie cepstralne segmentacja wyznaczenie współczynników cepstrum okienkowanie (okno Hamminga) normalizacja widma FFT ograniczenie szerokości widma logarytmowanie widma zbliżony algorytm dla obserwacji częstotliwości i amplitudy formantów 18
Analiza formantów sygnał mowy detekcja maksimów preemfaza 6dB/okt wygładzanie cepstralne segmentacja wyznaczenie współczynników cepstrum okienkowanie (okno Hamminga) FFT ograniczenie szerokości widma logarytmowanie widma pozwala na obserwację częstotliwości i amplitudy formantów Analiza tonu krtaniowego wyznaczenie współczynników cepstrum C r m i1 Ni cosr i m wygładzenie współczynników cepstrum estymacja częstotliwości m l f gdzie: r - rząd współczynnika cepstralnego, l pr - liczba próbek w ramce, i - numer kolejnej próbki widma, f p - częstotliwość próbkowania, N i - znormalizowana wartość logarytmu widma f c - maksymalna częstotliwość uwzględniona w analizie cepstralnej rmax W C r n n r cos m r1 gdzie: C r - kolejne współczynniki cepstralne l pr - liczba próbek w ramce, r - rząd współczynnika cepstralnego, f p - częstotliwość próbkowania, n - indeks częstotliwości, f c - maksymalna częstotliwość uwzględniona w analizie cepstralnej fˆ 1 r c n im n im W i i W i pr p gdzie: W i kolejny współczynnik cepstralny i, r c rozdzielczość analizy cepstralnej (w opisywanych eksperymentach wynosząca 0,1814ms), m, n numery współczynników cepstralnych obejmujące maksimum pochodzące od tonu krtaniowego f c 19
Wyniki analiz obserwacja zmian częstotliwości tonu krtaniowego metoda FAF zwiększanie częstotliwości (poziom istotności p<0,07) wynika z prób kompensowania różnic między wysokością dźwięku wytwarzanego a słyszalnego w słuchawce metoda DAF zmniejszanie częstotliwości spowodowane zmniejszeniem napięcia mięśni artykulacyjnych pod wpływem redukcji stresu związanego z mówieniem przy wspomaganiu z użyciem korektora mowy metoda DAF+FAF brak znaczących zmian opóźnienie zmniejszało korelację pomiędzy artykułowaną i percypowaną wypowiedzią - w efekcie nie występowało zjawisko kompensowania wysokości dźwięku obserwacja częstotliwości i amplitudy formantów brak znaczących zmian Korektor subminiaturowy - założenia wymiary identyczne z wymiarami wewnątrzusznych aparatów słuchowych nie jest konieczne korzystanie z dwóch aparatów (dwóch słuchawek ) użycie algorytmów DAF, FAF, DAF+FAF dodatkowe możliwości obróbki sygnału, a co z tym związane nowe algorytmy subminiaturowy procesor sygnałowy 20
Procesor subminiaturowy programowanie w języku asembler w celu uzyskania wysokiej wydajności parametry ustawiane z poziomu komputera PC częstotliwość zegara: 640kHz-3,84MHz częstotliwość próbkowania - od ok. 5kHz do 60kHz Subminiaturowy Korektor Mowy zaproponowano nowe algorytmy korekcji mowy FAF-DAF okresowa zmiana FAF na DAF algorytm pogłosowy rozwinięcie typowej metody DAF modulacja opóźnienia powoduje powstanie efektu chóralnego dodatkowe algorytmy procesor dynamiki korektor barwy klucz głosowy sygnalizacja stanu baterii 21
Subminiaturowy Korektor Mowy parametry procesora: częstotliwość zegara: 1,92MHz częstotliwość próbkowania: 16kHz liczba pasm: 16 (32-punktowa FFT) zaproponowano nowe algorytmy korekcji mowy FAF-DAF okresowa zmiana FAF na DAF algorytm pogłosowy rozwinięcie typowej metody DAF modulacja opóźnienia powoduje powstanie efektu chóralnego dodatkowe algorytmy procesor dynamiki korektor barwy klucz głosowy sygnalizacja stanu baterii Subminiaturowy Korektor Mowy zmiana parametrów z poziomu komputera PC przystawka podłączana do portu szeregowego komputera dodatkowe oprogramowanie umożliwia zmiany wszelkich parametrów korektora wstępne ustawienia dobrane na podstawie eksperymentów 22
błąd względny Weryfikacja poprawności działania obiektywne sprawdzenie parametrów pobór prądu (typowo ok. 300μA) poprawność działania algorytmów sprawdzenie w warunkach klinicznych trzy osoby, które wcześniej nie korzystały z elektronicznych metod korekcji mowy dwie sesje testowe teksty: ok. 200-250 sylab każda niepłynność liczona jako jeden błąd suma błędów odniesiona do liczby sylab w tekście wyznacznikiem stopnia nasilenia jąkania mierzony także czas wypowiedzi Ocena skuteczności błąd względny 12 10 P1 P2 P3 8 6 4 2 0 bez korekcji DAF FAF DAF+FAF pogłos FAF-DAF mod. opóź. mod. opóź. I II 23
Analiza mowy zmiany częstotliwości tonu krtaniowego mają charakter osobniczy DAF FAF DAF+FAF pogłos FAF-DAF mod. opóź. I mod. opóź. II P1 0,027 0,768 0,375 0,350 0,377 0,878 0,966 P2 0,027 0,738 0,137 0,072 0,779 0,022 0,142 P3 0,218 0,864 0,084 0,687 0,753 0,031 0,454 wszyscy 0,773 0,677 0,392 0,167 0,571 0,109 0,358 nie jest możliwe bezpośrednie porównanie wpływu urządzenia obuusznego (np. Cyfrowego Korektora Mowy) oraz urządzenia jednousznego Komputerowy korektor Mowy pracuje na dowolnym komputerze klasy PC wyposażonym w kartę dźwiękową (oraz mikrofon i słuchawki) zaimplementowane algorytmy metronom maskowanie mowy szumem (MAF) opóźnienie sygnału mowy (DAF) przesunięcie sygnału mowy w dziedzinie częstotliwości (FAF) 24
Pomoce dla osób po laryngektomii mowa jest jedną z najbardziej podstawowych form komunikacji między ludźmi jednym z najpoważniejszych zabiegów ingerujących w funkcjonowanie aparatu mowy jest laryngektomia zaproponowane rozwiązania: Cyfrowa Krtań Elektroniczna Syntetyzer Komunikatów Głosowych Sztuczna krtań zawiera wyłącznie elementy elektromechaniczne generator impulsów oraz cewkę z nurnikiem uderzającym w membranę generowane drgania są wprowadzane do jamy ustnej i gardła poprzez przyłożenie urządzenia do skóry szyi na mowę nałożony jest szum (warkot) urządzenia, co negatywnie wpływa na jej zrozumiałość. Mowa brzmi przy tym bardzo sztucznie i monotonnie. W efekcie zrozumiałość mowy szacuje się na ok. 60%. 25
Cyfrowa Krtań Elektroniczna dzięki zastosowaniu cyfrowego przetwarzania sygnałów możliwe jest zredukowanie poziomu zakłóceń i poprawa jakości generowanej mowy Cyfrowa Krtań Elektroniczna Schemat blokowy: regulacja wsp. wzmocnienia membrana cewka wzmacniacz generator impulsów regulacja częstotliwości procesor sygnałowy wzmacniacz akustyczny ustawienie poziomu redukcji zakłóceń regulacja głośności 26
Cyfrowa Krtań Elektroniczna Zastosowane algorytmy: redukcja warkotu wibratora odejmowanie widmowe filtracja grzebieniowa eliminacja sprzężeń zwrotnych modulacja opóźnienia - wprowadza wolnozmienną modulację częstotliwości transpozycja widmowa przesuwa mowę na skali częstotliwości Odejmowanie widmowe polega na systematycznym określaniu średniego widma sygnału i średniego widma szumu we fragmentach nagrania oraz dokonywaniu odejmowania obu reprezentacji widmowych sygnał zaszumiony może być opisany wzorem: y[m] = x[m] + n[m] gdzie x[m] to sygnał mowy a n[m] jest niepożądanym szumem/zakłóceniami (od mechanicznej części sztucznej krtani) w dziedzinie widma widmo sygnału ma postać: X(jω) = Y(jω) - N(jω) ponieważ widmo zakłóceń N(jω) jest nieznane, używa się estymaty N e (jω) X(jω) 2 = Y(jω) 2 N e (jω) 2 27
Odejmowanie widmowe problemy zarówno mowa, jak i zakłócenia mają to samo źródło i są ze sobą ściśle skorelowane dla dźwięcznych głosek widmo zakłóceń musi być estymowane z sygnału rejestrowanego, gdy pacjent ma zamknięte usta pacjenci muszą mieć zamknięte usta przez pierwszą sekundę po włączeniu sztucznej krtani Odejmowanie widmowe parametry procesora: częstotliwość zegara: 1.28MHz; częstotliwość próbkowania: 10.7kHz; liczba podpasm: 64 (128 points FFT); rozdzielczość częstotliwościowa wynosi ok. 83Hz. 28
Odejmowanie widmowe unprocessed sound dźwięk nieprzetworzony after spectral subtraction po filtracji Filtracja grzebieniowa prostszy algorytm charakterystyka widmowa filtru umożliwia precyzyjne wstrojenie się w maksima sygnału zakłócającego główna zaleta: nie jest konieczne estymowanie widma zakłóceń, więc pacjent może mówić natychmiast po włączeniu urządzenia 29
Filtracja grzebieniowa filtr grzebieniowy może być opisany wzorem: y[n] = x[n] + αx[n-k] gdzie x[n] i y[n] oznaczają sygnał wejściowy i wyjściowy, α jest współczynnikiem mnożenia, k oznacza opóźnienie w próbkach widmo amplitudowe jest opisane wzorem: H(jω) = [(1+α 2 )+2α cos(ωk)] -1/2 Implementacja α = 1 1 k 64 Filtracja grzebieniowa 30
Filtracja grzebieniowa dźwięk nieprzetworzony po filtracji Eliminacja sprzężenia zwrotnego problem ze sprzężeniami zwrotnymi niewielka odległość między mikrofonem i głośnikiem (ok. 15-20cm) testowane rozwiązania filtr typu notch modulacja opóźnienia transpozycja widmowa 31
Eliminacja sprzężenia zwrotnego filtr typu notch brak możliwości wprowadzenia adaptacji - niewystarczające możliwości obliczeniowe procesora modulacja opóźnienia wprowadza minimalne zmiany częstotliwości dźwięk sygnał modulujący - sinus okres sygnału modulującego: 1,5 s, średnie opóźnienie: 30-35 ms zakres zmian opóźnienia: +/-4 ms transpozycja widmowa zbliżona do metody FAF wielkość transpozycji: 6% w dół oktawy Wstępne testy pacjenci oceniali część mechaniczną porównywalnie lub nawet wyżej niż w przypadku tradycyjnych sztucznych krtani problemy z częścią DSP pacjenci przyzwyczajani byli do mówienia natychmiast po włączeniu urządzenia, więc efekty działania odejmowania widmowego były słabe pacjenci w zasadzie odrzucili modulację opóźnienia, wskazywali, że generowany dźwięk brzmi sztucznie najlepsze wyniki uzyskano dla filtracji grzebieniowej z transpozycją widmową 32
Syntetyzer Komunikatów Słownych Urządzenie ma służyć osobom zmuszonym do tymczasowego zaprzestania komunikacji głosowej, z powodu rehabilitacji po laryngektomii elementy składowe: przenośny komputer klasy PocketPC oprogramowanie umożliwiające wybór, edycję i odtwarzanie komunikatów słownych bardzo przyjazny interfejs użytkownika duże, kolorowe ikony z opisem, odpowiadające poszczególnym kategoriom możliwości wpisywania własnego tekstu rozbudowane opcje sterujące wyświetlaniem tekstu na ekranie Syntetyzer Komunikatów Słownych Przygotowany zestaw komunikatów głosowych dotyczy sytuacji występujących w codziennym życiu osób rehabilitowanych. Przykłady wygenerowanych zdań: zakupy Proszę chleb korzystanie ze środków transportu Poproszę bilet ulgowy do Gdańsk. wizyta u lekarza Bardzo boli mnie głowa nieskomplikowana rozmowa Cześć, co u ciebie słychać? 33
DZIĘKUJĘ ZA UWAGĘ 34