W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania ćwiczenia: Ćwiczenie prowadził: Nazwisko i imię: Ocena...... 1.... 2.... Uwagi: Podpis: S P R A W O Z D A N I E Z Ć W I C Z E N I A L A B O R A T O R Y J N E G O Temat: Badanie eksploatacyjne automatycznego systemu rozpoznawania mówcy 1. INSTRUKCJA OBSŁUGI PROGRAMU ASR_1_WAT Program może funkcjonować w dowolnie wybranym folderze, przy czym wszystkie plików dźwiękowe oraz ewentualne tablice z wektorami cech (pliki *.mat) powinny być również zapisane w tym folderze. Program uruchamia się poprzez wywołanie dowolnym sposobem polecenia ASR_1_WAT.exe. Program operuje na plikach dźwiękowych w formacie.wav, o parametrach: fp = 22050 Hz, 16 bitów, nagranie monofoniczne. Po uruchomieniu programu otwiera się okno główne przedstawione na poniższym rysunku. W grupie NAGRYWANIE: pole PODAJ CZAS NAGRANIA umożliwia zdefiniowanie długości nagrania, jakiego można dokonać przy użyciu dowolnie zainstalowanego w komputerze mikrofonu. Po nagraniu możliwie jest odtworzenie zarejestrowanego sygnału mowy poprzez intuicyjnie oznaczone przyciski. PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 1 z 8
W grupie BAZA_DANYCH_DODAWANIE_NOWEJ_OSOBY możliwie jest zapisanie sygnału, nagranego przy użyciu opcji NAGRYWANIE, do pliku w formacie.wav (fp = 22050 Hz, 16 bitów, nagranie monofoniczne). Zapis obejmuje podanie akronimu imienia i nazwiska, przy czym zapisywany plik musi posiadać końcówkę _u, która świadczy, iż jest to plik przeznaczony do uczenia, tj. plik, który będzie zapisany w bazie jako plik referencyjny do porównań. Dodatkowo w ramach zapisywania pliku dokonuje się jednoczesnego obliczenia odpowiadających mu wektorów cech. W tym celu w polu Podaj ile VP określa się liczbę wektorów cech, a w polu Podaj z jakich czasów można dodatkowo określić, z jakich odcinków czasowych nagranego sygnału mowy, będą one obliczane. Przy użyciu przycisku DODAJ DO BAZY następuje automatyczny zapis pliku do folderu, w którym znajduje się program oraz równoległe obliczenie odpowiednich wektorów cech i zapisanie ich w tablicy pod taką samą nazwą jak zapisywany plik audio, z tym że z rozszerzeniem.mat. W grupie BAZA_DANYCH_UAKTUALNIENIE_MACIERZY_CECH program wyświetla listę plików typu.wav, które znajdują się w docelowym folderze, z którego dokonano uruchomienia programu. Dodatkowo można dokonać odsłuchu wybranego pliku. Po kliknięciu na wybrany plik wyświetla się informacja o czasie jego trwania. W tym panelu można przeprowadzić obliczenia wektorów cech dla wybranych z listy plików. Istnieje również opcja wyświetlenia wartości obliczonych cech poprzez kliknięcie na pole: POKAŻ OBLICZONE CECHY. W trakcie generacji wektorów cech obserwujemy wskaźnik postępu pracy systemu. Następnie pojawia się dodatkowy komunikat programu o obliczeniu wektorów cech, po kliknięciu przycisku OK, powraca się do programu i możliwe jest wyświetlenie obliczonych wartości wektorów cech. W grupie IDENTYFIKACJA/WERYFIKACJA możliwe jest przeprowadzenie identyfikacji na dwa różne sposoby. Pierwszy z nich umożliwia identyfikację głosu pochodzącego bezpośrednio z mikrofonu zarejestrowanego przy użyciu panelu NAGRYWANIE. W takim przypadku uruchamia się procedurę identyfikacji poprzez naciśnięcie przycisku: GŁOS NAGRANY. Alternatywnym sposobem jest identyfikacja na bazie dowolnie wybranego pliku typu.wav wczytanego przy użyciu przycisku: GŁOS Z PLIKU. Dla każdego z tych sposobów identyfikacji można określić długość wypowiedzi jaka będzie podlegać rozpoznaniu, wpisując wybraną wartość w pole: CZAS TESTOWANIA. Również w tym przypadku obserwujemy wskaźnik postępu pracy systemu, by w końcowym etapie otrzymać tabelaryczne zestawienie najbardziej podobnych klas w odniesieniu do testowanej wypowiedzi. W kolejnych kolumnach tabeli umieszczone są odpowiednio: akronim rozpoznanej klasy (imię i nazwisko), nazwa rozpoznanego pliku.wav, liczbowa wartość podobieństwa rozpoznanej klasy do aktualnie identyfikowanego nagrania. W kolejnych kolumnach tabeli umieszczone są odpowiednio: akronim rozpoznanej klasy, PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 2 z 8
nazwa rozpoznanego pliku.wav, liczbowa wartość podobieństwa rozpoznanej klasy do aktualnie identyfikowanego nagrania. Program umożliwia również rozpoznawanie w trybie weryfikacji w tym przypadku następuje porównanie 1:1. Analiza wyników eksperymentów System ASR_1_WAT został wyposażony w dodatkową metodę decyzyjną związaną z określaniem podobieństw rozpoznawanych głosów. W związku z tym wyniki każdego z eksperymentów można analizować na dwa różne sposoby. Pierwszym z nich jest ocena biorąca pod uwagę jedynie binarną decyzję systemu co do rozpoznania. Zgodnie z nią za poprawną identyfikację uważa się taką, dla której rozpoznawana klasa wystąpi na pierwszej pozycji w rankingu rozpoznanych klas - identyfikacja binarna. Drugim wariantem, jest rozszerzenie pojęcia poprawności identyfikacji do sytuacji, w której jako sukces traktuje się obecność prawidłowej klasy w pewnym podzbiorze (max. czterech) klas wyselekcjonowanych przez system - identyfikacja rankingowa. Poniżej przedstawiono poprawną identyfikację, w której prawidłowo rozpoznana klasa znalazła się na 3 pozycji. 2. ZADANIA Zadanie 1. Analiza możliwości programu ASR_1_WAT Po zapoznaniu się z instrukcją obsługi programu ASR_1_WAT przetestować następujące funkcjonalności programu: nagrywanie, rejestrację nowego użytkownika do bazy systemu, identyfikację użytkownika, weryfikację użytkownika, generację odcisku głosu dla wcześniej zarejestrowanego pliku. PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 3 z 8
Sluteczność rozpoznania Zadanie 2. Badanie wpływu długości wypowiedzi testowej na skuteczność rozpoznania Celem zadania jest ocena skuteczności działania systemu w zależności od czasu trwania wypowiedzi testowej, przy zachowaniu stałej długości czasu uczenia. Badań należy dokonać w oparciu o wybrane do testów pliki.wav.. Plik musi posiadać końcówkę _t, która świadczy, iż jest to plik przeznaczony do testowania. Pliki te znajdują się w oddzielnym folderze pliki testowe i są takie same dla wszystkich wariantów badań. Badanie przeprowadzić w następującej kolejności: Stworzyć bazę modeli dla 20 mówców (Uaktualnij cechy VP) dla następujących parametrów: Czas uczenia: 60 Podaj ile VP: 10 Podaj z jakich czasów: 15 Testowanie (tryb identyfikacji) przeprowadzić dla wypowiedzi testowej o długości: 10 s, 5 s oraz 3 s. Badania należy wykonać z zastosowaniem identyfikacji binarnej oraz identyfikacji rankingowej, a wyniki umieścić oraz zobrazować na wykresie. W celu określenia skuteczności działania systemu na wybranej grupie mówców, należy obliczyć tzw. globalny błąd rozpoznania. Wyciągnąć wnioski komentując wpływ skracania wypowiedzi testowej na skuteczność działania systemu. Dodatkowo zanotować, czy błędy rozpoznania występują dla tych samych klas we wszystkich wariantach działania systemu. Zaobserwować czas działania systemu w zależności od długości wypowiedzi testowej. Identyfikacja binarna Identyfikacja rankingowa Długość wypowiedzi testowej [s] Liczba błędów % błąd rozpoznania Liczba błędów % błąd rozpoznania 10 5 3 100 95 90 Długość wypowiedzi testowej a skuteczność rozpoznania 85 80 75 IB IR 70 65 60 10 s 5 s 3 s Długość wypowiedzi testowej PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 4 z 8
Sluteczność rozpoznania Zadanie 3. Badanie wpływu długości wypowiedzi uczącej na skuteczność rozpoznania Celem zadania jest ocena skuteczności działania systemu w zależności od czasu trwania wypowiedzi uczącej, przy zachowaniu stałej długości czasu testowania. Ze względu na czasochłonne obliczenia wszystkie niezbędne modele mówców dla poszczególnych wariantów badania zostały zebrane w odpowiednich folderach (uczenie 90_s, uczenie 60_s, uczenie 30_s) odpowiadających kolejno długościom wypowiedzi uczącej 90, 60 oraz 30 sekund. Pliki testowe znajdują się w oddzielnym folderze pliki testowe i są takie same dla wszystkich przeprowadzonych wariantów badań. Dla każdego z wariantów badania należy przeprowadzić następujące eksperymenty: Testowanie (tryb identyfikacji) przeprowadzić dla wypowiedzi testowej o długości: 10 s. Badania należy wykonać z zastosowaniem identyfikacji binarnej oraz identyfikacji rankingowej a wyniki umieścić oraz zobrazować na wykresie. W celu określenia skuteczności działania systemu na wybranej grupie mówców, należy obliczyć tzw. błąd globalny rozpoznania. Wyciągnąć wnioski komentując wpływ skracania wypowiedzi uczącej na skuteczność działania systemu. Dodatkowo zanotować, czy błędy rozpoznania występują dla tych samych klas we wszystkich wariantach działania systemu. Zaobserwować czas działania systemu w zależności od długości wypowiedzi testowej Identyfikacja binarna Identyfikacja rankingowa Długość wypowiedzi uczącej [s] Liczba błędów % błąd rozpoznania Liczba błędów % błąd rozpoznania 90 60 30 100 Długość wypowiedzi uczącej a skuteczność rozpoznania 95 IB 90 IR 85 90 s 60 s 45 s Długość wypowiedzi uczącej PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 5 z 8
Sluteczność rozpoznania Zadanie 4. Badanie wpływu liczebności bazy mówców na skuteczność rozpoznania Celem badania jest ocena wpływu wielkości populacji na skuteczność działania systemu ASR. Eksperymenty przeprowadzić w następującej kolejności: Stworzyć bazę modeli dla 40 mówców (Uaktualnij cechy VP) dla następujących parametrów: Czas uczenia: 60 Podaj ile VP: 10 Podaj z jakich czasów: 15 Do testów należy użyć wypowiedzi testowej o długości 10 s (tryb identyfikacji). Badania należy wykonać z zastosowaniem identyfikacji binarnej oraz identyfikacji rankingowej a wyniki umieścić oraz zobrazować na wykresie. W celu określenia skuteczności działania systemu na wybranej grupie mówców, należy obliczyć tzw. błąd globalny rozpoznania. Porównać otrzymane wyniki z adekwatnymi wynikami dla dwukrotnie mniejszej bazy mówców Wyciągnąć wnioski komentując wpływ podwojenia liczebności bazy mówców na skuteczność działania systemu. Zaobserwować czas działania systemu. Identyfikacja binarna Identyfikacja rankingowa Liczebność bazy mówców Liczba błędów % błąd rozpoznania Liczba błędów % błąd rozpoznania 20 40 100 Rozmiar polulacji a skuteczność rozpoznania 95 90 IB IR 85 80 20 40 Rozmiar populacji PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 6 z 8
Zadanie 5. Badanie systemu w trybie weryfikacji Celem eksperymentów jest określenie progu podobieństwa, powyżej którego system uznaje osobę weryfikowaną za tą, za którą się podaje. Liczebność populacji: 20 mówców. Badania przeprowadzić w następującej kolejności: Badania przeprowadzić korzystając z katalogu: zadanie 2 Zastosować tryb weryfikacji Do testów należy użyć wypowiedzi testowej o długości 10 s Zanotować wyniki w tabeli, z zaznaczeniem najmniejszej oraz największej wartości podobieństwa Określić próg podobieństwa i odpowiadającą mu skuteczność działania systemu Wyciągnąć wnioski co do skutków przyjęcia konkretnych wartości progu podobieństwa, Jaki ma to wpływ na działanie całego systemu? PLIK TESTOWY 1_aa_01 2_aa_01 3_aa_01 4_aa_01 5_aa_01 6_aa_01 7_aa_01 8_aa_01 9_aa_01 10_aa_01 11_aa_01 12_aa_01 13_aa_01 14_aa_01 15_aa_01 16_aa_01 17_aa_01 18_aa_01 19_aa_01 20_aa_01 podobieństwo 3. SPOSTRZEŻENIA I WNIOSKI PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 7 z 8
PRZETWARZANIE SYGNAŁÓW BIOMETRYCZNYCH str. 8 z 8