System dialogowy języka mówionego przegląd problemów
|
|
- Stanisława Karczewska
- 9 lat temu
- Przeglądów:
Transkrypt
1 BIULETYN INSTYTUTU AUTOMATYKI I ROBOTYKI NR 24, 2007 System dialogowy języka mówionego przegląd problemów Andrzej M. Wiśniewski STRESZCZENIE: Przedstawiono strukturę systemu dialogowego języka mówionego. Scharakteryzowano poŝądane własności składników funkcjonalnych systemu: urządzenia rozpoznawania mowy, procesora językowego, sterownika (menedŝera) dialogu i syntezatora mowy. Scharakteryzowano przykładowe realizacje systemów dialogowych języka mówionego. SŁOWA KLUCZOWE: system dialogowy, rozpoznawanie mowy, rozumienie mowy, synteza mowy 1. Wprowadzenie Rośnie zapotrzebowanie na informację. Coraz więcej ludzi wykorzystuje Internet poszukując informacji dla celów edukacyjnych, finansowych, rozrywkowych czy do podejmowania decyzji. Coraz częściej ludzie są zainteresowani dostępem do informacji w ruchu (w kaŝdej chwili, w dowolnym miejscu), poprzez telefon (stacjonarny, komórkowy czy internetowy). Wtedy tradycyjna klawiatura i myszka są niepraktyczne lub niedostępne. Wygodnym rozwiązaniem jest zastosowanie interfejsu głosowego, który zapewni uŝytkownikowi moŝliwość mówienia i słyszenia w języku naturalnym. Dotyczy to zwłaszcza małych, mieszczących się w dłoni urządzeń (ipod, palmtop) oraz dostępnych przez telefon portali głosowych, ale równieŝ komputerów przenośnych i stacjonarnych. Język mówiony jest atrakcyjny, poniewaŝ jest najbardziej naturalnym, najefektywniejszym i najtańszym sposobem komunikacji między ludźmi. Dialog jest interakcją (wzajemnym oddziaływaniem, współdziałaniem) pomiędzy uŝytkownikiem i komputerem w osiągnięciu szczególnego celu (norma ISO 9241). UŜytkownik jest osobą współdziałającą z komputerem. JeŜeli parę: akcja uŝytkownika i skojarzona z nią odpowiedź komputera (lub na odwrót), nazwiemy transakcją, wtedy dialog jest serią transakcji. Transakcja jest 97
2 Andrzej M. Wiśniewski najmniejszą jednostką interakcji człowiek komputer. W ostatniej dekadzie jesteśmy świadkami powstawania nowego rodzaju interfejsu człowiek - komputer, umoŝliwiającego uŝytkownikom komunikowanie z komputerem za pomocą dialogu (języka) mówionego. Na interfejs uŝytkownika składają się: sterowanie (umoŝliwia uŝytkownikowi tworzenie i przekazywanie poleceń i danych do komputera), zobrazowanie (umoŝliwia komputerowi zwracanie się, mówienie, do uŝytkownika) i dialog. Aby zapewnić skuteczny i wygodny dostęp do informacji, a takŝe umoŝliwić ich wytwarzanie i przetwarzanie, interfejs łączy kilka technologii języka naturalnego. 2. System dialogowy System dialogowy jest interfejsem systemu komputerowego, przeznaczonym do konwersacji z człowiekiem. System dialogowy wykorzystuje tekst, mowę, grafikę, sensory, stymulatory, gestykulację i inne sposoby komunikacji na wejściu i wyjściu interfejsu. Celem systemu dialogowego jest ułatwić uŝytkownikowi realizację usługi, której sformułowanie (przeprowadzenie) za pomocą pojedynczego zdania moŝe być niemoŝliwe. Typowy scenariusz realizacji usług w systemie dialogowym jest następujący: - uŝytkownik chce uzyskać informacje zawarte w bazie danych (np. rozkład jazdy pociągów, serwis bankowy) za pomocą telefonu, - uŝytkownik, przy pomocy systemu dialogowego, dostarcza niezbędnych danych do wyszukania poŝądanej informacji, - system przejmuje kierowanie dialogiem, gdy pojawiają się niezrozumienia. Architekturę typowego systemu dialogowego języka mówionego (spoken dialogue system, SDS) przedstawia rys. 1. Działanie SDS przebiega następująco: - całością steruje sterownik dialogu, który umoŝliwia wymianę informacji z uŝytkownikiem, a tym samym dostęp do bazy danych i jej uaktualnianie, - interakcja składa się z sekwencji transakcji (cyklów pytanie/odpowiedź), gdzie pytania są tak projektowane, aby ograniczyć odpowiedź do określonego zbioru informacji, - odpowiedź uŝytkownika jest przetwarzana przez urządzenie 98 Biuletyn Instytutu Automatyki i Robotyki, 24/2007
3 System dialogowy języka mówionego rozpoznawania mowy, którego wyjście (zwykle niejednoznaczne) jest przekształcane przez interpreter języka naturalnego np. parser (natural language processing, NLP) - do postaci quasi-logicznej, - sterownik, bazując na nowym wejściu, uaktualnia swój wewnętrzny stan i planuje następną akcję, - postępowanie trwa, aŝ potrzeby uŝytkownika zostaną zaspokojone wtedy interakcja jest przerywana. Baza danych Sterownik dialogu Generator tekstu Parser (NLP) UŜytkownik Syntezator (TTS) Urządzenie rozpoznawania mowy Rys. 1. Architektura systemu dialogowego języka mówionego (SDS) Stosuje się zamiennie następujące terminy: system dialogowy języka mówionego, interfejs konwersacyjny, system konwersacyjny. MoŜliwe są róŝne modyfikacje przedstawionej architektury systemu Biuletyn Instytutu Automatyki i Robotyki, 24/
4 Andrzej M. Wiśniewski dialogowego, dostosowujące jego właściwości do potrzeb konkretnej aplikacji, np. uzupełnienie kanału głosowego na wyjściu interfejsu kanałem wizualnym (w przypadku, gdy wyjście ma równieŝ postać rysunków, tablic czy teksu wyświetlanego na ekranie monitora). Kryteria projektowania SDS są róŝnorodne i zmieniają się, lecz podstawowym celem jest realizacja systemu, który umoŝliwi uŝytkownikowi szybką i dokładną realizację poŝądanych zadań, w szczególności uzyskanie informacji. Aby osiągnąć ten cel, naleŝy zaprojektować odpowiedni dialog, wiernie rozpoznawać mowę, zdefiniować miary zaufania do wyników rozpoznawania oraz generować istotne i dokładne prozodycznie wiadomości wyjściowe. Dialog powinien zapewnić inicjatywę zarówno uŝytkownikowi, jak i systemowi (mixed-initiative) i nie powinien ograniczać uŝytkownika do odpowiedzi na proste pytania systemu. W procesie projektowania SDS istotne są następujące zadania: - specyfikowanie dialogu i sterowanie jego przebiegiem, - ograniczenie zakresu rozpoznawania wypowiedzi do dziedziny aplikacji i interpretacja wyjścia urządzenia rozpoznawania mowy, - generowanie odpowiedzi właściwej kontekstowo (zgodnej z dotychczasowym przebiegiem dialogu). System dialogowy charakteryzują następujące własności: - pracuje w ograniczonej znaczeniowo dziedzinie - ograniczony słownik (najwyŝej kilka tysięcy słów, zwykle około tysiąca), - przeznaczony jest do pracy z uŝytkownikami nieprzygotowanymi (a więc rozpoznający mowę ciągłą, rozumiejący mowę spontaniczną i równowaŝniki zdań, radzący sobie z fragmentami słów, zjawiskami pozalingwistycznymi, czy przerwami wypełnionymi dźwiękami bez znaczenia, typu: mmm, aaa), - zapewnia ograniczoną swobodę dialogu (uŝytkownik nie jest całkowicie swobodny: formułowane zdania mogą być zbyt długie i złoŝone, mogą przekraczać moŝliwości rozumienia systemu) - sterowanie przejmowane jest przez system, gdy pojawiają się kłopoty ze zrozumieniem, - umoŝliwia naturalną interakcję - uŝytkownik moŝe odwoływać się do informacji, która pojawiła się w dialogu wcześniej i realizacja Ŝyczenia musi brać pod uwagę wszystkie dotąd zebrane informacje, - dostarcza sposobów pokonania trudności - zachęca do uŝywania krótkich wypowiedzi, aby zmniejszyć ryzyko błędów rozpoznawania, oferuje sposoby wznowienia rozmowy po błędach rozumienia. Interakcję w systemie dialogowym języka mówionego powinny 100 Biuletyn Instytutu Automatyki i Robotyki, 24/2007
5 System dialogowy języka mówionego cechować: - niezaleŝność od mówcy, - stosowanie mowy ciągłej (menu ze słowami izolowanymi jest zwykle niepraktyczne), - stosowanie swobodnego i naturalnego języka (od przypadkowych uŝytkowników trudno wymagać stosowania prawidłowej syntaktyki), - zapewnienie zarządzania dialogiem (sterowanie dialogiem musi być tak zaprojektowanie, aby pogodzić swobodę uŝytkownika z koniecznością zachowania kontroli systemu). 3. Struktura systemu dialogowego języka mówionego Strukturę funkcjonalną systemu dialogowego języka mówionego przedstawia rys. 2. Oprócz elementów składowych systemu pokazano dziedzinowy zakres wiedzy wykorzystywanej podczas tworzenia systemu dialogowego, jak równieŝ główne modele konstruowane na potrzeby kolejnych etapów przetwarzania danych w systemie. PoniŜej omówiono główne własności elementów funkcjonalnych systemu dialogowego Własności systemu rozpoznawania mowy Rozpoznawanie mowy, będące elementem wstępnym i bardzo istotnym dla wszystkich kolejnych działań oraz dla jakości pracy całego systemu dialogowego, powinno cechować się: - niezaleŝnością od mówcy, - moŝliwością rozpoznawania mowy ciągłej (spontanicznej), - określonym precyzyjnie słownikiem rozpoznawanych słów (w zasadzie powinien zawierać wszystkie słowa, których moŝe uŝyć uŝytkownik), - umiejętnością reakcji na nieznane słowo lub zdarzenie nielingwistyczne (kaszel, niepewność, przerwy, powtórzenia). Współcześnie w automatycznym rozpoznawaniu mowy stosowane są podejścia, określane jako: akustyczno fonetyczne (acoustic-phonetic approach), rozpoznawania wzorców (pattern-recognition, template-based approach). Metoda akustyczno-fonetyczna automatycznego rozpoznawania mowy Biuletyn Instytutu Automatyki i Robotyki, 24/
6 Andrzej M. Wiśniewski bazuje na załoŝeniu, Ŝe: - istnieje skończona liczba dźwięków (symboli dźwiękowych) języka mówionego, - dźwięki są w pełni rozróŝnialne poprzez zbiór charakterystyk akustycznych, które są wynikiem badań akustyczno fonetycznych nad sygnałem mowy. Pierwsze załoŝenie jest spełnione: kaŝdy dźwięk jest generowany przy określonej konfiguracji traktu głosowego. Co prawda liczba moŝliwych konfiguracji traktu głosowego jest nieograniczona, lecz ze względu na moŝliwości percepcji sygnału mowy przez człowieka, liczba rozpoznawanych dźwięków mowy w kaŝdym znanym języku naturalnym jest skończona. Sygnał mowy jest sekwencją dźwięków (jednostek akustycznych), które są realizacją fizyczną indeksowanych unikalną nazwą jednostek fonetycznych. RozróŜnialność dźwięków jest trudnym do spełnienia wymaganiem, poniewaŝ sygnał mowy charakteryzuje się duŝą zmiennością związaną z mówcą, wpływem kanału transmisji oraz kontekstem (sąsiedztwem innych dźwięków). W rozpoznawaniu akustyczno fonetycznym najczęściej stosuje się najmniejszą jednostkę fonetyczną fonem, traktowany jako zespół cech dystynktywnych (jego realizacją fizyczną jest głoska, czyli dźwięk mowy). Stosowana teŝ bywa sylaba, w której zasadniczą rolę odgrywa samogłoska. Model akustyczny Model języka Model dialogu Decyzja o końcu analizy sygnał System tekst Procesor znaczenie MenadŜer tekst Syntezator sygnał rozpoznawania mowy językowy dialogu mowy mowy operacyjne mowy Akustyka Fonetyka Leksyka Leksyka Syntaktyka Semantyka Generator języka naturalnego Baza danych Baza jednostek fonetycznych Rys. 2. Struktura funkcjonalna systemu dialogowego języka mówionego Na rys. 3 przedstawiono główne zadania realizowane w procesie 102 Biuletyn Instytutu Automatyki i Robotyki, 24/2007
7 System dialogowy języka mówionego rozpoznawania mowy metodami akustyczno-fonetycznymi. Wynikiem analizy sygnału mowy (najczęściej stosowana jest analiza widmowa) jest wykrycie cech akustycznych umoŝliwiających rozpoznanie jednostek fonetycznych. Rozpoznawanie polega na sekwencyjnym dekodowaniu segmentów sygnału mowy na podstawie charakterystyk akustycznych tego sygnału i znanych związków między tymi charakterystykami i jednostkami fonetycznymi. Charakterystyki akustyczne sygnału mowy najczęściej mają związek ze sposobem wytwarzania mowy przez człowieka, w szczególności z modelem typu pobudzenie filtr. sygnał mowy ANALIZA SYGNAŁU WYKRYCIE CECH SEGMENTACJA I INDEKSACJA (KLASYFIKACJA) STEROWANIE ROZPOZNA - WANIEM rozpoznana mowa Wzory odniesienia jednostek fonetycznych Słownik Gramatyka Rys. 3. Rozpoznawanie mowy metodą akustyczno-fonetyczną W rozpoznawaniu mowy najczęściej wykorzystywane są następujące charakterystyki akustyczne związane z: - pobudzeniem: o częstotliwość tonu podstawowego, o energia sygnału, o obecność w pobudzeniu sygnału okresowego i/lub przypadkowego, oznaczająca dźwięczność lub bezdźwięczność fonemów, - filtrem (traktem głosowym): o częstotliwości formantowe, zwykle pierwsze trzy, będące maksimami lokalnymi amplitudowej charakterystyki częstotliwościowej traktu głosowego, o obecność w transmitancji traktu głosowego zer charakterystycznych dla dźwięków nosowych, czyli nosowość fonemu, o stosunek energii składowych wysoko- i niskoczęstotliwościowych. Biuletyn Instytutu Automatyki i Robotyki, 24/
8 Andrzej M. Wiśniewski Cechy akustyczne zwykle wyznaczane są przez równoległy układ detektorów, a ich liczba powinna zapewnić jednoznaczne rozróŝnienie wszystkich fonemów (stąd cechy te nazywa się wyróŝniającymi lub dystynktywnymi). NajwaŜniejszy i najtrudniejszy jest etap segmentacji i indeksacji, łącznie zwany klasyfikacją (ang. odpowiednio: segmentation, labelling, annotation): - najpierw wyszukiwane są fragmenty (segmenty) sygnału mowy, w których jego cechy akustyczne są stałe lub zmieniają się niewiele, - następnie przypisuje się tym segmentom zgodnie z wyznaczonymi cechami akustycznymi jeden lub więcej indeksów (symboli fonetycznych). Wykorzystuje się tutaj eksperymentalnie wyznaczone wzory odniesienia (reference pattern) dla wszystkich rozpoznawanych jednostek fonetycznych. Wzory odniesienia najczęściej mają postać wiedzy o występowaniu lub braku jakichś cech albo wartości progowych lub wzajemnych zaleŝności (proporcji) zmierzonych wcześniej cech akustycznych. Aby prawidłowo rozpoznać mowę stosowany jest jeszcze jeden krok - sterowanie rozpoznawaniem - w którym do wyznaczenia końcowego wyniku wykorzystuje się wiedzę o ograniczeniach realizowanego zadania rozpoznawania mowy (słowa muszą pochodzić ze słownika właściwego dla pragmatyki systemu, ciągi słów powinny spełniać reguły syntaktyki i semantyki właściwe dla gramatyki języka). Metody akustyczno-fonetyczne są interesującą ideą umoŝliwiają rozpoznawanie sygnału mowy bez konieczności wcześniejszego tworzenia modeli akustycznych rozpoznawanych jednostek fonetycznych. Jednak, mimo ponad 50 lat ich rozwijania, są trudne do praktycznej realizacji i wymagają jeszcze rozległych badań oraz głębszego zrozumienia problemów. Metoda rozpoznawania wzorców w rozpoznawaniu mowy wykorzystuje wzory (próbki), będące najczęściej obserwacjami pozyskiwanymi z segmentów sygnału mowy (ramek), które wydzielane są oknem o stałej długości. W przeciwieństwie do metody akustyczno fonetycznej, nie wyznacza się charakterystyk akustycznych związanych ze sposobem wytwarzania sygnału mowy, jak równieŝ nie wydziela się z sygnału mowy segmentów o zróŝnicowanej długości, odpowiadających fonemom. Strukturę systemów rozpoznawania mowy metodą rozpoznawania wzorców zilustrowano na rys Biuletyn Instytutu Automatyki i Robotyki, 24/2007
9 System dialogowy języka mówionego PROCEDURA UCZENIA WZORY ODNIESIENIA PODZBIÓR WZORCÓW Gramatyka słownik UKŁAD PORÓWNANIA SEKWENCJA SYMBOLI UKŁAD DECYZYJNY rozpoznana mowa tryb rozpoznawania tryb uczenia WZÓR TESTOWY ANALIZA SYGNAŁU sygnał mowy Rys. 4. Rozpoznawanie mowy metodą rozpoznawania wzorców Charakterystyczne dla tej metody rozpoznawania są dwa tryby pracy: - tryb uczenia (treningowy), w którym ze zbiorów wzorów testowych (test pattern), pozyskanych z wypowiedzi uczących, tworzy się wzory odniesienia, czyli wzorce (reference pattern), reprezentujące jednostki Biuletyn Instytutu Automatyki i Robotyki, 24/
10 Andrzej M. Wiśniewski (symbole) fonetyczne, - tryb rozpoznawania, w którym pozyskany z rozpoznawanej wypowiedzi wzór testowy (lub ich sekwencję) porównuje się z kaŝdym wzorem odniesienia, czyli wzorcem. Wzorce mogą mieć postać szablonu (template) lub modelu statystycznego (statistical model). Podobieństwo wzoru testowego do wzorców w postaci modelu statystycznego (np. dla powszechnie stosowanych ukrytych modeli Markowa, HMM) jest określane najczęściej jako prawdopodobieństwo wygenerowania tego wzoru przez modele. Liczebność zbioru wzorców w kaŝdym miejscu rozpoznawanej wypowiedzi moŝe być zmniejszana, np. przez zastosowanie reguł prostej gramatyki o skończonej liczbie stanów do rozpoznawania ciągów jednostek fonetycznych. Przypisanie wzoru testowego (jednego lub częściej ich sekwencji) do określonego wzoru odniesienia stanowi wynik rozpoznawania w pierwszym jego etapie. W drugim etapie sekwencji jednostek fonetycznych przypisywany jest wyraz ze słownika wyrazów rozpoznawanych. Zastosowanie róŝnych reguł (ograniczeń) gramatycznych pozwala na zmniejszenie niepewności w procesie przekształcania rozpoznanej sekwencji symboli fonetycznych w wyraz. Jakość rozpoznawania mierzona jest wskaźnikiem dopasowania, który moŝe mieć sens prawdopodobieństwa. Zwykle rozpoznanie jest niejednoznaczne, gdyŝ segmentowi sygnału mowy moŝe być przypisany więcej niŝ jeden symbol fonetyczny. Wówczas wynikiem etapu rozpoznawania jest nie pojedyncza sekwencja, lecz sieć symboli fonetycznych z przypisanymi wartościami wskaźnika dopasowania. Przykładowy wynik automatycznego rozpoznawania liczb dwucyfrowych przedstawiony został na rys. 5 (zastosowano symbole przyjętej transkrypcji fonetycznej języka polskiego). Jest to sekwencja czasowa zbiorów fonemów rozpoznanych z róŝną jakością (symbole umieszczone wyŝej mają większy wskaźnik dopasowania do rozpoznawanego sygnału mowy). Jednym z moŝliwych rozwiązań w analizowanym przykładzie jest słowo ŚEDEMNAŚĆE (siedemnaście w transkrypcji gramatycznej). Innym moŝliwym rozwiązaniem jest słowo JEDENAŚĆE (jedenaście). Oznacza to, Ŝe wynik rozpoznania mowy w przykładzie jest niejednoznaczny, chociaŝ pierwszy z nich jest bardziej prawdopodobny (lepiej dopasowany do sygnału wejściowego). 106 Biuletyn Instytutu Automatyki i Robotyki, 24/2007
11 System dialogowy języka mówionego Ś E D E M A Ś E J I B M N Ć I G N Ś Ć L czas Rys. 5. Przykładowy wynik automatycznego rozpoznawania W ogólnym przypadku wyjście urządzenia automatycznego rozpoznawania mowy moŝe przybierać jedną z poniŝszych postaci: - pojedyncze zdanie; - lista N najlepszych zdań (najlepiej dopasowanych do sygnału wejściowego): jest to wskazane, gdy okaŝe się, Ŝe z powodu błędów rozpoznania zdanie najlepsze jest niegramatyczne, liczba N moŝe być duŝa; - krata słów: lista słów waŝonych wskaźnikiem dopasowania, zwykle charakteryzuje się duŝą redundancją i w efekcie długim czasem pracy procesora językowego; - tzw. graf słów: rozwiązanie pośrednie (grupa N najlepszych zdań, w których wspólne części są połączone w celu utworzenia grafu) daje to takie same moŝliwości jak lista N najlepszych zdań, lecz pozwala na przyśpieszenie procesu. Kluczem do sukcesu w tej metodzie rozpoznawania jest proces porównywania wzorów testowych i wzorów odniesienia. Dość wcześnie zaczęto stosować technikę zwaną liniową normalizacją czasową, która pozwoliła przezwycięŝyć trudności związane ze zmiennością czasu trwania wymawianych słów. Długości wzorów były normalizowane do standardowego czasu trwania drogą wydłuŝania (skracania) przez zastosowanie wyznaczonego rozszerzenia (kompresji) skali czasu równomiernie dla całej próbki. Porównanie otrzymanych w ten sposób wzorów o stałej długości polega na obliczeniu odległości euklidesowej między tymi wzorami. Metoda rozpoznawania wzorców wykorzystująca jako wzorce (wzory odniesienia) modele statystyczne jest chętnie stosowana z powodu prostoty, odporności na zakłócenia ze strony środowiska oraz niezaleŝności na zmiany Biuletyn Instytutu Automatyki i Robotyki, 24/
12 Andrzej M. Wiśniewski słownictwa, zbioru charakterystyk, algorytmów porównywania i reguł decyzyjnych. Liczne jej aplikacje pokazały wysoką skuteczność w realizacji zadania automatycznego rozpoznawania mowy Własności procesora językowego (modułu przetwarzania języka naturalnego, modułu rozumienia) Procesor językowy dostarcza reprezentacji znaczenia operacyjnego rozpoznanej frazy. Na obecnym etapie rozwoju umoŝliwia rozumienie ograniczone do podzbioru języka naturalnego i dla określonej dziedziny aplikacji (pragmatyka). Przyczyną największych trudności w przetwarzaniu języka naturalnego jest brak ogólnego sposobu: a) definiowania rozwiązywanego problemu (w wyniku tego trudno ocenić wyniki przetwarzania języka naturalnego (NLP) w róŝnych aplikacjach systemów), b) automatycznego pozyskiwania informacji potrzebnej do efektywnej pracy z nowymi aplikacjami dziedzinowymi, nowymi słowami, nowymi znaczeniami słów, nowymi strukturami gramatycznymi. W zaawansowanych systemach dialogowych przetwarzanie języka spełnia podwójną rolę: - umoŝliwia zrozumienie wejścia mówionego (interpretację łańcuchów słów wyznaczonych przez system rozpoznawania mowy); - jest dodatkowym źródłem wiedzy (ograniczeń), które - przez odrzucenie łańcuchów słów bezsensownych oraz określenie łańcuchów słów sensownych poprawia zarówno rozpoznawanie jak i rozumienie. W procesie przetwarzania języka naturalnego wykorzystuje się wiedzę lingwistyczną, a w szczególności syntaktykę i semantykę. Istniejące rozwiązania systemów dialogowych wyraźnie rozdzielają reprezentację syntaktyczną i semantyczną języka. Przyczynami takiego postępowania jest większa łatwość reprezentacji (wyboru najodpowiedniejszego formalizmu moŝna dokonać oddzielnie) oraz moŝliwość zmian, uaktualniania, a takŝe adaptacji dla innych dziedzin i języków. Tradycyjnie analiza języka naturalnego jest sterowana syntaktyką - wykonywana jest pełna analiza syntaktyczna, która usiłuje wyjaśnić rolę wszystkich słów w wypowiedzi. Takie podejście, gdy pojawiają się nieznane słowa, nowe konstrukcje językowe, błędy rozpoznawania i zdarzenia charakterystyczne dla mowy spontanicznej, rzadko kończy się sukcesem. Stąd próby analizy sterowanej semantyką w dialogach mówionych w ograniczonej 108 Biuletyn Instytutu Automatyki i Robotyki, 24/2007
13 System dialogowy języka mówionego dziedzinie. Trwają prace nad łącznym wykorzystaniem wiedzy syntaktycznej i semantycznej juŝ na etapie automatycznego rozpoznawania mowy, gdyŝ panuje przekonanie, Ŝe jednoczesne zastosowanie wielu ograniczeń moŝe zwiększyć efektywność (zmniejszyć czasochłonność i poprawić jakość) rozpoznawania, a tym samym rozumienia języka. Przetwarzanie syntaktyczne (rozbiór gramatyczny, analiza zdania, parsowanie) jest najbardziej dojrzałym obszarem NLP i polega na rozpoznaniu struktury gramatycznej zdania, umoŝliwiając jednocześnie: - sprawdzenie, czy fraza wejściowa jest prawidłowo sformułowana, - uproszczenie procesu określania znaczenia (rozumienia), - pomoc w wykryciu nowych i niezwykłych znaczeń. Dotychczas sformułowano i zastosowano róŝne formalizmy syntaktyczne, jednak wszystkie dostarczają niekompletnego opisu zjawisk występujących w języku naturalnym. Dla języka mówionego stosuje się modyfikacje metod zastosowanych dla języka pisanego: trzeba uwzględnić fakt, Ŝe sekwencja słów wyznaczonych przez urządzenie rozpoznające moŝe zawierać błędy (wynik rozpoznawania w postaci kraty lub grafu wprowadza alternatywy do przetwarzania językowego). KaŜda metoda analizy jest efektywna dla zdań prostych i krótkich. Szczególnych trudności przysparza rozbiór gramatyczny zdań spontanicznych. Typowe wypowiedź w mowie spontanicznej moŝe wyglądać następująco: Zatem chciałbym wiedzieć mhm pociąg, który wyjeŝdŝa o czwartej z Poznania, o której, tak, o której przyjeŝdŝa on do Warszawy. PowyŜszy przykład pozwala na następujące wnioski: - rzeczywiste zdania są złoŝone: niezbędna jest rozległa wiedza do przedstawienia ich struktury gramatycznej, - istotna informacja jest przekazywana w wyspach ( o czwartej, z Poznania,...), złoŝoność syntaktyczna głównie leŝy w przestrzeni między wyspami, w nieistotnych semantycznie segmentach zdania. Wnioski sugerują zastosowanie analizy częściowej, aby zwiększyć odporność algorytmów na zakłócenia. W pełnej analizie musi być analizowane całe zdanie, zatem moŝe być potrzebna obszerna wiedza (szczególnie do modelowania niegramatyczności w wejściu mówionym). Gdy pełna analiza całego zdania nie jest moŝliwa, analizuje się pewne segmenty zdania w nadziei, Ŝe zawierają istotną informację dla jego prawidłowego zrozumienia (określenia znaczenia operacyjnego w ograniczonej dziedzinie). Częściowa analiza moŝe znacznie przyśpieszyć prawidłowe rozumienie zdań dla ograniczonej wiedzy lingwistycznej. Takie podejście moŝe być przyczyną błędnej interpretacji złoŝonych konstrukcji językowych, lecz jednocześnie umoŝliwia analizę Biuletyn Instytutu Automatyki i Robotyki, 24/
14 Andrzej M. Wiśniewski wypowiedzi spontanicznych. Stosuje się róŝne implementacje tej koncepcji: moŝna albo uruchomić częściową analizę, gdy pełna skończyła się fiaskiem, albo stosować częściową analizę od początku procesu NLP, a następnie zastosować dodatkowy mechanizm do sklejania znaczeń poszczególnych fraz wypowiedzi w celu przeprowadzenia pełnej analizy znaczeniowej. Przetwarzanie semantyczne ma na celu określenie znaczenia analizowanego zdania. Opracowano wiele języków reprezentacji znaczeniowej, jednak brak jest języka jednolitego dla wszystkich zakresów NLP. Trudności powoduje fakt, Ŝe znaczenie operacyjne wypowiedzi zaleŝy od pragmatyki aplikacji, w szczególności od kontekstu oraz od celu do osiągnięcia. Najmniej rozpoznanym i najtrudniejszym aspektem NLP jest modelowanie kontekstu i jego wykorzystanie. Kontekst nie jest czasowo zlokalizowany (jak w sygnale mowy), jest szeroki i niezwykle silny, moŝe sięgać odległych słów wypowiedzianych i takich, które dopiero będą wypowiedziane. Kontekst moŝe obejmować zakres wielu zdań, akapitów, nawet dokumentów. Określenie znaczenia operacyjnego wymaga określenia odniesień zaimków, zrozumienia zdań eliptycznych, fałszywych początków wypowiedzi, błędów, nieklasycznych postaci języka. Znaczenie operacyjne zaleŝy od wielu innych zjawisk językowych, nawet właściwie dotąd formalnie nie scharakteryzowanych. Znaczenie operacyjnie zmienia się wraz z kolejnymi wejściami, zaleŝy od przebiegu dialogu. Oznacza to, Ŝe moŝe być potrzebna zmiana stanu dialogu, Ŝeby późniejsze wejście uŝytkownika było rozumiane w kontekście odpowiedzi wcześniej udzielonej uŝytkownikowi. Tego typu sprzęŝenia są bardzo waŝne dla przetwarzania języka naturalnego, poniewaŝ rzeczywisty język rzadko bywa izolowanymi zdaniami. Wynikiem powyŝszych rozwaŝań jest widzenie procesu przetwarzania języka naturalnego jako sekwencji operacji, wykonywanych na ciągu słów, będących wyjściem urządzenia automatycznego rozpoznawania mowy (rys. 6). Nie ma zgody, czy planowanie i generowanie odpowiedzi są częścią przetwarzania języka, czy teŝ częścią następnego procesu: sterowania dialogiem. Komunikację werbalną między ludźmi, która jest procesem dwukierunkowym dotyczącym aktywnych uczestników, nazywa się dyskursem. Wzajemne zrozumienie osiąga się poprzez bezpośrednie i pośrednie oddziaływania słowne, wymianę, wyjaśnienia i okoliczności wynikające z pragmatyki. Zdolność analizowania dyskursu umoŝliwia systemowi 110 Biuletyn Instytutu Automatyki i Robotyki, 24/2007
15 System dialogowy języka mówionego dialogowemu zrozumienie wypowiedzi w kontekście poprzednich interakcji. Aby komunikacja była efektywna, system musi umieć poradzić sobie z takimi zjawiskami, jak odniesienia anaforyczne (anafora to zaimek wskazujący zapobiegający powtarzaniu podmiotu z poprzedniego zdania), umoŝliwiającymi uŝytkownikowi odnoszenie się do przedmiotu rozmowy. Efektywny system dialogowy powinien takŝe umieć radzić sobie z elipsami (elipsa to opuszczenie w zdaniu wyrazu lub wyrazów, domyślnych w szerszym kontekście) i fragmentami zdań, aby uŝytkownik nie musiał formułować kaŝdego zapytania w pełnym brzmieniu. MoŜliwość dziedziczenia informacji z poprzednich wypowiedzi jest szczególnie pomocna w obliczu błędów rozpoznawania. UŜytkownik moŝe zadać złoŝone, wymagające kilku atrybutów (wyróŝników) pytanie - urządzenie rozpoznawania moŝe nie zrozumieć pojedynczego słowa, np. numeru lotu lub czasu przylotu. Jeśli istnieje dobry model kontekstowy, uŝytkownik moŝe wypowiedzieć potem krótką frazę korekcyjną, a system będzie potrafił zamienić tylko źle zrozumiane słowo, zapobiegając konieczności powtarzania całej wypowiedzi i zmniejszając ryzyko kolejnych błędów rozpoznawania. Słowa Parser Struktura gramatyczna Procesor semantyczny Reprezentacja znaczenia Procesor dialogu Reprezentacja znaczenia Procesor planowania Plan odpowiedzi Generator odpowiedzi Wyjście Rys. 6. Przetwarzanie języka naturalnego jako ciąg operacji Praktyczne realizacje procesu przetwarzania języka naturalnego są zwykle uproszczeniami problemu: nie kaŝdy system NLP zawiera (lub potrzebuje) wszystkie wymienione wyŝej składniki. Istnieją systemy, które: - rezygnują z parsera i określają znaczenie bez informacji syntaktycznych, - łączą przetwarzanie syntaktyczne i semantyczne w jeden proces, - nie wymagają wykorzystywania kontekstu, - eliminują generator odpowiedzi w aplikacjach o kilku moŝliwych wyjściach, - rezygnują w całości z tej struktury i przechodzą od rozpoznanych słów do znaczenia operacyjnego (system ekspertowy), wyznaczając znaczenie bez szczegółowej analizy językowej na jakimkolwiek poziomie. Biuletyn Instytutu Automatyki i Robotyki, 24/
16 Andrzej M. Wiśniewski Postęp w badaniach systemów NLP będzie chyba polegał na uczeniu i ewaluacji (podobnie jak w przetwarzaniu sygnału mowy) - jest to trudne ze względu na liczbę składników i ich róŝnorodne charakterystyki we/wy. Osiągnięcia ostatnich lat polegają na: - badaniach wykorzystujących odpowiednio przygotowane zasoby językowe - a nie przykłady i intuicję; - próbach pomiaru pokrycia i efektywności systemów NLP; - próbach zastosowania wiedzy analitycznej i statystycznej. Największą barierą w zastosowaniach procesów NLP jest ich mała podatność na zastosowanie w nowych dziedzinach (moŝliwość konfigurowania systemu NLP dla nowej, określonej aplikacji) Własności menadŝera dialogu (sterownika dialogu, jądra systemu) Zadaniem menedŝera dialogu jest zapewnienie współpracy systemu dialogowego (cooperative agent) z uŝytkownikiem poprzez maksymalne upodobnienie dialogu między systemem i uŝytkownikiem do dialogu między ludźmi. Sterowanie dialogiem polega na: - interpretacji znaczenia operacyjnego wypowiedzi w oparciu o model dialogu (interakcji) i w kontekście dotychczasowych wypowiedzi; - decydowaniu o dalszej akcji: Ŝądać kolejnych danych, odszukać informację, zainicjować na nowo błędnie przebiegający dialog; - generowaniu fraz języka naturalnego (budowa generatora nie jest tak złoŝona, jak pozostałych składników systemu dialogowego). Projektując sterowanie dialogiem, przyjmuje się minimalne wymaganie: system współpracuje z uŝytkownikiem. Interakcja powinna być wygodna, wyczerpująca i zrozumiała. Zorientowane zadaniowo systemy dialogowe w wypełnianiu swej roli są porównywane z człowiekiem. DąŜy się do rozszerzenia interakcji w kierunku: - przejmowania inicjatywy przez uŝytkownika, - uŝywania zwrotów anaforycznych, - uŝywania wyraŝeń eliptycznych, - przejmowania odpowiedzialności za przeprowadzenie uŝytkownika poprzez zadanie, - radzenia sobie z problemami pojawiającymi się w dialogu. 112 Biuletyn Instytutu Automatyki i Robotyki, 24/2007
17 System dialogowy języka mówionego Zwykle przy projektowaniu menedŝera dialogu wykorzystywane jest doświadczenie uzyskane w dialogu między ludźmi w tej samej lub podobnej dziedzinie. Obserwacje zachowania rozmówców w słownym dialogu między ludźmi nie są wystarczającą bazą do projektowania menedŝera dialogu trzeba wziąć pod uwagę fakt, Ŝe ludzie zachowują się odmiennie, gdy interakcja dotyczy komputera, a nie człowieka. Najczęstszą aplikacją systemu dialogowego jest dostarczanie uŝytkownikom przez telefon informacji o konkretnych usługach. W typowych informacyjnych dialogach usługowych (information service dialogues) wyróŝnia się następujące fazy: 1. Otwarcie dialogu, 2. Sformułowanie Ŝyczenia, 3. Sformułowanie odpowiedzi, 4. Zakończenie dialogu. Otwarcie i zamknięcie nie zaleŝą od dziedziny zastosowania i są podobne dla większości dialogów języka mówionego. Do rozpoczęcia dialogu między ludźmi, przed sformułowaniem Ŝyczenia, rozmówcy zwykle stosują wyrazy uprzejmości (Dzień dobry, Witam, Czy mogłaby mi pani pomóc?) lub oznaki wahania (chrząknięcia, mhm). Jako zakończenie dialogu stosowana jest wymiana podziękowań (Dziękuję Panu, Dziękuję bardzo, Dziękuję), a następnie wymiana pozdrowień (Do widzenia), która kończy dialog. W dialogu człowiek komputer otwarcie jest podobne, pojawienie się wyrazów uprzejmości zaleŝy od uprzejmości systemu. Zamknięcie moŝe być prostsze: rozmówca odkłada słuchawkę telefonu. Sformułowanie Ŝyczenia i sformułowanie odpowiedzi są zaleŝne od zadania, czyli zdeterminowane przez strukturę tego zadania (identyfikacja Ŝyczenia rozmówcy, uzyskanie odpowiedniej informacji przez przeszukanie bazy danych i wydanie Ŝądanej informacji). Realizacja zadania moŝe wymagać kilku kroków pośrednich: - potwierdzenia, aby uniknąć pomyłki, - naprawy, gdy doszło do pomyłki, - doprecyzowania szczegółów itp. Są to zjawiska w zasadzie wspólne dla wszystkich dialogów. Jest wiele sposobów implementacji zarządzania dialogiem. Wiele systemów do opisu przebiegu dialogu wykorzystuje języki skryptowe jako ogólny mechanizm. Inne przedstawiają dialog jako graf obiektów lub modułów dialogowych. Kolejnym aspektem implementacji systemów dialogowych jest Biuletyn Instytutu Automatyki i Robotyki, 24/
18 Andrzej M. Wiśniewski zmiana aktywnego słownika lub moŝliwości rozumienia dialogu w zaleŝności od jego stanu. Niektóre systemy są zbudowane tak, aby umoŝliwić uŝytkownikowi zadawanie dowolnych pytań w dowolnym miejscu dialogu, czyli cały słownik jest aktywny przez cały czas. Inne systemy ograniczają słownik i/lub język, który jest akceptowany w określonych miejscach dialogu. Trudność polega na pogodzeniu potrzeby rosnącej swobody uŝytkownika (elastyczności w reakcji na zapytanie lub odpowiedź systemu) i rosnącej dokładności rozumienia systemu (drogą ograniczeń na dopuszczalne wejście uŝytkownika) Własności syntezatora sygnału mowy Generatorem mowy syntetycznej (syntezatorem mowy) nazywa się urządzenie (obecnie komputerowe) do zamiany tekstu w postaci symbolicznej na mowę (text to speech, TTS). Tekst moŝe być wprowadzony z klawiatury, wczytany z pliku w postaci sformatowanej, odczytany za pomocą systemu rozpoznawania pisma (OCR), bądź teŝ utworzony w procesie planowania i generowania odpowiedzi przez sterownik dialogu. Urządzenie powinno umoŝliwiać automatyczne wytwarzanie zdań zbudowanych z dowolnych słów określonego języka. Najczęściej syntezę sygnału mowy uzyskuje się drogą modelowania dynamiki traktu głosowego podczas artykulacji wypowiedzi (synteza artykulacyjna) lub modelowania bezpośrednio samego sygnału mowy (generowanie sygnału o charakterystykach akustycznych takich samych jak sygnału mowy). Syntezatory artykulacyjne bazują na reprezentacji traktu głosowego. Początkowo syntetyzatory tego typu wykorzystywały szereg dynamicznie sterowanych filtrów analogowych (Rosen 1958, Dennis 1962), nowoczesne systemy są modelowane na komputerach cyfrowych (Ladefoged 1978, Scully i Clark 1986). Informacją wejściową dla takich systemów są wartości wielu parametrów reprezentujących połoŝenie (pozycję) poszczególnych części traktu głosowego (artykulatorów). Parametry te określają kształt traktu głosowego i są wyznaczane dla jednakowych odcinków, zwykle o długości 0,5 cm, a cały trakt jest modelowany jako ciąg cylindrów (rur prostych). Aby dokonać syntezy sygnału mowy ta złoŝona rura jest pobudzana przez impulsy quasiokresowe o kształcie określonym przez Rosenberga (1970) lub Fanta (1985). Sygnał emitowany przez usta moŝna wyznaczyć jako rozwiązanie równania ciśnienia fali dźwiękowej wzdłuŝ traktu głosowego (równania Webstera). W celu wygenerowania ciągu fonemów naleŝy zapewnić zmianę w czasie wartości parametrów artykulacyjnych. Wadą metody jest jej złoŝoność i w konsekwencji duŝa ilość obliczeń. 114 Biuletyn Instytutu Automatyki i Robotyki, 24/2007
19 System dialogowy języka mówionego Najczęściej synteza artykulacyjna występuje w dwu postaciach: jako synteza formantowa i synteza z predykcją liniową. Synteza formantowa wykorzystuje model pobudzenie filtr. Trakt głosowy człowieka modelowany jest za pomocą zestawu filtrów rezonansowych, które kształtują jego przybliŝoną częstotliwościową charakterystykę amplitudową. Częstotliwości rezonansowe tych filtrów są równe częstotliwościom formantów, które charakteryzują kolejne fragmenty sygnału mowy syntezowanej wypowiedzi. Do wygenerowania zrozumiałej mowy wystarczy znajomość trajektorii pierwszych trzech formantów, do wygenerowania wysokiej jakości sygnału mowy: trajektorie czterech lub pięciu formantów. WyróŜnia się dwie metody łączenia filtrów rezonansowych: - w syntezatorze równoległym: sygnał pobudzenia podawany jest na wszystkie rezonatory równolegle; wyjścia, kaŝdy z odpowiednim wzmocnieniem, są sumowane, - w syntezatorze kaskadowym rezonatory łączone są szeregowo (rys. 7). F 1 P 1 F 2 P 2 F 3 P 3 F 0 A 0 A 1 Generator sygnału okresowego Generator szumu Filtr rezonansowy 1 F H Filtr rezonansowy 2 Filtr rezonansowy 3 sygnał mowy Wzmacniacz A 2 Generator szumu Filtr górnoprzepustowy A 1,A 2, A 0 skalowanie amplitudy F 0 częstotliwość tonu podstawowego F H częstotliwość odcięcia filtru górnoprzepustowego F1, F2, F3 częstotliwości formantowe P1, P2, P3 szerokość pasma filtrów formantowych Rys. 7. Przykład syntezatora kaskadowego Synteza z predykcją liniową równieŝ wykorzystuje model pobudzenie - Biuletyn Instytutu Automatyki i Robotyki, 24/
20 Andrzej M. Wiśniewski filtr. Sygnałem pobudzenia jest sygnał szczątkowy predykcji liniowej (błąd predykcji), zaś filtrem - model traktu głosowego, będący układem dynamicznym o transmitancji, której bieguny są wyznaczane za pomocą współczynników predykcji liniowej. Syntezatory modelujące sygnał mowy wykorzystują konkatenację segmentów sygnału mowy odpowiadających wybranym: - jednorodnym jednostkom fonetycznym, najczęściej difonom (stosowane ze względu na dokładność odtwarzania transjentów, które decydują o zrozumiałości sygnału mowy), - zróŝnicowanym jednostkom fonetycznym: fonemom, difonom i sylabom. Przykładem syntezy konkatenacyjnej jest syntezator zbudowany przez France Telecom, wykorzystujący algorytm PSOLA (ang. The Pitch Synchronous OverLap and Add) i umoŝliwiający: - płynne łączenie segmentów, odpowiadających jednostkom fonetycznym, - zmianę wysokości dźwięku, - zmianę długości (czasu trwania) poszczególnych segmentów. Schemat generatora mowy syntetycznej przedstawia rys. 8. Urządzenie to, wykorzystując stworzoną wcześniej (w procesie analizy, na podstawie pozyskanego od lektora materiału dźwiękowego) bazę segmentów, dokonuje syntezy sygnału mowy. tekst Przetwarzanie Baza segmentów Cyfrowa synteza mowy tekstu mowa Transkrypcja fonetyczna Rys. 8. Generator mowy syntetycznej Na proces syntezy składają się następujące czynności: 1. Wybór segmentów odpowiadających transkrypcji fonetycznej generowanego tekstu. 116 Biuletyn Instytutu Automatyki i Robotyki, 24/2007
21 System dialogowy języka mówionego 2. Ustalenie częstotliwości tonu podstawowego oraz czasu trwania generowanego fragmentu sygnału mowy (cechy prozodyczne). 3. Synteza fragmentów bezdźwięcznych poprzez skopiowanie danych z bazy segmentów; ewentualne ich powielenie, bądź skrócenie długości. 4. Synteza fragmentów dźwięcznych, w której uwzględniając okres częstotliwości tonu podstawowego naleŝy: a. nałoŝyć na siebie (z właściwym rozłoŝeniem na osi czasu) segmenty dźwięczne z bazy, b. zsumować nałoŝone segmenty. Doświadczenie pokazało, Ŝe synteza PSOLA zapewnia wyŝszą jakość generowanej mowy niŝ synteza z predykcją liniową. Modyfikacją syntezy konkatenacyjnej jest synteza korpusowa (zasobowa), w której łączy się segmenty sygnału mowy o długości dobieranej kaŝdorazowo dla przekształcanego tekstu. Kryterium doboru jest jakość generowanego sygnału (definiuje się wskaźniki jakości). Z zasobu mowy wybierane są róŝnorodne jednostki fonetyczne: difony, trifony, sylaby, wyrazy, frazy (grupy wyrazowe) czy nawet całe zdania. Jednostki fonetyczne występują w zasobie wielokrotnie w róŝnych kontekstach. Generowany sygnał mowy jest konkatenacją róŝnych jednostek fonetycznych. Istnieje wiele róŝnych moŝliwości złoŝenia poŝądanego sygnału mowy. Dobór jednostek fonetycznych oceniany jest za pomocą funkcji kosztu (estymacji), uwzględniającej zarówno czas trwania poszczególnych fragmentów jak i cechy prozodyczne mowy. Proces obliczeniowy jest dość złoŝony. Obecnie syntezą korpusową zajmuje się wiele firm (np.: AT&T, SpeechWorks, ScanSoft). Przygotowany dla języka angielskiego zasób mowy ma rozmiar ok. 200 MB. W Polsce syntezą korpusową zajmuje się firma IVO Software z Gdyni. Wydaje się, Ŝe właśnie ta technika ma szanse rozwinąć się w przyszłości. Obecnie są prowadzone badania nad udoskonaleniem zasobu mowy (aby pokrył wszystkie zjawiska fonetyczne w danym języku) i funkcji estymacji. Synteza korpusowa jest obecnie wykorzystywana w systemach dialogowych portali głosowych. 4. Wyniki dotychczasowych doświadczeń Historia systemów dialogowych języka mówionego zaczęła się w końcu lat osiemdziesiątych. Wówczas rozpoczęły się, wspomagane przez dotacje rządowe, programy: - Spoken Language System (SLS) Program realizowany przez Spoken Biuletyn Instytutu Automatyki i Robotyki, 24/
22 Andrzej M. Wiśniewski Language Systems Group (MIT Laboratory for Computer Science, Cambridge) w USA, wspierany przez Defense Advanced Research Projects Agency (DARPA, potem ARPA); - Esprit SUNDIAL (speech understanding and dialog) w Europie. Obydwa programy dotyczyły dostępu do bazy danych przy planowaniu podróŝy: lotniczych i kolejowych w systemie europejskim i tylko lotniczych w amerykańskim. Projekt europejski był wielojęzyczny: angielski, francuski, niemiecki i włoski. Wszystkie miały słownik ograniczony do kilku tysięcy słów. Obecnie tego typu systemy pracują w czasie rzeczywistym na standardowej stacji roboczej i komputerach typu PC bez dodatkowego osprzętu. Program SLS był rozwijany przez wiele zespołów w dziedzinie informacji o podróŝach lotniczych (Air Travel Information System, ATIS) pozwalał uzyskiwać informacje o liniach lotniczych, rozkładach, transporcie naziemnym, zawarte w statycznej relacyjnej bazie danych. Wymaganie, aby wszystkie zespoły wykorzystywały tę sama bazę danych (zasób uczący zawiera spontanicznych wypowiedzi), umoŝliwiło porównywanie wyników ich prac w regularnych odstępach czasu i zapewniało stały rozwój wszystkich systemów. Na początku w 1989 r. akceptowanym wskaźnikiem była dokładność dla rozpoznawania mowy, juŝ w trakcie dalszych prac opracowano wskaźnik rozumienia mowy zarówno dla wejścia głosowego, jak i pisanego. Do dzisiaj brakuje syntetycznego wskaźnika, który łączyłby ocenę zdolności systemu do efektywnego komunikowania się z uŝytkownikiem oraz zdolności rozumienia działań uŝytkownika. W momencie zakończenia programu (1995) najlepszy system rozpoznawał słowa z błędem 2,3%, zdania z błędem 15,2%. Dodatkowo błędy rozumienia były na poziomie 5,9%dla wejścia tekstowego i 8,9% dla wejścia mówionego. Program SUNDIAL nie był regularnie oceniany, w przeciwieństwie do SLS jednak, jego celem było zbudowanie systemów, które mogły być publicznie zastosowane. Wynikiem prac, zakończonych w 1993 r., były opracowane mechanizmy sterowania dialogiem. Potem podejmowane były róŝne sponsorowane programy w zakresie systemów dialogowych języka mówionego: - ARISE (Automatic Railway Information Systems for Europe) róŝniące się systemy informacji o rozkładach kolejowych, rozwijane w językach: holenderskim, francuskim i włoskim; - Communicator, sponsorowany przez DARPA, w którym twórcy kładli nacisk na interakcje bazujące na dialogu wykorzystujące język pisany i mówiony. Oprócz badań sponsorowanych w ramach wielkich programów rozwijane 118 Biuletyn Instytutu Automatyki i Robotyki, 24/2007
23 System dialogowy języka mówionego były niezaleŝne inicjatywy, na przykład: Berkeley Restaurant Project (informacja o restauracjach w Berkeley w Kalifornii), AutoRes (rozwijany przez AT&T, telefoniczny system wypoŝyczania samochodów), How may I help you? (system informacji i usług łączenia rozmów telefonicznych), WAXHOLM (system informacji o rozkładach promów oraz informacji turystycznej na wyspach wokół Sztokholmu), TRAINS (rozkład jazdy pociągów, University of Rochester). Jednym z najwaŝniejszych trendów w systemach dialogowych języka mówionego jest rosnąca liczba publicznie dostępnych realizacji. Takie systemy to nie tylko prototypy badawcze, lecz równieŝ produkty komercyjne wykorzystywane nie tylko w takich dziedzinach jak: centra informacji telefonicznych, ceny akcji giełdowych, rozkłady jazdy pociągów, rezerwacje miejsc w samolotach. 5. Uwagi końcowe Coraz więcej centrali telefonicznych czy centrów kontaktowych duŝych i średnich firm (Call Center, Contact Center) zastępuje operatorów portalami głosowymi (Voice Portal). Zadaniem portali głosowych jest umoŝliwienie interakcji głosowej z uŝytkownikiem. Portale głosowe są wyposaŝone w mechanizmy interakcji, których podstawą jest rozpoznawanie i rozumienie mowy oraz konwersja pobranej z bazy danych informacji tekstowej do postaci dźwiękowej. Portal głosowy jest nie tylko systemem do prowadzenia konwersacji z komputerem, lecz przede wszystkim stanowi bazę danych z informacjami dla potencjalnych klientów serwisu. Informacje te przechowywane są w postaci tekstowej na serwerach baz danych, skąd pobierane są przez skrypty, zlokalizowane na serwerach WWW, obsługujące zapytania, np. SQL. Wyselekcjonowane wiadomości konwertowane są do postaci dźwiękowej przez przeglądarkę głosową za pomocą syntezatora TTS. Technologia IVP (Internet Voice Portal), mimo Ŝe jest jeszcze bardzo młoda, przeŝywa swój rozkwit. Pojawiło się szereg bogatych serwisów informacyjnych zarówno udostępniających własne zasoby, jak i korzystających z zasobów Internetu. Część z nich umoŝliwia takŝe realizację podstawowej usługi internetowej, czyli dostępu do poczty elektronicznej. Portale te są powszechnie dostępne na terenie całych Stanów Zjednoczonych, a korzystanie z nich jest bezpłatne. Popularny staje się stale rozwijany język (standard) VoiceXML umoŝliwiający realizację systemów dialogowych języka mówionego. Biuletyn Instytutu Automatyki i Robotyki, 24/
24 Andrzej M. Wiśniewski Literatura [1] Barnard E., Halberstadt A., Kotelly C., Phillips M.: A Consistent Approach to Designing Spoken-Dialog Systems, Proc. ASRU Workshop, Keystone, CO, [2] Beutnagel M., Conkie A., Schroeter J., Stylianou Y., Syrdal A.: The AT&T Next- Gen TTS System, Proc. ASA, Berlin, [3] Billi R., Canavesio R., Rullent C.: Automation of Telecom Italia Directory Assistance Service: Field Trial Results, Proc. IVTTA, [4] Bobrow R., Ingria R., Stallard D.: Syntactic and Semantic Knowledge in the DELPHI Uniffication Grammar, Proc. DARPA Speech and Natural Language Workshop, [5] Boves L., Os E.: Applications of Speech Technology: Designing for Usability, Proc. IEEE Worshop on ASR and Understanding, [6] Cohen P., Johnson M., McGee D., Oviatt S., Clow J., Smith I.: The Effeciency of Multimodal Interaction: A Case Study, Proc. ICSLP, [7] Cole, R. A., Mariani, J., Uszkoreit, H., Zaenen, A. and Zue, V. W. (Editorial Board), Varile, G. and Zampolli, A. (Managing Editors): Survey of the State of the Art in Human Language Technology, URL: [8] Dal D.: Practical Spoken Dialog Systems, [9] Dowding J., Gawron J., Appelt D., Bear J., Cherny L., Moore R., Moran D., Gemini: A Natural Language System for Spoken Language Understanding, Proc. ARPA Workshop on Human Language Technology, [10] Flammia G.: Discourse Segmentation of Spoken Dialogue: An Empirical Approach, Ph.D. Thesis, MIT, [11] Fant G., Liljencrants J., Lin Q.: A Four-parameter Model of Glottal Flow, STL- QPSR, 4, [12] Fant G.: The LF-model Revisited. Transform and Frequency Domain Analysis, STL-QPSR, 2-3, [13] Glass J., Flammia G., Goodine D., Phillips M., Polifroni J., Sakai S., Seneff S., Zue V.: Multilingual Spoken-Language Understanding in the MIT Voyager System, Speech Communication, 17, [14] Goddeau D.: Using Probabilistic Shift-Reduce Parsing in Speech Recognition Systems, Proc. ICSLP, [15] Gorin A., Riccardi G., Wright J.: How may I help you?, Speech Communication, 23, Biuletyn Instytutu Automatyki i Robotyki, 24/2007
25 System dialogowy języka mówionego [16] Hetherington L., Zue V.: New words: Implications for Continuous Speech Recognition, Proc. Eurospeech, [17] Lippmann R.P.: Speech Perception by Humans and Machines, Speech Communication, 22(1), [18] McDonald D. Bolc L. (Eds.): Natural Language Generation Systems (Symbolic Computation Artificial Intelligence), Springer Verlag, Berlin, [19] Miller S., Schwartz R., Bobrow R., Ingria R.: Statistical Language Processing Using Hidden Understanding Models, Proc. ARPA Speech and Natural Language Workshop, [20] Moore R., Appelt D., Dowding J., Gawron J., Moran D.: Combining Linguistic and Statistical Knowledge Sources in Natural-Language Processing for ATIS, Proc. ARPA Spoken Language Systems Workshop, [21] Nuance Communications, [22] Oh A.: Stochastic Natural Language Generation for Spoken Dialog Systems, M.S. Thesis, CMU, May [23] Os E., Boves L., Lamel L., Baggia P.: Overview of the ARISE project, Proc. Eurospeech, [24] Pao C., Schmid P., Glass J.: Con_dence Scoring for Speech Understanding Systems, Proc. ICSLP, [25] Peckham J.: A New Generation of Spoken Dialogue Systems: Results and Lessons from the SUNDIAL Project, Proc. Eurospeech, [26] Price P.: Evaluation of Spoken Language Systems: the Atis Domain, Proc. DARPA Speech and Natural Language Workshop, [27] Rabiner L., Juang B-H.: Fundamentals of speech recognition, [28] Reiter E., Dale R.: Building Natural Language Generation Systems, Cambridge University Press, Cambridge, [29] Rosenberg A. E.: Effect of Glottal Pulse Shape on the Quality of Natural Vowels, Journal of The Acoustical Society of America vol. 49, [30] Rosset S., Bennacef S., Lamel L.: Design Strategies for Spoken Language Dialog Systems, Proc. Eurospeech,1999. [31] S. Seneff, Tina: A natural language system for spoken language applications, Computational Linguistics, 18(1), [32] Seneff S., Goddeau D., Pao C., Polifroni J.: Multimodal discourse modelling in a multi-user multi-domain environment, Proc. ICSLP, [33] Seneff S., Lau R., J. Polifroni: Organization, Communication, and Control in the Galaxy-II Conversational System, Proc. Eurospeech, [34] Seneff S.: Robust Parsing for Spoken Language Systems, Proc. ICASSP, Biuletyn Instytutu Automatyki i Robotyki, 24/
Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści
Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, 2011 Spis treści Przedmowa 11 Rozdział 1. WPROWADZENIE 13 1.1. Czym jest automatyczne rozpoznawanie mowy 13 1.2. Poziomy
IV.3.b. Potrafisz samodzielnie dokonać podstawowej konfiguracji sieci komputerowej
IV.3.b. Potrafisz samodzielnie dokonać podstawowej konfiguracji sieci komputerowej Co warto wiedzieć o łączeniu komputerów w sieci? Spójrz na rysunek IV.3p, który przedstawia właściwości Połączeń lokalnych,
Spis treści. 1. Cyfrowy zapis i synteza dźwięku Schemat blokowy i zadania karty dźwiękowej UTK. Karty dźwiękowe. 1
Spis treści 1. Cyfrowy zapis i synteza dźwięku... 2 2. Schemat blokowy i zadania karty dźwiękowej... 4 UTK. Karty dźwiękowe. 1 1. Cyfrowy zapis i synteza dźwięku Proces kodowania informacji analogowej,
TEORIA WYTWARZANIA DŹWIĘKÓW
1 TEORIA WYTWARZANIA DŹWIĘKÓW MOWY, FORMANTY, MODELOWANIE WYTWARZANIA DŹWIĘKÓW MOWY. mgr inż. Kuba Łopatka PLAN WYKŁADU 1. Teoria wytwarzania dźwięków mowy Ogólna teoria wytwarzania dźwięków mowy Ton krtaniowy
Synteza mowy. opracowanie: mgr inż. Kuba Łopatka
Synteza mowy opracowanie: mgr inż. Kuba Łopatka Synteza mowy (ang. TTS - Text-To-Speech ) zamiana tekstu w formie pisanej na sygnał akustyczny, którego brzmienie naśladuje brzmienie ludzkiej mowy. Podstawowe
K p. K o G o (s) METODY DOBORU NASTAW Metoda linii pierwiastkowych Metody analityczne Metoda linii pierwiastkowych
METODY DOBORU NASTAW 7.3.. Metody analityczne 7.3.. Metoda linii pierwiastkowych 7.3.2 Metody doświadczalne 7.3.2.. Metoda Zieglera- Nicholsa 7.3.2.2. Wzmocnienie krytyczne 7.3.. Metoda linii pierwiastkowych
Lokalizacja Oprogramowania
mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji
O sygnałach cyfrowych
O sygnałach cyfrowych Informacja Informacja - wielkość abstrakcyjna, która moŝe być: przechowywana w pewnych obiektach przesyłana pomiędzy pewnymi obiektami przetwarzana w pewnych obiektach stosowana do
bo od managera wymaga się perfekcji
bo od managera wymaga się perfekcji MODELOWANIE PROCESÓW Charakterystyka modułu Modelowanie Procesów Biznesowych (BPM) Modelowanie procesów biznesowych stanowi fundament wdroŝenia systemu zarządzania jakością
Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan
Synteza mowy (TTS) Rozpoznawanie mowy (ARM) Optyczne rozpoznawanie znaków (OCR) Jolanta Bachan Synteza mowy System przetwarzania tekstu pisanego na mowę Text-to-Speech (TTS) TTS powinien być w stanie przeczytać
Technologia informacyjna
Technologia informacyjna Pracownia nr 9 (studia stacjonarne) - 05.12.2008 - Rok akademicki 2008/2009 2/16 Bazy danych - Plan zajęć Podstawowe pojęcia: baza danych, system zarządzania bazą danych tabela,
Kryteria oceniania wiadomości i umiejętności z języka angielskiego klasy IV-VI
Kryteria oceniania wiadomości i umiejętności z języka angielskiego klasy IV-VI Ocenę celującą otrzymuje uczeń, który spełnia wszystkie wymagania na ocenę bardzo dobrą a ponadto: - posiada wiedzę i umiejętności
Mówienie. Rozumienie ze słuchu
Kryteria oceniania z języka angielskiego Ocena celująca Stopień CELUJĄCY otrzymuje uczeń, który spełnia wszystkie kryteria potrzebne na ocenę bardzo dobrą, ponadto opanował wiadomości i umiejętności wykraczające
JĘZYK NIEMIECKI liceum
JĘZYK NIEMIECKI liceum Przedmiotowy system oceniania i wymagania edukacyjne Nauczyciel: mgr Teresa Jakubiec 1. Przedmiotem oceniania w całym roku szkolnym są: - wiadomości - umiejętności - wkład pracy,
P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H
W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania
technologii informacyjnych kształtowanie , procesów informacyjnych kreowanie metod dostosowania odpowiednich do tego celu środków technicznych.
Informatyka Coraz częściej informatykę utoŝsamia się z pojęciem technologii informacyjnych. Za naukową podstawę informatyki uwaŝa się teorię informacji i jej związki z naukami technicznymi, np. elektroniką,
WYMAGANIA EDUKACYJNE. JĘZYKÓW OBCYCH Język angielski Język niemiecki Język rosyjski. Liceum Ogólnokształcące im. ks. Piotra Skargi w Sędziszowie Młp.
Liceum Ogólnokształcące im. ks. Piotra Skargi w Sędziszowie Młp. WYMAGANIA EDUKACYJNE Z JĘZYKÓW OBCYCH Język angielski Język niemiecki Język rosyjski Opracowali nauczyciele języków obcych Sędziszów Młp.
4 Zasoby językowe Korpusy obcojęzyczne Korpusy języka polskiego Słowniki Sposoby gromadzenia danych...
Spis treści 1 Wstęp 11 1.1 Do kogo adresowana jest ta książka... 12 1.2 Historia badań nad mową i językiem... 12 1.3 Obecne główne trendy badań... 16 1.4 Opis zawartości rozdziałów... 18 2 Wyzwania i możliwe
VÉRITÉ rzeczywistość ma znaczenie Vérité jest najnowszym, zaawansowanym technologicznie aparatem słuchowym Bernafon przeznaczonym dla najbardziej wymagających Użytkowników. Nieprzypadkowa jest nazwa tego
KATEDRA SYSTEMÓW MULTIMEDIALNYCH. Inteligentne systemy decyzyjne. Ćwiczenie nr 12:
KATEDRA SYSTEMÓW MULTIMEDIALNYCH Inteligentne systemy decyzyjne Ćwiczenie nr 12: Rozpoznawanie mowy z wykorzystaniem ukrytych modeli Markowa i pakietu HTK Opracowanie: mgr inż. Kuba Łopatka 1. Wprowadzenie
Najprostszy schemat blokowy
Definicje Modelowanie i symulacja Modelowanie zastosowanie określonej metodologii do stworzenia i weryfikacji modelu dla danego układu rzeczywistego Symulacja zastosowanie symulatora, w którym zaimplementowano
PRZEDMIOTOWE ZASADY OCENIANIA NA LEKCJACH JĘZYKA NIEMIECKIEGO Rok szkolny 2018 / 2019
PRZEDMIOTOWE ZASADY OCENIANIA NA LEKCJACH JĘZYKA NIEMIECKIEGO Rok szkolny 2018 / 2019 Opracowany w oparciu o Wewnętrzne Zasady Oceniania Szkoły Podstawowej w Ratowicach Anna Bala zswilhelm Przedmiotowy
Ćwiczenie numer 4 JESS PRZYKŁADOWY SYSTEM EKSPERTOWY.
Ćwiczenie numer 4 JESS PRZYKŁADOWY SYSTEM EKSPERTOWY. 1. Cel ćwiczenia Celem ćwiczenia jest zapoznanie się z przykładowym systemem ekspertowym napisanym w JESS. Studenci poznają strukturę systemu ekspertowego,
Definicje. Najprostszy schemat blokowy. Schemat dokładniejszy
Definicje owanie i symulacja owanie zastosowanie określonej metodologii do stworzenia i weryfikacji modelu dla danego rzeczywistego Symulacja zastosowanie symulatora, w którym zaimplementowano model, do
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.
Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot
Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II
Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja II Rozkład wymagający
PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA NIEMIECKIEGO dla klas 1-3 Gimnazjum
PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA NIEMIECKIEGO dla klas 1-3 Gimnazjum Obszary aktywności podlegające ocenianiu 1. WYPOWIEDZI USTNE (przynajmniej 1 ocena w semestrze) - dialogi lub monologi na dany
Forma. Główny cel kursu. Umiejętności nabywane przez studentów. Wymagania wstępne:
WYDOBYWANIE I WYSZUKIWANIE INFORMACJI Z INTERNETU Forma wykład: 30 godzin laboratorium: 30 godzin Główny cel kursu W ramach kursu studenci poznają podstawy stosowanych powszechnie metod wyszukiwania informacji
Sposoby analizy i interpretacji statystyk strony WWW.
Sposoby analizy i interpretacji statystyk strony WWW. Jak oceniać sprzedaŝ przez WWW? Grzegorz Skiera, Łukasz PraŜmowski grzegorz.skiera@cyberstudio.pl lukasz.prazmowski@cyberstudio.pl O czym powiemy?
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32
Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:
Faza Określania Wymagań
Faza Określania Wymagań Celem tej fazy jest dokładne określenie wymagań klienta wobec tworzonego systemu. W tej fazie dokonywana jest zamiana celów klienta na konkretne wymagania zapewniające osiągnięcie
Laboratorium przedmiotu Technika Cyfrowa
Laboratorium przedmiotu Technika Cyfrowa ćw.3 i 4: Asynchroniczne i synchroniczne automaty sekwencyjne 1. Implementacja asynchronicznych i synchronicznych maszyn stanu w języku VERILOG: Maszyny stanu w
Dźwięk dźwiękowi nierówny, czyli o tym jak brzmi XXI wiek
IX Studenckie Spotkania Analityczne 13-14.03.2008 Dźwięk dźwiękowi nierówny, czyli o tym jak brzmi XXI wiek Justyna Słomka Plan 1. Co to jest dźwięk? 2. Pojęcie syntezy dźwięku 3. Cel syntezowania dźwięków
Kodowanie podpasmowe. Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania
Kodowanie podpasmowe Plan 1. Zasada 2. Filtry cyfrowe 3. Podstawowy algorytm 4. Zastosowania Zasada ogólna Rozkład sygnału źródłowego na części składowe (jak w kodowaniu transformacyjnym) Wada kodowania
Informatyka Studia II stopnia
Wydział Elektrotechniki, Elektroniki, Informatyki i Automatyki Politechnika Łódzka Informatyka Studia II stopnia Katedra Informatyki Stosowanej Program kierunku Informatyka Specjalności Administrowanie
AKUSTYKA MOWY. Podstawy rozpoznawania mowy część I
AKUSTYKA MOWY Podstawy rozpoznawania mowy część I PLAN WYKŁADU Część I Podstawowe pojęcia z dziedziny rozpoznawania mowy Algorytmy, parametry i podejścia do rozpoznawania mowy Przykłady istniejących bibliotek
Opracowanie narzędzi informatycznych dla przetwarzania danych stanowiących bazę wyjściową dla tworzenia map akustycznych
Opracowanie zasad tworzenia programów ochrony przed hałasem mieszkańców terenów przygranicznych związanych z funkcjonowaniem duŝych przejść granicznych Opracowanie metody szacowania liczebności populacji
Konta uŝytkowników. Konta uŝytkowników dzielą się na trzy grupy: lokalne konta uŝytkowników, domenowe konta uŝytkowników, konta wbudowane
Konta uŝytkowników Konta uŝytkowników dzielą się na trzy grupy: lokalne konta uŝytkowników, domenowe konta uŝytkowników, konta wbudowane Lokalne konto uŝytkownika jest najczęściej wykorzystywane podczas
Definicja pochodnej cząstkowej
1 z 8 gdzie punkt wewnętrzny Definicja pochodnej cząstkowej JeŜeli iloraz ma granicę dla to granicę tę nazywamy pochodną cząstkową funkcji względem w punkcie. Oznaczenia: Pochodną cząstkową funkcji względem
FK - Deklaracje CIT-8
FK - Deklaracje CIT-8 1. Wstęp. Moduł FK umoŝliwia przygotowanie i wydruk formularza deklaracji podatkowej CIT-8. W skład dostępnych formularzy wchodzą deklaracje CIT-8(21) oraz CIT- 8/O(8). Dane do formularza
KRYTERIA OCENIANIA KLASA I KLASA II KLASA III
KRYTERIA OCENIANIA II ETAP EDUKACYJNY - JĘZYK ANGIELSKI KLASA I KLASA II KLASA III DOPUSZCZAJĄCY: rozumie proste polecenia nauczyciela, poparte gestem; rozumie proste zwroty grzecznościowe i proste pytania;
Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka
Modelowanie jako sposób opisu rzeczywistości Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka 2015 Wprowadzenie: Modelowanie i symulacja PROBLEM: Podstawowy problem z opisem otaczającej
Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I
Zespół TI Instytut Informatyki Uniwersytet Wrocławski ti@ii.uni.wroc.pl http://www.wsip.com.pl/serwisy/ti/ Rozkład materiału do nauczania informatyki w liceum ogólnokształcącym Wersja I Rozkład zgodny
Opisy efektów kształcenia dla modułu
Karta modułu - Technologia mowy 1 / 5 Nazwa modułu: Technologia mowy Rocznik: 2012/2013 Kod: RIA-1-504-s Punkty ECTS: 7 Wydział: Inżynierii Mechanicznej i Robotyki Poziom studiów: Studia I stopnia Specjalność:
Program warsztatów CLARIN-PL
W ramach Letniej Szkoły Humanistyki Cyfrowej odbędzie się III cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Narzędzia cyfrowe do analizy języka w naukach humanistycznych i społecznych 17-19
KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH IV - VI
KRYTERIA OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH IV - VI Ocena celująca: uczeń swobodnie operuje strukturami gramatycznymi określonymi w rozkładzie materiału z łatwością buduje spójne zdania proste i
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO klasa I gimnazjum Mgr Magdalena Mazanek Mgr Magdalena Pajor GRAMATYKA I SŁOWNICTWO.
WYMAGANIA EDUKACYJNE Z JĘZYKA ANGIELSKIEGO klasa I gimnazjum Mgr Magdalena Mazanek Mgr Magdalena Pajor GRAMATYKA I SŁOWNICTWO - potrafi poprawnie operować niedużą ilością poznanych struktur gramatycznych
Etapy życia oprogramowania
Modele cyklu życia projektu informatycznego Organizacja i Zarządzanie Projektem Informatycznym Jarosław Francik marzec 23 w prezentacji wykorzystano również materiały przygotowane przez Michała Kolano
Wymagania edukacyjne i kryteria ocen z języka niemieckiego dla gimnazjum.
1 Wymagania edukacyjne i kryteria ocen z języka niemieckiego dla gimnazjum. Uczeń otrzymuje oceny za : - odpowiedź ustną, - pisemne prace klasowe i domowe na tematy otwarte, - czytanie, - recytacje, -
DOBÓR ŚRODKÓW TRANSPORTOWYCH DLA GOSPODARSTWA PRZY POMOCY PROGRAMU AGREGAT - 2
InŜynieria Rolnicza 14/2005 Michał Cupiał, Maciej Kuboń Katedra InŜynierii Rolniczej i Informatyki Akademia Rolnicza im. Hugona Kołłątaja w Krakowie DOBÓR ŚRODKÓW TRANSPORTOWYCH DLA GOSPODARSTWA PRZY POMOCY
Rachunek prawdopodobieństwa projekt Ilustracja metody Monte Carlo obliczania całek oznaczonych
Rachunek prawdopodobieństwa projekt Ilustracja metody Monte Carlo obliczania całek oznaczonych Autorzy: Marta Rotkiel, Anna Konik, Bartłomiej Parowicz, Robert Rudak, Piotr Otręba Spis treści: Wstęp Cel
System sprzedaŝy rezerwacji
System sprzedaŝy rezerwacji 2009 2 Spis treści 1. O PROGRAMIE... 2 2. ZAKRES FUNKCJONALNY... 3 2.1 Funkcje standardowe... 3 2.2 Moduły dodatkowe... 4 2.3. AuroraCMS... 5 1. O PROGRAMIE Dziś prawie kaŝdy
Imagination Is More Important Than Knowledge
Imagination Is More Important Than Knowledge 1 -Albert Einstein https://www.flickr.com/photos/9555503@n07/5095475676/ Odblokuj potencjał tkwiący w danych - poznaj usługi kognitywne Grażyna Dadej Executive
Mechatronika i inteligentne systemy produkcyjne. Modelowanie systemów mechatronicznych Platformy przetwarzania danych
Mechatronika i inteligentne systemy produkcyjne Modelowanie systemów mechatronicznych Platformy przetwarzania danych 1 Sterowanie procesem oparte na jego modelu u 1 (t) System rzeczywisty x(t) y(t) Tworzenie
Korpusy mowy i narzędzia do ich przetwarzania
Korpusy mowy i narzędzia do ich przetwarzania Danijel Korzinek, Krzysztof Marasek Polsko-Japońska Akademia Technik Komputerowych Katedra Multimediów kmarasek@pjwstk.edu.pl danijel@pjwstk.edu.pl 2015-05-18
Kurs MATURA Z INFORMATYKI
Kurs MATURA Z INFORMATYKI Cena szkolenia Cena szkolenia wynosi 90 zł za 60 min. Ilość godzin szkolenia jest zależna od postępów w nauce uczestnika kursu oraz ilości czasu, którą będzie potrzebował do realizacji
Projektowanie systemu sprzedaŝy ubezpieczeń dla T. U. Generali zgodnie z metodyką User-Centered Design
Case Study Projektowanie systemu sprzedaŝy ubezpieczeń dla T. U. Generali zgodnie z metodyką User-Centered Design Zadanie Naszym zadaniem było zaprojektowanie interfejsu aplikacji do sprzedaŝy ubezpieczeń
KURS ACCESS 2003 Wiadomości wstępne
KURS ACCESS 2003 Wiadomości wstępne Biorąc c udział w kursie uczestnik zapozna się z tematyką baz danych i systemu zarządzania bazami danych jakim jest program Microsoft Access 2003. W trakcie kursu naleŝy
Internetowy moduł prezentacji WIZYT KLIENTA PUP do wykorzystania np. na stronie WWW. Wstęp
Internetowy moduł prezentacji WIZYT KLIENTA PUP do wykorzystania np. na stronie WWW. Wstęp Prezentujemy Państwu propozycję modułu aplikacji internetowej słuŝącej do prezentacji zaplanowanych wizyt klienta
Wymagania edukacyjne - język angielski - klasa IV- SP nr 7
Wymagania edukacyjne - język angielski - klasa IV- SP nr 7 6 - Ocena celująca - rozumie dłuższe teksty i dialogi i potrafi wybrać z nich żądane informacje, - rozumie dłuższe polecenia nauczyciela. - potrafi
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych
Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny
Szkolenie Stowarzyszenia Polskie Forum ISO 14000 Zmiany w normie ISO 14001 i ich konsekwencje dla organizacji Warszawa, 16.04.2015
Wykorzystanie elementów systemu EMAS w SZŚ według ISO 14001:2015 dr hab. inż. Alina Matuszak-Flejszman, prof. nadzw. UEP Agenda Elementy SZŚ według EMAS (Rozporządzenie UE 1221/2009) i odpowiadające im
Standard VXML w implementacji systemu dialogowego
BIULETYN INSTYTUTU AUTOMATYKI I ROBOTYKI NR 29, 2010 Standard VXML w implementacji systemu dialogowego Andrzej WIŚNIEWSKI Instytut Teleinformatyki i Automatyki WAT, ul. Gen. S. Kaliskiego 2, 00-908 Warszawa
Metody Kompilacji Wykład 1 Wstęp
Metody Kompilacji Wykład 1 Wstęp Literatura: Alfred V. Aho, Ravi Sethi, Jeffrey D. Ullman: Compilers: Princiles, Techniques, and Tools. Addison-Wesley 1986, ISBN 0-201-10088-6 Literatura: Alfred V. Aho,
XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery
http://xqtav.sourceforge.net XQTav - reprezentacja diagramów przepływu prac w formacie SCUFL przy pomocy XQuery dr hab. Jerzy Tyszkiewicz dr Andrzej Kierzek mgr Jacek Sroka Grzegorz Kaczor praca mgr pod
2. Podstawy programu Microsoft Access
8 Wprowadzenie do projektowania baz danych 2. Podstawy programu Microsoft Access Baza danych utworzona w programie Microsoft Access składa się z wielu obiektów róŝnych typów. MoŜna podzielić je na dwie
3.1. Na dobry początek
Klasa I 3.1. Na dobry początek Regulamin pracowni i przepisy BHP podczas pracy przy komputerze Wykorzystanie komputera we współczesnym świecie Zna regulamin pracowni i przestrzega go. Potrafi poprawnie
WPROWADZENIE DO UML-a
WPROWADZENIE DO UML-a Maciej Patan Instytut Sterowania i Systemów Informatycznych Dlaczego modelujemy... tworzenie metodologii rozwiązywania problemów, eksploracja różnorakich rozwiązań na drodze eksperymentalnej,
Kodowanie transformacyjne. Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG
Kodowanie transformacyjne Plan 1. Zasada 2. Rodzaje transformacji 3. Standard JPEG Zasada Zasada podstawowa: na danych wykonujemy transformacje która: Likwiduje korelacje Skupia energię w kilku komponentach
WYMAGANIA DOTYCZĄCE ZALICZENIA ZAJĘĆ
Nazwa przedmiotu: Techniki symulacji Kod przedmiotu: ES1C300 015 Forma zajęć: pracownia specjalistyczna Kierunek: elektrotechnika Rodzaj studiów: stacjonarne, I stopnia (inŝynierskie) Semestr studiów:
GEO-SYSTEM Sp. z o.o. GEO-RCiWN Rejestr Cen i Wartości Nieruchomości Podręcznik dla administratora systemu Warszawa 2007
GEO-SYSTEM Sp. z o.o. 02-732 Warszawa, ul. Podbipięty 34 m. 7, tel./fax 847-35-80, 853-31-15 http:\\www.geo-system.com.pl e-mail:geo-system@geo-system.com.pl GEO-RCiWN Rejestr Cen i Wartości Nieruchomości
AUTOMATYKA INFORMATYKA
AUTOMATYKA INFORMATYKA Technologie Informacyjne Sieć Semantyczna Przetwarzanie Języka Naturalnego Internet Edytor Serii: Zdzisław Kowalczuk Inteligentne wydobywanie informacji z internetowych serwisów
1. Synteza automatów Moore a i Mealy realizujących zadane przekształcenie 2. Transformacja automatu Moore a w automat Mealy i odwrotnie
Opracował: dr hab. inż. Jan Magott KATEDRA INFORMATYKI TECHNICZNEJ Ćwiczenia laboratoryjne z Logiki Układów Cyfrowych ćwiczenie 207 Temat: Automaty Moore'a i Mealy 1. Cel ćwiczenia Celem ćwiczenia jest
Zagadnienia (1/3) Data-flow diagramy przepływów danych ERD diagramy związków encji Diagramy obiektowe w UML (ang. Unified Modeling Language)
Zagadnienia (1/3) Rola modelu systemu w procesie analizy wymagań (inżynierii wymagań) Prezentacja różnego rodzaju informacji o systemie w zależności od rodzaju modelu. Budowanie pełnego obrazu systemu
WYMAGANIA EDUKACYJNE Z JĘZ. NIEMIECKIEGO W KL.III GIM
OCENA CELUJĄCA - uczeń rozumie wszystkie polecenia i wypowiedzi nauczyciela w języku niemieckim, - rozumie teksty słuchane i pisane, - na podstawie przeczytanego lub wysłuchanego tekstu określa główna
Demodulator FM. o~ ~ I I I I I~ V
Zadaniem demodulatora FM jest wytworzenie sygnału wyjściowego, który będzie proporcjonalny do chwilowej wartości częstotliwości sygnału zmodulowanego częstotliwościowo. Na rysunku 12.13b przedstawiono
SZCZEGÓŁOWE KRYTERIA OCENIANIA Z JĘZYKA NIEMIECKIEGO I ANGIELSKIEGO. Klasy IV-VIII. Szkoła Podstawowa w Zdunach
SZCZEGÓŁOWE KRYTERIA OCENIANIA Z JĘZYKA NIEMIECKIEGO I ANGIELSKIEGO Klasy IV-VIII Szkoła Podstawowa w Zdunach I. Umiejętności uczniów podlegające sprawdzaniu i ocenianiu Podczas trwania całego procesu
1. Instalacja modułu w systemie Windows.
1. Instalacja modułu w systemie Windows. W urządzeniach dołączanych do sieci lokalnej LAN zastosowano moduły firmy DIGI. Sterowniki dostarczone przez producenta tworzą w systemie Windows wirtualny port
Instalacja Czytnika Kart w systemie Windows 7, Windows XP, Windows Vista, Windows 2000.
Instalacja Czytnika Kart w systemie Windows 7, Windows XP, Windows Vista, Windows 2000. Dokumentacja UŜytkownika SPIS TREŚCI I. INSTALACJA CZYTNIKA KART W SYSTEMIE WINDOWS... 3 II. PONOWNA INSTALACJA CZYTNIKA
Etapy życia oprogramowania. Modele cyklu życia projektu. Etapy życia oprogramowania. Etapy życia oprogramowania
Etapy życia oprogramowania Modele cyklu życia projektu informatycznego Organizacja i Zarządzanie Projektem Informatycznym Jarosław Francik marzec 23 Określenie wymagań Testowanie Pielęgnacja Faza strategiczna
PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH I-III SZKOŁY PODSTAWOWEJ
PRZEDMIOTOWY SYSTEM OCENIANIA Z JĘZYKA ANGIELSKIEGO W KLASACH I-III SZKOŁY PODSTAWOWEJ 1. Obszary podlegające ocenianiu słuchanie i słownictwo - stopniowe osłuchanie z dźwiękami i intonacją języka angielskiego
Wymagania edukacyjne z języka angielskiego dla uczniów gimnazjum klasy I - III
Wymagania edukacyjne z języka angielskiego dla uczniów gimnazjum klasy I - III Odpowiedzi ustne, prace klasowe i sprawdziany są oceniane punktowo, a punkty są przeliczane następująco zgodnie z Szkolnym
Wymagania edukacyjne z języka angielskiego klasy 4-6
klasy - Ocena Gramatyka i słownictwo uczeń swobodnie operuje strukturami gramatycznymi określonymi w rozkładzie z łatwością buduje spójne zdania proste i złożone, poprawne pod względem gramatycznym i logicznym
Efekty kształcenia dla kierunku studiów INFORMATYKA, Absolwent studiów I stopnia kierunku Informatyka WIEDZA
Symbol Efekty kształcenia dla kierunku studiów INFORMATYKA, specjalność: 1) Sieciowe systemy informatyczne. 2) Bazy danych Absolwent studiów I stopnia kierunku Informatyka WIEDZA Ma wiedzę z matematyki
Internetowy moduł prezentacji ofert pracy do wykorzystania na stronie WWW lub panelu elektronicznym. Wstęp
Internetowy moduł prezentacji ofert pracy do wykorzystania na stronie WWW lub panelu elektronicznym. Wstęp Prezentujemy Państwu propozycję modułu aplikacji internetowej słuŝącej do prezentacji ofert pracy
KIERUNKOWE EFEKTY KSZTAŁCENIA
WYDZIAŁ INFORMATYKI I ZARZĄDZANIA Kierunek studiów: INFORMATYKA Stopień studiów: STUDIA II STOPNIA Obszar Wiedzy/Kształcenia: OBSZAR NAUK TECHNICZNYCH Obszar nauki: DZIEDZINA NAUK TECHNICZNYCH Dyscyplina
Ogólne wymagania na poszczególne oceny z języka niemieckiego
Ogólne wymagania na poszczególne oceny z języka niemieckiego Celujący: - uczeń posiada wiadomości i umiejętności określone programem nauczania oraz wiedzę wykraczającą poza program nauczania języka na
Pattern Classification
Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors
Opis programu OpiekunNET. Historia... Architektura sieciowa
Opis programu OpiekunNET OpiekunNET jest pierwszym na polskim rynku systemem filtrującym nowej generacji. Jako program w pełni sieciowy oferuje funkcje wcześniej niedostępne dla programów kontrolujących
Akceleracja symulacji HES-AHDL. 1. Rozpoczęcie pracy aplikacja VNC viewer
Akceleracja symulacji HES-AHDL 1. Rozpoczęcie pracy aplikacja VNC viewer Rys. 1 Ultra VNCViewer Karta HES jest umieszczona w komputerze PC w pokoju 502 C-3 na serwerze VNC o adresie IP 149.156.121.112.
Program do obsługi ubezpieczeń minifort
Program do obsługi ubezpieczeń minifort Dokumentacja uŝytkownika Administracja słowników - Agenci Kraków, grudzień 2008r. Redakcja wykazu Agentów ubezpieczeń majątkowych Dla prawidłowej pracy systemu naleŝy
OCENA CELUJĄCA SPRAWNOŚĆ MÓWIENIA SPRAWNOŚĆ PISANIA GRAMATYKA I SŁOWNICTWO. - wypowiedź pisemna odpowiada założonej formie,
ROZUMIENIE TEKSTU - uczeń rozumie wszystkie polecenia i wypowiedzi nauczyciela w języku niemieckim, - rozumie teksty słuchane i pisane, których słownictwo, struktury gramatyczne wykraczają poza program
KSZTAŁTOWANIE KLIMATU AKUSTYCZNEGO PROJEKTOWANYCH STANOWISK PRACY Z WYKORZYSTANIEM NARZĘDZI WSPOMAGAJĄCYCH
KSTAŁTOWANIE KLIMATU AKUSTYCNEGO PROJEKTOWANYCH STANOWISK PRACY WYKORYSTANIEM NARĘDI WSPOMAGAJĄCYCH Waldemar PASKOWSKI, Artur KUBOSEK Streszczenie: W referacie przedstawiono wykorzystanie metod wspomagania
KRYTERIA OCENIANIA KLASA I KLASA II KLASA III
KRYTERIA OCENIANIA III ETAP EDUKACYJNY - JĘZYK ANGIELSKI KLASA I KLASA II KLASA III DOPUSZCZAJĄCY: potrafi poprawnie operować niedużą ilością prostych struktur; buduje zdania tylko z pomocą nauczyciela;
NEURAL NETWORK ) FANN jest biblioteką implementującą SSN, którą moŝna wykorzystać. w C, C++, PHP, Pythonie, Delphi a nawet w środowisku. Mathematica.
Wykorzystanie sztucznych sieci neuronowych do rozpoznawania języków: polskiego, angielskiego i francuskiego Tworzenie i nauczanie sieci przy pomocy języka C++ i biblioteki FANN (Fast Artificial Neural
komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW
Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,
KaŜdy z formularzy naleŝy podpiąć do usługi. Nazwa usługi moŝe pokrywać się z nazwą formularza, nie jest to jednak konieczne.
Dodawanie i poprawa wzorców formularza i wydruku moŝliwa jest przez osoby mające nadane odpowiednie uprawnienia w module Amin (Bazy/ Wzorce formularzy i Bazy/ Wzorce wydruków). Wzorce formularzy i wydruków
Spis treúci. 1. Wprowadzenie... 13
Księgarnia PWN: W. Dąbrowski, A. Stasiak, M. Wolski - Modelowanie systemów informatycznych w języku UML 2.1 Spis treúci 1. Wprowadzenie... 13 2. Modelowanie cele i metody... 15 2.1. Przegląd rozdziału...