Technologie Mowy Bartosz Ziółko

Transkrypt

1 Technologie Mowy Bartosz Ziółko 1

2 Technologie Mowy 2

5 Dane kontaktowe Dr inż. Jakub Gałka C2/419 Telefon Dr inż. Bartosz Ziółko C2/418 Telefon

6 Wykłady Wprowadzenie i historia Fizjologia mowy i elementy fonetyki języka polskiego. Dialekty języka polskiego. Właściwości sygnału mowy Zbiory nagrań mowy i tekstów. Słowniki komputerowe Redukcja zakłóceń i przetwarzanie wstępne sygnału Metody parametryzacji i segmentacji sygnału Kodowanie, kompresja i transmisja mowy. Synteza mowy Metody rozpoznawania wzorców 6

7 Wykłady Ukryte modele Markowa. Rozpoznawanie słów izolowanych HTK, ANN, SVM, DBN, K-NN Weryfikacja i identyfikacja mówcy. Emocje w głosie Metryka edycyjna. Rozpoznawanie mowy ciągłej. Syntaktyczne modelowanie języka Semantyczne modelowanie. Ontologie Interfejs głosowy i systemy dialogowe Istniejące systemy i przyszłość TM 7

8 Laboratoria Zaprojektowanie własnego systemu rozpoznawania mowy o ograniczonym słownictwie w oparciu o HTK Wykonanie korpusu własnej mowy Zaimplementowanie konkatencyjnego syntezatora mowy Rozszerzenie korpusu mowy i usprawnienie syntezatora Implementacja prostego kodera i kompresora mowy Rozpoznawanie słów izolowanych (MFCC+DTW) Implementacja prostego HMM Przygotowanie modelu HMM z wykorzystaniem własnego korpusu Przetestowanie opracowanego systemu rozpoznawania mowy Poprawki i usprawnienia własnego systemu rozpoznawania mowy opartego o HTK 8

9 Ćwiczenia Elementy statystyki matematycznej (Bayes, rozkłady, Gaussiany, itd.) Zapis fonetyczny, dialekty Dyskusje o technologiach mowy na podstawie artykułów Analizy grafów 3 Kolokwia (także z wykładów) Obliczanie HMM bez komputera Prezentacje studentów na wybrany temat Analiza spektogramów 9

10 Prezentacje Elementy lingwistyki języka polskiego Wybrane komercyjne lub eksperymentalne systemy technologii mowy Zreferowanie wybranego artykułu na temat technologii mowy Pomysł na własny biznes wykorzystujący technologie mowy Można zgłaszać własne propozycje tematów prezentacji Śpiew traktujemy jako mowę 10

11 Oceny Laboratorium Wykonanie zadań laboratoryjnych, ich staranność i jakość Obecność na zajęciach Ćwiczenia 3 kolokwia z ćwiczeń i wykładów (60%) Prezentacja (10%) Wykonanie ćwiczeń w trakcie zajęć (w tym aktywność) (30%) 11

12 Podręcznik 12

13 Bibliografia D. Jurafsky and J.H. Martin Speech and Language Processing, 2nd edition W. Kwiatkowski, Metody automatycznego rozpoznawania wzorców, BEL Studio, Warszawa 2007 (28 zł) J. Koronacki, J. Ćwik, Statystyczne systemy uczące się, Wyd 2., EXIT, Warszawa 2008 (45 zł) M. Krzyśko, W. Wołyński, T. Górecki, M. Skorzybut, Systemy uczące się, WNT, Warszawa 2008 (47 zł) W. Kasprzak, Rozpoznawanie obrazów i sygnałów mowy, WPW, 2009 (28 zł) S. Theodoridis, K. Koutroumbas, Pattern Recognition, Academic Press, 2009 R. O. Duda, P. E. Hart, D. G. Stork, Pattern Classification, 2nd Edition, Wiley & Sons 2000 J. P. Marques de Sa, Pattern Recognition, Springer %20systemach%20detekcji.pdf

14 Człowiek vs. komputer

15 Pierwsze syntezatory mowy Christian Kratzenstein - urządzenie umożliwiające generowanie dźwięków przypominających 5 różnych głosek Równolegle, nad swoją akustycznomechaniczną maszyną imitującą mowę pracował Wolfgang von Kempelen 15

16 Alexander Graham Bell Profesor fizjologii dźwięku na Uniwersytecie w Bostonie oraz nauczyciel głuchoniemych. Badania Bella finansowane przez jego teścia doprowadziły do zbudowania telefonu w latach osiemdziesiątych XIX wieku, a więc także mikrofonu i słuchawki. 16

17 Lampa próżniowa W 1914 roku Harold D. Arnold opracował lampę próżniową, będącą wzmacniaczem sygnału akustycznego generowanego przez prąd elektryczny. Umożliwiło to firmie AT&T (American Telephone and Telegraph) pierwszą transkontynentalną rozmowę w 1915 roku. 17

18 Ferdynand de Saussure Określił język jako system norm społecznych umożliwiający przekazywanie informacji. Dokonał rozróżnienia między językiem (fr. langue) a mówieniem (fr. parole). Zdefiniował język jako systemem symboli i reguł ich tworzenia, który nie może być wytworem pojedynczego człowieka. Określił go więc jako abstrakcję, urzeczywistniającą się w mówieniu realizowanym przez indywidualnych ludzi. 18

19 Cztery 19

20 Sygnał mowy 20

21 REX Przymocowany do płytki reagującej obrotem na drgania o częstotliwości 500 [Hz] odpowiadającej między innymi głosce e. Przy tej częstotliwości pojawiał się rezonans, który odcinał prąd, wypychając psa z budy. W ten sposób zabawka reagowała na imię Rex. 21

22 VOCODER Bell Labs Posiadał klawiaturę i mógł między innymi syntezować mowę. Służył także do kodowania mowy na potrzeby transmisji. Działało w oparciu o bank filtrów. Z urządzenia najprawdopodobniej korzystali Churchill i Roosevelt do przeprowadzania transkontynentalnych konferencji. Po wojnie zaczęto wykorzystywać ulepszone urządzenia oparte na VOCODERZE w muzyce. 22

23 Bell Labs digit recogniser Analiza spektrum podzielonego na 2 pasma częstotliwości (powyżej i poniżej 900 Hz). Rozpoznawał cyfry wypowiadane po angielsku z błędem mniejszym niż 2%, zakładając, że użytkownik nie zmienił położenia ust względem mikrofonu pomiędzy fazą ustalania parametrów głosu a testowaniem. 23

24 24

25 Japoński system rozpoznawania samogłosek (J. Suzuki, K. Nakata, Radio Research Labs, Japonia, 1961) 25

26 Zimna wojna Szybka transformata Fouriera (FFT) Hidden Markov Model (HMM) ARPA Speech Understanding Project ($15M) Rozpoznawanie mowy ciągłej Słownik około 1000 słów => system CMU Harpy (5% błędów) Algorytm Viterbiego do ćwiczenia modeli

27 LPC Linear predictive coding F. Itakura Bell/NTT Labs 27

28 Podstawowe technologie mowy Automatyczne rozpoznawanie mowy Synteza mowy Rozpoznawanie mówcy Rozpoznawanie emocji Generowanie emocji Synteza z ruchem ust Tłumaczenie mowa-mowa Aplikacje w nauce języków obcych 28

29 Zalety technologii mowy Naturalność (nie wymagają przeszkolenia) Pozostawiają swobodę rąk i oczu Szybkie (3 razy szybciej mówimy niż piszemy na klawiaturze) Ekonomiczność (tekst zajmuje dużo mniej bajtów niż sygnał akustyczny) Szczególnie istotne dla osób nieprzyzwyczajonych do komputerów, niepełnosprawnych oraz w zastosowaniach telefonicznych 29

30 Zastosowanie w telekomunikacji 30

31 Systemy dialogowe 31

32 32

33 Różne poziomy modelowania 33

34 Komunikacja z komputerem 34

36 Ogólny schemat rozpoznawania mowy 36

38 Możliwe zastosowania ASR Głównie jako wejście Proste komendy i sterowanie Krótkie wprowadzanie danych (np. przez telefon) Dyktowanie Interaktywne (z rozumieniem) Punkty informacyjne Przetwarzanie transakcji Wirtualni doradcy 38

39 Zakres mowy i słuchu człowieka (Tadeusiewicz, 1988) 39

40 Cechy systemów mowy Mowa izolowana lub ciągła Czytana lub spontaniczna Zależny lub niezależny od mówcy Mały (20 słów) lub duży (>50 000) słownik Model językowy stały lub zależny od kontekstu Perpleksja (entropia) wypowiedzi SNR (<10 db niski, >30 db wysoki) Sposób rejestracji (telefon, komputer, mikrofon z niwelowaniem szumu) Miara nieokreśloności H k i 1 p i log 2 p i 2^H 40

41 41

42 Fonetyka Dialekty języka polskiego Zbiory nagrań i tekstów Słowniki Bartosz Ziółko 42

43 Alfabety fonetyczne Dialekty języka polskiego Korpusy mowy polskiej Korpusy tekstów - przykłady Słowniki przykłady Słowniki - formaty Wordnet 43

44 44

45 45

46 IPA 46

47 IPA 47

48 IPA 48

49 Baldi features accurate, visible articulators (CSLU Toolkit) 49

50 Fonem i trifon Pojęcie fonemu, jako pierwszy wprowadził Jan Niecisław Ignacy Baudouin de Courtenay. Obecnie fonem najczęściej definiuje się jako najmniejszą rozróżnialną jednostkę mowy. Szerzej znane pojęcie głoski, opisuje realizację konkretnego fonemu w jakiejś wypowiedzi. Zbiór fonemów, opisujących dany język całościowo jest więc alfabetem fonetycznym. Trifon to fonem w lewym i prawym kontekście, a NIE trzy fonemy 50

51 System AGH - Dostawca transkrypcji Tomasz Jadczyk 51

52 OrtFon transkryptor ortofonetyczny 52

53 Tabele OrtFona 53

54 Tabele OrtFona 54

55 Dialekty języka polskiego Wykorzystano materiały Pauliny Macury i Darii Korzec oraz

56 Dialekt a gwara Dialekt charakteryzują swoiste cechy fonetyczne, leksykalne, semantyczne i fleksyjne odróżniające go od ogólnonarodowego języka, używanego przez ogół społeczności Mówiony wariant terytorialny (lokalny) języka narodowego używany na stosunkowo niewielkim terenie Zespół gwar ludowych używanych na większym obszarze, termin nadrzędny w stosunku do gwary ludowej Dialekt jest pojęciem szerszym

57 Język ogólny Dialekt Gwara

58 Cechy dialektów Mazurzenie wymowa spółgłosek dziąsłowych sz, ż, cz, dż jako przedniojęzykowo-zębowe s, z, c, dz np. lepsze = lepse, czas = cas, żeby = żeby, rz nie podlega mazurzeniu!!! np. rzeka (a nie zeka), przypali (nie psypali) Fonetyka międzywyrazowa - dwa wyrazy, gdy pierwszy kończy się na spółgłoskę, a drugi rozpoczyna się od głosek m, n, r, l, j, ł, lub od samogłoski -nieudźwięczniająca - pomósz mje = pomóż mi, tak_ jakby -udźwięczniająca pomóż_mje = pomóż mi, tag_jakby

59 Cechy dialektów Samogłoski pochylone a o, e y występowanie samogłosek pochylonych, czyli gwarowych kontynuantów staropolskich samogłosek długich: ā, ō, ē. Ich realizacja przedstawia się następująco: -a pochylone á - jako dźwięk pośredni między a i o, kontynuant staropolskiego ā, np. górole, downo, krzoki; -o pochylone ó jako dźwięk pośredni między o i u, kontynuant staropolskiego ō, np. wóz, dziadów, kónia; -e pochylone jako dźwięk równy samogłosce y, kontynuant staropolskiego ē, występuje po spółgłoskach twardych i miękkich, np. mlyko, tyz, śpiywo, biyda; 59

60 Cechy dialektów Sziakanie (jabłonkowanie) taka sama wymowa spółgłosek dziąsłowych sz, ż, cz, dż i spółgłosek środkowojęzykowych ś, ź, ć,dź jako zmiękczone dziąsłowe sz, ż, cz, dż np. cziarni czielak = czarny cielak Szadzenie - zjawisko polegające na zastąpieniu szeregu spółgłosek zębowych: c, s, z, dz szeregiem spółgłosek dziąsłowych cz, sz, ż, dż; wynika z przesadnego unikania mazurzenia, występuje na Suwalszczyźnie

61 Cechy dialektów Prejotacja - poprzedzenie samogłosek w nagłosie j niezgłoskotwórczym np. j ile, J ewa, j anioł = ile, Ewa, anioł J igła, j indycka, j innych Labializacja - to zjawisko poprzedzania samogłosek tylnych o niezgłoskotwórczym u, zwykle osłabionym (zapisywanym jako ł), Okno = łokno, golec łorkiestra

62 MAPA DIALEKTÓW

63 Dialekt śląski Wymowa udźwięczniająca ostatnią głoskę pierwszego wyrazu w połączeniach wyrazowych, np: tag_robili, mógbyź_mi (pomóc) Brak mazurzenia Sziakanie (jabłonkowanie) Samogłoski pochylone 1-os. lp. cz. przeszłego np. byłech, robiłech

64 Powiedzioł mi wczora chlapiec 1.Powiedzioł mi wczora chłapiec, że nie umiem chleba napiyc. Cieszyn, Opawa, Frydek, Morawa, chleba napiyc. 2. Jo się na to rozgniewała, móki, soli napojczała. Cieszyn, Opawa, Frydek, Morawa, napojczała. 3. Taki się mi chlyb wydarził, spoza skury kot wyłaził. Cieszyn, Opawa, Frydek, Morawa, kocur łaził. 4. Z jednej stróny woda ciekła, z drugi stróny mysz uciekła. Cieszyn, Opawa, Frydek, Morawa, mysz uciykła.

65 Dialekt śląski 65

66 Dialekt małopolski Mazurzenie Fonetyka międzywyrazowa udźwięczniająca Samogłoski pochylone Przejście wygłosowego -ch jako -k, np. tych = tyk, na polach = na polak (Spisz ch na f) Podhale - 1-os. lp. cz. przeszłego np. byłek, robiłek

67 Siwy dym Kiebyś miała rozum i do ludzi zdanie Hej! To byś mnie kochała za samo śpiywanie Siwy dym, siwy dym Biołe sadze niesie Hej! Pockoj mnie dziywcynko przy zielonym lesie.

68 Dialekt małopolski (Spisz, Jurgów) To w ogóle nie było wody. Wiycie jako była biyda o wode. Ludzie to takie mieli beckid rewniane i wozili tum wode w tyk becka(ch). No to nos było duzo dziewco u nt bo było nos pieńć siostrók, a u sąsiadów zaś było duzo chłopców no to tam wiyncyj tum wode prziwozili te chłopc i, bo no bo z aprzągli kónia i jechali. Tak to cza bylo, jak choć kiedy to my tak sły...p ł ozycciez nom do wiadra wody. No bo cza było d aleko po nium jechać. Tam ze dwa tam jak do p otoka to d aleko. Tako becka byla d rewniano. Taki korek był w epchany. Nej sie go w ycią u gło i ta woda tak z tej becki l eciała. No to a p rasuwanie. No to pranie, no pranie, bo pralków n ie było. To była tako mied..., tako była bajla, tako tako zela... Tako jak no so u m jesce teroz takie. Takie ani... alimunowane c i takie jak to sie nazywajom. No to i tako była r ajbacka, tak sie rynkum tako tyz zelazno. My nie mieli pralki, to jo potym ho ho juz nie wiym c i do siódmej klasy nie chodziła, kiej mama takom Franie p amiyntom p rziwiezłaz miasta. Byli z p rosientami. A tak to w ryncach prali. Nej płukać to tak d aleko my miały d o wody, to c i ch ł odniki c i co, no to cza było straśnie ł oscyndzać, zeby zeby z tym praniym. To jag my juz wyprały takie cosi b ielizne c i z p ł ościele c i cosi, co była c yściyjso woda, to juz my potym to tum wodom podłoge musiały myć, zeby jom nie w ylywać, zeby jom na cosi zuzyć. No a p rasuwać to takie było z elazko lampy... jak sie p oliło w piecu no to ono mia.. 68

69 Dialekt małopolski (Lubelszczyzna Wsch, Moniatycze) ur. w 1934 r. w Jankach koło Hrubieszowa kilka kilometrów na zachód od Moniatycz). Ukończyła 4 klasy szkoły podstawowej. Wyjeżdżała jedynie do Hrubieszowa. K j edyś? Kiedyś taniec to był naprawde: polka o u berek to to już było zakładanie, to sie kiedyś zakładało. Dajmy na to, jak ja bym poszła na na óberek, tańczyć, to chłopcy sie zakładali, ilie ona wytrwa. Ódbijali. Pięć, sześć, siedem chłopców, a jedna dziwczynka, ilie ona wytrwa tego oberka. Więc ta dziwczynka zarab j ała. Czy na cze y ko u lade, czy na cukierki, czy na jak jak latem było, czy na do u brego loda. No bo to kiedyś co to, to ludzie róbili w domu. A jak sie coś dzieś trafiło, to to było jak ja w j em? Ziarko w morzu. No i i takim to to była taka właśnie moja młodość, o. A ja byłam taka sprytna, ży ja wszyskichprzytańczyłam, bo ja tańczyłam przyz noge. Nie tak jak to sie po u dbijali oboma no u gami, ty l ko ja przyz noge tańczyłam, tak że ja wszyskim mogłam przytańczyć, ja sie ni ma nie męczyłam. To już jak szed ten zakład z chło u pakami to już ja już widziałam, że oni sie zakładajo, że idzie chtoś do mnie. A szed najpierw taki, co ni umiał tańczyć. Żeby ja gouczyła, żeby ja sie zmynczyła. A ja nie tak nie Bo jak przyz noge sie tańczy, to tak sie i chłópaka ni męczy i sam sie nie i męczy. Ja mówi: czekaj, do u tego chło u paka. 69

70 Dialekt wielkopolski Brak mazurzenia fonetyka międzywyrazowa udźwięczniająca- np. szeź_arów, laz_uruojs = sześć arów, las urósł Samogłoski pochylone -ow jako -ew np. majowy = majewy Labializacja

71 Dialekt wielkopolski (Baranówko, koło Poznania) Kiedyź no to, kiedyś to wykopki odbywały sie dziabkom, nawet wprawdzie nie u nas, w naszym gospodarstwie nie, ale w gospodarstwach w takich tych pegeerowskich, w tych majontkach, to dziabkami, dziabkami wykopywali, to tam cały szereg tych pań szło. Mówili na to: na szefle chodzóm i to miały płacone od wykopków, od tych szefli, nie wiem, ile na taki szefel tam wchodziło, w każdym bądź razie że one szły z koszykami, wsypały do jakigoś tam pojemnika, to był, który nazywał sie tym szeflym i ten, ten, ten, ten który tam pilnował, nadzorował, to on to zapisywał i od tego miały obliczane. U naz natomias była maszyna tak zwana figaka, to ona tak wyrzucała na boki i każdom jednom radlone, radlin... radline brała, a dwóch musiało zbierać, bo to tam rorzuciła na jakieś tszy metry. I to ludzie byli paramirozstawini, co kawołek inna para, takie tam cztery pi ń ć par czasym zbierało te zimniaki, jak zależności od tego, jakie było długie pole, nie. A w kóńcu przyszły te el... elewatorowe tak zwane ciągnikowe maszyny, które wyrzucały do tyłu i zabierały dwie radliny, a zbierał jeden człowiek i wtynczas znowuż zbierali raz przy razie mogli sobie zbierać wszyscy i z boku sie jechało czy tam końmi, czy ciągnikiem i jeden wysypywał te ziemniaki na... na... do skrzyni, do tej, do tej przyczepy, tak. No a obecnie to som już tam te kombajny, które... które wybierajom, no som jeszcze że jeszcze tam, jeszcze sie spotyka, że jeszcze wybierajom takimi też zimniakami, te zimniaki, tymi ewelator... elewatorowymi, 71

72 Dialekt mazowiecki Mazurzenie Fonetyka ubezdźwięczniająca międzywyrazowa np. tak_jakby Stwardnienie grupy li w ly np. lypa, malyna Przejście nagłosowego (na początku) ja- w je-, np. jak = jek, jagoda = jegoda, oraz ra- w re-, np. rano = reno Po spółgłoskach wargowych miękkich pojawiają się dodatkowe spółgłoski, np. mniasto

73 Dialekt mazowiecki (Janówek, koło Warszawy) Drzewa to se teras nie obdziabuje. Obdziabuje sie, śnuruje, panie, sie. Mas pan sznur i zaznacas ołówkem tu, tu, zeby było prosto, panie, i mozna obdziabywać albo oberżno u nć na pile, panie, tak, takie drzewo i zeby było cy do kantu, ji na jakie chces pan, cy na łaty, cy na te krokwy. No bo jak na łaty chces pan, pod blache bić, to cienkie, a na krokwi to musombyć, panie, dobre drzewo, grubse i mocne. To pan dajes później trempel, to trempel, zebysie nie zawaliło, ten, ten dach, jak to, no to musi być zmocowany, jak to sie mówi, panie. I to wszystko jest, to robota była, panie, taka, i panie ji. Robiło sie na Ursynowje, budynkistawjało sie, wjeżowce, panie, Ł okeńcie sie budowało, na Ł okeńcie byłem, było tepowjenkszenie tego Okeńcia, tyż robiłem, panie, zakłady Nowotki, polskie nagranie, na strzelnicy sie robiło tu, na Bjelanach, tu na Młocinach, wszystko robiło tamoj, panie, strzelnicy, to poszli duzo piniendzy a to nic z tego nie wysło, bo to w kepskim mjejscuzaplanowali. Bo to ta Wisłostrada leci, tutej rozjazdy, wje pan, panie. Wszystko to, widzis pan, wszystko to robiłem sam, panie, ł o. 73

74 Dialekt mazowiecki (Czerwonka, Podlasie) Kiedyś co tutaj było? Kowal. Kawal był, wszystko było swoje, nie, tedy wszystko, nichto ni kupował, wszystko swoje, dawali, warzywo, nie warzywo, wszystko, tylko tera to tam o robio, no. Ale też tak kawala nie ma, już koso i nie ko szo, cepami nie młóco, maszynami, niestety, już wszystko, zmieniło a s ie, no bardzo zmieniło sie... Jak ja jeszcze byłam nawet młodo a m, to w szkole a organizo a wali komedyjki takie różne, przedstawienia różne, brałam dużo udziału w tym. To jeszcze było w Pokośnem, do szkoły chodząc i ze szkoły różne tance, rozmaite, różne te stro u je te. Są takie spódnicy, baby nosili kiedyś, naszywane a, długie a z takimi ko a ronkami różne, jeszcze gdzieś tam może na górze jest. Z tych tradycyjów, było ale już tera nie ma, zanikło. Bo nie ma młodych, my już stare, to co tam, nie dasz rady, no to co tam, nie robisz nic i tak, o. Są jeszcze tradycje różne. Alejusz nie już tylko tak, we a s iele jeszcze tradycyjne jest, pogrzeb tradycyjny jest, no i chrzciny tradycyjne spotykajo, że podajo dz ieciaka do chrztu. No to jest jeszcze tradycja. Nie ma te y go, jusz jakie może dziesięć lat jusz nie ma tego, co było kiedyś. Byli zabawy to jak liatem u stodołach, dz iś jusz nie ma tych zabawów. A jeszcze kiedys to po a mieszkaniach, to było a byli, no i grali tutaj, o tam u kogoś gdz ie młodych dużo było, to poproszo i grali i tańczyli, było a więcej rozrywki było, różne takie przyśpiewki śpiewali. 74

75 Nowe dialekty mieszane Termin stosowany na określenie odmian języka polskiego używanych na ziemiach zachodnich i północnych Polski, tzw. ziemiach odzyskanych. Powstały ze zmieszania się kilku różnych gwar. Stały się polszczyzną ogólną z elementami gwarowymi.

76 Język kaszubski Od 2005 roku język regionalny z możliwością wprowadzenia do urzędów jako język pomocniczy W województwie pomorskim Można zdawać maturę z języka kaszubskiego Inne znaki fonetyczne niż w języku polskim Spółgłoski które w wielu gwarach polskich ulegają mazurzeniu w kaszubszczyźnie upodabniają się do ś, ź, ć, dź - kaszubienie

77 Kaszubski 77

78 Mazurzenie

79 Lwowski 79

80 Fonetyka międzywyrazowa TAK_JAKB Y TAG_JAKB Y

81 Ziemniaki Grule Podhale Rzepy Orawa Pyry Wielkopolska Kobzale, knule, jabłka Śląsk Kartofle Mazowsze i Śląsk Bulwy Pomorze Pantówki - Kujawy

82 Dialekty angielskiego 82

83 83

84 84

85 Znaczenie korpusów Większość metod w przetwarzaniu mowy opiera się na statystykach => Jakość i wielkość korpusów jest kluczowa dla jakości systemów 85

86 Korpus a zbiór danych Przetwarzalny przez maszyny Autentyczne dane językowe Reprezentatywny Zwykle anotowany (transkrypcje do mowy, funkcje gramatyczne do tekstów, osoby wypowiadające się itd.) 86

87 Jakość sygnału mowy 87

88 Anotacje Wykonanie wszelkiego rodzaju anotacji jest procesem bardzo czasochłonnym i uciążliwym (1 min mowy -> 20 min pracy) => Korpusy są dużo kosztowniejsze niż ich nie przetworzona zawartość Stosuje się coraz częściej także podejścia automatyczne, bez anotacji przez ludzi (Google) 88

89 Anotator AGH 89

90 Segmentacja na fonemy 90

91 Aspekt prawny Teksty i nagrania są wytworem myśli i jako takie są chronione prawem autorskim Prawo w Polsce dopuszcza pobieranie tekstów z internetu, zabrania ich udostępniania bez zgody autorów Nie ma przepisów prawnych odnośnie praw do modeli językowych wytworzonych na podstawie tekstów objętych ochroną prawem autorskim Można założyć, że statystyki nie są już chronione prawem, ale trzeba liczyć się z wątpliwościami 91

92 Polskie korpusy mowy Grocholewski CORPORA Jurisdic GlobalPhone Luna SpeechDat(E) EPPS European Parliament corpus Szklanny corpus (PJWSTK) AGH corpus 92

93 CORPORA - anotacja "*/ak1c1kzm.lab 0 0 sil k a zi i m j e r a sil. MLF, CHR, FON Programy LABEL98 i BASAK98 93

94 GlobalPhone - anotacja ;SprecherID 001 ; 1: Niemiecka gazeta "Franfurter Rundschau" wczorajsza~ korespondencje~ z Krakowa zatytul1owal1a "Wieczna postac1" ; 2: Dziennik nawia~zal1 do wypowiedzi jednej z ml1odych mieszkanek Krakowa kto1ra mial1a cztery lata gdy kardynal1 Wojtyl1a wyjechal1 do Rzymu w tysia~c dziewie~c1set siedemdziesia~tym o1smym roku ; 3: Cal1e moje z0ycie przebiega pod znakiem Jana Pawl1a drugiego ;timestamp: 1999 ;BEGIN ;LANGUAGE:Polish ;SUPERVISOR:Patrycja H ;TAPELABEL:notape ;RECORD DATE: ;ARTICLE READORDER: ;TOPIC ARTICLE: ;SPEAKERDATA ;NAME OF SPEAKER:Patrycja ;SPEAKER ID:001 ;NATIVE LANGUAGE:Polish ;RAISED IN:Poland ;DIALECT: ;SEX:female ;AGE:22 ;OCCUPATION:student ;COLD OR ALLERGY:ok ;SMOKER:nonsmoking ;RECORDING SETUP ;RECORD PLACE: ;ENVIRONMENT NOISE: ;RECORD CONDITIONS: ;COMMENTS: ;END 94

95 Luna anotacja (2 sek) 95

96 Luna anotacja (2 sek) c.d. 96

97 Luna anotacja (2 sek) c.d. 97

98 Luna anotacja c.d. 98

99 Europarlament - anotacja <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE Trans SYSTEM "trans-14.dtd"> <Trans audio_filename="1655_1730_pl_sat" version="2" version_date="110106"> <Speakers> <Speaker id="spk1" name="unknown" type="unknown" dialect="native" accent="" scope="global"/> <Speaker id="spk2" name="geremek" check="no" dialect="native" accent="" scope="local"/> </Speakers> <Episode> <Section type="report" starttime="0" endtime=" "> <Turn starttime="0" endtime="32.526"><sync time="0"/> 99

100 Europarlament anotacja c.d. </Turn> <Turn speaker="spk1" starttime="32.526" endtime=" "> <Sync time="32.526"/> [noise] <Sync time=" "/> [pause] <Sync time=" "/> [noise] </Turn> <Turn speaker="spk2" starttime=" " endtime="246.34"> <Sync time=" "/> dziękuję panie przewodniczący. <Sync time=" "/> muszę wyznać, że przemówienia pana premiera [xxx] mają siłę uwodzicielską. <Sync time="174.29"/> i po przemówieniu czerwcowym w parlamencie słuchając końcowego dzisiejszego, 100

101 Europarlament anotacja c.d. Sync time="181.06"/> chciałem rozpocząć moje wystąpienie od tego, że uważam premiera [xxx] [xxx] za jednego z nielicznych europejskich mężów stanu. <Sync time=" "/> ale czar prysł, gdy pan premier wyszedł. <Sync time=" "/> i dlatego moje słowa będą nieco odmienny charakter nosiły. <Sync time=" "/> wiele wskazuje na to, że prezydencja brytyjska będzie miała bilans, który będzie smutny dla unii europejskiej. <Sync time=" "/> [applause] </Turn> <Turn speaker="spk1" starttime="246.34" endtime=" "> <Sync time="246.34"/>[noise]</turn> <Turn starttime=" " endtime=" "> <Sync time=" "/> </Turn> </Section></Episode></Trans> 101

102 Szklanny - anotacja File type = "ootextfile" Object class = "TextGrid" xmin = 0 xmax = 5.54 tiers? <exists> size = 1 item []: item [1]: class = "IntervalTier" name = "Alignment" xmin = 0 xmax = 5.54 intervals: size = 57 intervals [1]: xmin = 0 xmax = text = "_sil_" intervals [2]: xmin = xmax = text = "n'" intervals [3]: xmin = xmax = text = "e" intervals [4]: xmin = xmax = text = "z" intervals [5]: xmin = xmax = text = "a" intervals [6]: xmin = xmax = text = "m" intervals [7]: xmin = xmax = text = "j" intervals [8]: xmin = xmax = text = "e" intervals [9]: xmin = xmax = text = "Z" intervals [10]: xmin = xmax = text = "a" intervals [11]: xmin = xmax = text = "m" intervals [12]: xmin = xmax = text = "m" 102

103 AGH - anotacja 103

104 Polskie korpusy tekstów IPI PAN (z POS tagami) NKJP (National Corpus of Polish) Rzeczpospolita Literatura Transkrypcje Sejmu i zjazdów Solidarności Nazwiska (Lista Wildsteina, PESEL, ANWIL SA) Notatki PAP Wikipedia Inne strony (crawling) 104

105 Korpus IPI PAN <tok> <orth>porządek</orth> <lex><base>porządek</base><ctag>subst:sg:acc:m3</ctag></lex> <lex disamb="1"> <base>porządek</base><ctag>subst:sg:nom:m3</ctag> </lex> </tok> <tok> <orth>dzienny</orth> <lex><base>dzienny</base><ctag>adj:sg:acc:m3:pos</ctag></lex> <lex><base>dzienny</base><ctag>adj:sg:nom:m1:pos</ctag></lex> <lex><base>dzienny</base><ctag>adj:sg:nom:m2:pos</ctag></lex> <lex disamb="1"> <base>dzienny</base><ctag>adj:sg:nom:m3:pos</ctag> </lex> </tok> 105

106 Polskie korpusy tekstów 106

107 Problemy z formatem polskich liter Standardy polskich liter: -UTF-8 -Windows ISO Mazovia -IBM CP 852 -? Czasami w jednym pliku może być użytych kilka

108 Litery języka polskiego w UTF-8 108

109 Litery języka polskiego w UTF-8 109

110 Korpusy tekstów angielskich - American National Corpus (ANC) 22 mln (2009) - CollinsWordbank, mixed mainly British 56 mln (2009) - British National Corpus (BNC) 100 mln (spoken and written) - Corpus of Contemporary American English (COCA) 385 mln (spoken, literature, journals, academic papers) - Brown Corpus (1967) 1 mln but with POS tags - International Corpus of English (ICE) 1 mln (British, Hong Kong, Western Africa, India, New Zeland, Philipines & Singapur) - Oxford English Corpus mln (but including Internet websites) - Scottish Corpus of Texts and Speech 4 mln of Scottish 110

111 Inne typy korpusów Wielojęzyczne (do uczenia tłumaczeń) Wielomodalne (np. audiovideo) Emocjonalne (z pracy mgr inż. Magdaleny Igras) medyczne 111

112 Korpus audiovideo AGH 112

113 Korpusy Ultrasonograficzne Thomas Hueber 1, Elie-Laurent Benaroya2, Bruce Denby 3,2, Gérard Chollet 1GIPSA-lab, 2Sigma Laboratory, ESPCI Paristech, 3Université Pierre et Marie Curie, Paris, France 4LTCI/CNRS, Telecom ParisTech 113

114 Korpusy z obrazowaniem metodą rezonansu magnetycznego (MRI) 114

115 Korpusy z obrazowaniem metodą rezonansu magnetycznego (MRI) 115

116 Korpusy elektromiograficzne (EMG) Michael Wand, Matthias Janke, Tanja Schultz (KIT) 116

117 Korpusy z elektromagnetycznym artykulografem (EMA) P. West, Oxford University Phonetics Lab 117

118 Korpusy mowy i tekstów czym się kierować przy wyborze Jakość i wielkość potrzebna optymalna decyzja Format nagrań lub tekstów Anotacje Zgodność z tekstem Szczegółowość (zdania, słowa, fonemy) Dodatkowe informacje Kim byli mówcy O czym jest korpus Czy mówcy powtarzają te same wypowiedzi Cena (od 2000 Euro do Euro) 118

119 Słowniki 3 reprezentacje Pliki tekstowe Bazy danych Finite State Automaton 119

120 Słowniki języka polskiego Synonimy Open Office Wielki Słownik Języka Polskiego Słownik wyrazów obcych i zwrotów obcojęzycznych Władysława Kopalińskiego Wikisłownik Słownik synonimów i antonimów Piotra Żmigrodzkiego Słownik Języka Polskiego N-gramowy słownik frekwencyjny języka polskiego 120

121 Słowniki do rozpoznawania mowy zawsze będą mieć transkrypcję fonetyczną. może moze Morze moze tak tak tak tag 121

122 Słownik AGH baza danych projektowane jako pliki tekstowe -> przetwarzanie do BD (SQL wolne, lepiej stosować Berkley DB i inne nierelacyjne) Mariusz Mąsior 122

123 Wybór silnika bazy danych Potrzeby: - Duża szybkość odczytu - Odpowiednia licencja - Małe zużycie zasobów - Prostota - Łatwość instalacji (brak serwera usług) - Przenośność danych Dawid Skurzok

124 SQL vs nosql SQL Structured Query Language relacyjne bazy danych (MySQL, Ms SQL, Oracle, SQLite...) NoSQL - not only SQL - wszystkie inne key-value store, document store, graph DB, object DB, tabular, (BerkeleyDB, BigTable, CouchDB, ) Dawid Skurzok

125 Wybór silnika bazy danych RDBMS (MySQL, Postgres, MS SQL) Dostępność Wybierz dwa! Tokyo Cabinet, CouchDB, Cassandra Relational Key-Value Tabular Document Spójność BerkeleyDB, BigTable (Google), MongoDB Podzielność Dawid Skurzok

126 Wybór silnika bazy danych Tylko czytanie danych Dostępność Wybierz dwa! Spójność Podzielność Dawid Skurzok

127 Wybór silnika bazy danych Tylko czytanie danych Dostępność Wybierz dwa! Spójność Zapis danych jednowątkowo Podzielność Dawid Skurzok

128 Wybór silnika bazy danych Tylko czytanie danych Dostępność Wybierz dwa! Spójność Zapis danych jednowątkowo Podzielność Dane przechowywane tylko lokalnie Dawid Skurzok

129 Wybór silnika bazy danych Tylko czytanie danych Dostępność HODB key-value store (DSP AGH) - Duża szybkość odczytu - Własna licencja - Prosta implementacja Spójność Zapis danych jednowątkowo Podzielność Dane przechowywane tylko lokalnie Dawid Skurzok

130 Testowane silniki baz danych SQLite lekki silnik relacyjnych baz danych BerkeleyDB nierelacyjna baza danych przechowuje dane w oparciu o schemat kluczwartość HODB własna implementacja bazy danych w oparciu o tablicę mieszającą (hash table) Dawid Skurzok

131 Zbieranie danych do modelu językowego Dawid Skurzok

132 Odczyt danych dane rzeczywiste Dawid Skurzok

133 Semantyczne zasoby dla języka Polskiego Słowosieć Wikipedia i DBPedia Synonimy w OpenOffice Wielki Słownik Języka Polskiego Słownik Języka Polskiego 133

134 Słowosieć Elektronika jest typem sprzętu Elektronika jest typem nauki matematycznoprzyrodniczej i nauki ścisłej 134

135 Słowosieć Automatyka Informatyka Mechanika Inżynieria 135

136 Konstruowanie Słowosieci 136

137 Podsumowanie Orientacja w zagadnieniach związanych z korpusami mowy i tekstów (jak się je robi, ocenia ich jakość, wielkość itp.) Rodzaje korpusów (tekst, mowa, wielojęzyczne, audiovideo, emocje, obrazy medyczne ) Implementacje słowników (tekst, BD, FSA) Słowosieć (sprawdzić stronę) 137

138 HTK 138

139 Czym jest HTK Zbiór programów implementujących Niejawne Łańcuchy Markowa - Hidden Markov Models (HMMs) ASR, synteza mowa, rozpoznawanie liter, badania nad sekwencjami DNA Analiza mowy, wyćwiczenie HMM, testowanie i analiza rezultatów HTK dopasowuje hipotezę każdego rozpoznania do jednego z elementów słownika przygotowanego przez użytkownika Porównanie transkrypcji fonetycznych słów 139

140 Schemat HTK 140

141 Sekwencja symboli 141

142 Rozpoznanie pojedynczego słowa 142

143 Łańcuch Markowa 143

144 Ćwiczenie 144

145 Rozpoznawanie 145

146 Reprezentowanie mikstur 146

147 Reestymacja Najpierw robi się zgrubne przybliżenie wartości parametrów HMM Następnie dokładniejsze parametry można znaleźć stosując reestymację Baum-Welcha Według kryterium maksymalnego podobieństwa (maximum likelihood) 147

148 Algorytm Viterbiego dla rozpoznawania izolowanych słów 148

149 Sieć rozpoznawania dla mowy ciągłej 149

150 Tokeny wykrywające granice słów 150

151 Używanie HTK System można wykonać korzystając z tutoriala HTK Book, jednakże niektóre kroki będą inne, a niektóre można pominąć Step 7-8 Fixing the Silence Models Step 9-10 Making Triphones from Monophones Różnice i niedopatrzenia Przygotuj plik config1 i codetr.scp (config jak w tutorialu ale z SOURCEFORMAT = WAV) Utwórz katalogi hmm0, hmm1,

152 Rzeczy o których należy pamiętać Dokumentuj używane komendy i inne czynności Dbaj o porządek w swoich plikach Nagrywaj mowę w dobrej jakości (głośno, poprawnie wymowa, jak najmniej zakłóceń i szumu, bez przesterowania) Nagrania muszą idealnie pasować do transkrypcji Niczego nie kasuj Aby otrzymać ocenę wyślij sprawozdanie, nagrania, transkrypcję i cały system 152

153 Modelowanie mowy Bartosz Ziółko 153

154 HMM 154

155 155

156 156

157 157

158 Probability density function 158

159 Maximum A Posteriori (MAP) Estimation Maximising the posterior pdf 159

160 Maximum-Likelihood (ML) Estimation Maximising the likelihood function 160

161 Common problems with using statistics 161

162 162

163 Klasyfikowanie i dekodowanie w ASR poza HMM Klasyfikator k-nn Artificial Neural Networks (ANN), Sztuczne sieci neuronowe Support Vector Machine (SVM), Maszyna wektorów nośnych Dynamic Bayesian Networks (DBN), Dynamiczne sieci Bayesa Graphical Model Toolkit (GMTK) Maximum Entropy Direct Model Conditional Random Fields (CRF) 163

164 Wartość cechy 2 (x[2]) Modyfikacja AGH klasyfikatora k-nn c 1 c x -0.6 J. Gałka Wartość cechy 1 (x[1]) 164

165 Artificial Neural Networks (ANN, NN) 165

166 Modelowanie czasu i kontekstu w ANN 166

167 Hosom, Cole, Fanty, CSLU at Oregon Institute of Science and Technology 167

168 168

169 169

170 EVALUATION AND INTEGRATION OF NEURAL- NETWORK TRAINING TECHNIQUES FOR CONTINUOUS DIGIT RECOGNITION J.-P. Hosom, R. A. Cole, and P. Cosi Features: 13 th -order MFCC with delta values (as in the baseline system, referred to as MFCC13D), 13 th -order MFCC with no delta values (MFCC13), 9 th -order MFCC with and without delta values (MFCC9D and MFCC9), 13 th -order and 9 th -order PLP with and without delta values (PLP13D, PLP13, PLP9D, PLP9), a combination of 13 th -order PLP and 13 th -order MFCC (PM13), a combination of 9 th -order PLP and 9 th -order MFCC (PM9). All PLP features were computed using RASTA pre-processing, and all MFCC features were computed using CMS pre-processing. Grammars: allowing optional silence between digits (SIL), allowing an optional garbage word as well as optional silence between digits (GAR). 170

171 Metodologia empirycznego oceniania Wyniki testów niczego nie dowodzą, mogą jedynie wskazywać itp. Konieczne jest rozdzielenie danych treningowych i testowych, aczkolwiek można crossować Prawo wielkich liczb, ale Niektóre systemy statystyczne mogą się przećwiczyć Oceniamy na raz wyłącznie jedną zmienną, reszta systemu musi być całkowicie stabilna Należy podać jak najwięcej szczegółów dotyczących danych testowych, a w miarę możliwości używać ogólnodostępnych testów Wyniki naukowe powinny być falsyfikowalne otwarcie na krytykę 171

172 Support Vector Machine (SVM) 172

173 173

174 Ganapathiraju, Hamaker, Picone: Applications of Support Vector Machines to Speech Recognition SVM nie może modelować wprost struktur czasowych Stosuje się rozwiązania hybrydowe SVM/HMM SVM zapewnia miarę i dyskryminant umożliwiający porównywanie klasyfikatorów Brak jasnych relacji między dystansem klastrów i prawdopodobieństw a posteriori Projektowanie klasyfikatora: jeden przeciwko wszystkim lub jeden na jeden Model segmentowy ze stałą liczbą regionów 174

175 Ganapathiraju, Hamaker, Picone: Applications of Support Vector Machines to Speech Recognition 175

176 Ganapathiraju, Hamaker, Picone: Applications of Support Vector Machines to Speech Recognition 176

177 Nieliniowe klasyfikacje SVM ZPrZA 177

178 Rezultaty stosowania SVM z różnymi ustawieniami w rozpoznawaniu mowy 178

179 Sieć Bayesowska Skierowany acykliczny graf reprezentujący zbiór zmiennych losowych i zależności warunkowych między nimi. 183

180 Sieć Bayesowska 184

181 185

182 Dynamiczne sieci Bayesowskie Wyrażenie s ozna cza wystąpienia stanów koncepcyjnych z dyskretnymi wartościami opisującymi fizyczny system o wartościach ciągłych ze stanami x i obserwacjami y 186

183 187

184 HMM a DBN HMM jest podklasą DBN DBN reprezentuje wprost właściwości rozkładu na czynniki Rozkład na czynniki określony przez DBN narzuca warunki które model musi spełnić DBNy przekazują informację strukturalną o ukrytym problemie 188

185 Edinburgh articulatory DBN model manner, place, voicing, rounding, front-back, static 189

186 Graphical Model Toolkit extension of DBN Dopuszcza krawędzie ukierunkowane przeciwnie do upływu czasu Płaszczyzny sieci mogą obejmować wiele ramek czasowych Łamie założenia Markowa Mechanizm do przełączania dziedziczenia Dziedziczenie zmiennej może być wielokrotne a także ulokowane w przyszłości Dopuszcza różne wieloramkowe struktury pojawiające się zarówno na początku jak i na końcu sieci Bilmes, Bartels: Graphical Model Architecture for Speech Recognition 190

187 GMTK 191

188 Maximum Entropy Markov Model Kuo, Gao: Maximum Entropy Direct Models for Speech Recognition 192

189 Conditional Random Fields DBNy modelują dystrybucję prawdopodobieństw wielu zmiennych p(y,x) CRFy modelują dystrybucję prawdopodobieństw warunkowych p(y x) 193

190 Deep Neural Networks Zwykle więcej warstw Wysokopoziomowe cechy są definiowane w oparciu o niskopoziomowe 194

191 Dynamic Time Warping 195

192 196

193 197

194 198

195 Podsumowanie W ASR stosuje się rozwiązania konkurencyjne do HMM (knn, ANN, SVM, DBN, MEDM, GMTK, CRF, DNN). We wspomnianych metodach są problemy z modelowaniem czasu i kontekstu koartykulacyjnego, dlatego często stosuje się hybrydy z HMM. Metodologia testowania i oceny ASR Przeszukiwanie grafów szerokie i dogłębne 199

196 Metryka edycyjna Rozpoznawanie mowy ciągłej (wykorzystano materiały Dawida Skurzoka i MIT) 200

197 Levenshtein Distance Wolfram Mathematica Demo: Edit Distance 201

198 Modyfikacja metryki edycyjnej o d t a p g d i e k o n t f d u a l a m k o t a A L A Lepsze dopasowanie niemożliwe przerwanie analizy kolejnych segmentów D. Skurzok

199 Modyfikacja metryki edycyjnej o d t a p g d i e k o n t f d u a l a m k o t a D O M Przerwanie analizy

200 Modyfikacja metryki edycyjnej o d t a 0.5 e k o o 0.25 a l a n 0 O K O Ilość segmentów = 3 końcowa odległość: 1 / 3 = Ilość segmentów = 4 końcowa odległość: 1 / 4 = 0.25

201 Tworzenie siatki a l a m k o t a e k o n t f d u o d t a p g d i a ala akta ola atrapa.

202 Tworzenie siatki a l a m k o t a e k o n t f d u o d t a p g d i dom lama koń kotdam

203 Tworzenie siatki a l a m k o t a e k o n t f d u o d t a p g d i a ono tak amok

204 Tworzenie siatki a l a m k o t a e k o n t f d u o d t a p g d i kot akta akt

207 Łączenie wyrazów Ala Oko dom lamo koń ono tak a auto ma nip a i u kota to kodu a

208 Usuwanie tych samych wyrazów dom lamo koń ono tak a auto ma nip a i ma kota to a dom lamo koń ono tak auto ma nip a i kota to a

209 Usuwanie tych samych wyrazów dom lamo koń ono tak auto ma nip a i kota to a dom lamo koń ono tak auto ma nip a i kota to

210 Usuwanie ślepych ścieżek ala dom Ono Auto oko lamo Tak Ma koń a nip a

211 Usuwanie ślepych ścieżek ala dom Ono Auto oko Ma koń a nip a

212 Wyszukiwanie najlepszych ścieżek Ala oko a dom lamo koń ono tak a auto ma nip a i u kota to kodu od ot oda a u i.

213 Przykład hipotezy zdania

214 Modified Weighted Levenshtein Distance MWLD( A, B) min{ K k 1 l nk r k ( w) K k 1 h k i( w) K k 1 g k d( w)} Substitution weight: l nk (ln( p 1 k ) ln( p nk )) Insertion weight: h k ln( p ) ins const Deletion weight: g k ln( p 1 k ) ln( p del ) 218

215 substitution = deletion + insertion Substitution can be replaced by insertion and deletion Sum of insertion and deletion weights have to be bigger then weight of substitution h k g k l nk 219

216 1 substitution and 1 deletion Segment 1 Segment 2 Segment 3 Segment 4 Segment 5 Phon. prob. Phon. prob. Phon. prob. Phon. Prob. Phon. Prob. j 0.35 e 0.35 ż 0.30 w 0.30 p 0.30 i 0.25 y 0.30 sz 0.25 y 0.25 t 0.25 e 0.15 j 0.20 ś 0.20 e 0.20 e 0.20 MWLD (ln( p k ) ln( pnk)) (ln( p1 ) ln( p 1 k del MWLD Substitution has low weight (0.18), because the phoneme, for which we replace, was high on the hypotheses list. Deletion weight is higher because the deleted phoneme has relativelly high probability. )) 220

217 Modified Weighted Levenshtein Distance 221

218 222

219 amplitude Dzielenie na słowa silne 450 [ms] działanie 450 [ms] uboczne 600 [ms] /s il/ /ne/ /dz'a/ /wa/ /n e/ /u/ /bo/ / tsne/ pause 110 [ms ] time [s] 223

220 Rozpoznawanie mowy ciągłej 224

221 225

222 226

223 227

224 228

225 229

226 230

227 231

228 232

229 233

230 234

231 235

232 236

233 237

234 238

235 239

236 240

237 241

238 242

239 Podsumowanie Metryka edycyjna (Levenshteina) Zjawisko braku ciszy między słowami Level builder Konstruowanie siatki słów Łączenie sekwencji HMMów 243

240 Katedra Elektroniki, Zespół Przetwarzania Sygnałów Rozpoznawanie mówcy i emocji Bartosz Ziółko Wykorzystano materiały Davida Sierry, Wojciecha Kozłowskiego i Magdaleny Igras 244

241 Wprowadzenie Mowa zawiera nie tylko informacje słowne o przekazywanej wiadomości Rozpoznawanie mowy Rozpoznawanie mówcy Rozpoznawanie emocji -> co? -> kto? -> jak? Mowa może być wykorzystana w systemach biometrycznych 245

242 Rozpoznawanie mówcy 246

243 Architektura systemów automatycznego rozpoznawania mówcy 247

244 Ogólny podział systemów automatycznego rozpoznawania mówców 248

245 Weryfikacja a identyfikacja Źródło: WERYFIKACJA IDENTYFIKACJA Źródło: PAP 249

246 Opis jakości systemu stopień rozpoznania 250

247 Zastosowania Biometryczne systemy bezpieczeństwa Zalety w porównaniu do innych systemów Nieskończona ilość materiału do analizy (więcej nagrań większa dokładność) Wymagany jedynie tani sprzęt Niewymagana obecność (zdalne rozpoznanie) Bezpieczeństwo

248 Zastosowania 252

249 Zastosowania Biometryczne systemy bezpieczeństwa Oczekiwany wzrost zainteresowania systemami rozpoznawani mówcy w porównaniu do innych systemów biometrycznych

250 Zastosowania Biometryczne systemy bezpieczeństwa Przez telefon Transakcje bankowe» Zmniejszenie strat powiązanych z defraudacjami» Zmniejszenie kosztów prewencji defraudacji» Zwiększenie przychodu w związku ze wzrostem satysfakcji klientów Poczta głosowa Zakupy przez telefon Głosowe interaktywne systemy odpowiadające

251 Zastosowania Biometryczne systemy bezpieczeństwa Defraudacje związane z podszywaniem się Jedynie w 2006 roku, 8,9 milliona dorosłych obywateli US było ofiarami podszywania się 1,3 miliarda funtów strat rocznie w Zjednoczonym Królestwie Przychód z systemów biometrycznych

252 Zastosowania systemy bezpieczeństwa Fizyczny dostęp (klucz) VADC (Voice Activated Device Control) Bankomaty bez kart

253 Zastosowania systemy bezpieczeństwa - Dostęp do komputerów i sieci 257

254 Zastosowania systemy bezpieczeństwa Odzyskiwanie hasła przez telefon 30 do 40 % telefonów do obsługi klienta to problemy z hasłem Telephony system SR USER Password Reset Authentication centre Target system

255 Zastosowanie Monitoring Kontrola zdalnej pracy i obecności pracowników Weryfikacja zwolnień warunkowych i aresztów domowych Gmina Iberville w LA (US) używa identyfikacji mówcy przez telefon dla osób objętych opieką kuratora Przed automatyzacją -> 1400 $/dziecko Po -> 193 $/dziecko Użycie telefonów więziennych

256 Zastosowania Wsparcie służb W kryminalistyce Rozpoznawanie mówców na żywo w identyfikacji osób dzwoniących Śledzenie mówcy, wykrywanie i nadzór Analiza mowy syntezowanej i modulowanej Cechy głosu są trudniejsze do ukrycia niż twarz

257 Zastosowania Rozpoznawanie mowy i mówcy Ulepszenie systemów bezpieczeństwa Transkrybowanie wielu mówców na raz w konwersacji - Rozprawy sądowe, parlamenty i inne transkrypcje spotkań

258 Zastosowania NIST Korpusy do oceny systemów rozpoznawania mówcy Departament Sprawiedliwości US The European CAller VErification Project Voicetrust PerSay Voice Biometrics ww.persay.com International Biometric Group, New York Mało ale dużych użytkowników (korporacje i instytucje rządowe) => wysokie ceny

259 Klasyfikacja Zamknięty/ otwarty-zbiór Narzucone błędne rozpoznanie Baza danych?? Baza danych nie pasuje do żadnego System z zamkniętym zbiorem Poza bazą danych Weryfikacja / Identyfikacja?? System ze zbiorem otwartym Tak Nowak? Mówca N Nie Baza danych Baza danych Zależne (stałe lub zmienne) lub niezależne od tekstu Cechy niskiego poziomu (akustyczne) lub wysokiego (lingwistyczne, dialektowe, społeczne, itd.)

260 Poziomy rozpoznawania mówcy Cechy wysokiego poziomu (nieakustyczne) Semantyka, dykcja, wymowa Status społecznofinansowy, edukacja, miejsce urodzin Trudna ekstrakcja Prozodia, rytm, tempo intonacji, modulacja głośności Typ osobowości, wpływ rodziców Cechy niskiego poziomu (fizyczne) Akustyczne aspekty mowy Anatomiczna struktura narządów mowy Łatwa ekstrakcja

261 Przygotowywanie systemu 265

262 Rozpoznawanie 266

263 System weryfikacji mówcy Microphone or Telephone Claimed identity YES Filtering & A/D Digital Speech Feature extraction Feature Vectors Pattern matching Match scores Decision NO Verified identity Enrollment Speaker models

264 System identyfikacji mówcy 268

265 Pobieranie danych Ściana Zmienność kanału pomiędzy nagraniami Zmiana głosu mówcy wraz z czasem A/D Kanał Źródło szumu Wpływ innych rozmów, przepięcia, inne zakłócenie sprzętowe Niska rozdzielcz ość, np. GSM

266 Ekstrakcja cech Celem jest wydzielenie, najważniejszych, charakterystycznych informacji z sygnału Różne metody: LPC Cepstrum MFCC DWT

267 Dopasowywanie wzorców Modele z wzorcami DTW VQ Source Modelling knn Modele stochastyczne HMM + GMM Sieci neuronowe (NN) Maszyna wektorów nośnych (SVM)

268 Klasy (dźwięczna\bezdźwięczna) 272

269 Klasy (dźwięczna\bezdźwięczna) Cztery 273

270 Klasy (dźwięczna\bezdźwięczna) 274

271 Decyzje Bez modelu tła Porównanie do średniej pozostałych hipotez 275

272 Decyzje 276

273 Przykład podejmowania decyzji system AGH Średnia prawdopodobieństw hipotez 2-5 to około >> 0.14 => Decyzja może być podjęta mówcą jest Andrzej Jajszczyk 277

274 Decyzje Uniwersalne modele tła (UBM) Model dla odrzucanych i niezidentyfikowanych rozpoznań 278

275 Testowanie Krzywa DET (detection error trade-off) Zaakceptowany właściwy mówca Odrzucony właściwy mówca Zaakceptowany błędny mówca Odrzucony błędny mówca 279

276 Analiza możliwych wersji systemu Przypadek projektowania systemu identyfikacji mówcy jako pracy magisterskiej (David Sierra) CMN - Cepstral mean normalisation 280

277 Typy cech akustycznych 281

278 Liczba stanów w HMM 282

279 Liczba mikstur w GMM 283

280 Optymalna wersja systemu w warunkach projektowych System został wykonany i wówczas może być testowany (w tym przypadku w warunkach otwartego zbioru) co powinno być wykonane na innych danych 284

281 Eksperymenty z różnymi systemami podejmowania decyzji SNR- Signal to Noise Ratio RAPT - Robust Algorithm for Pitch Tracking 285

282 Wyniki testów systemów decyzyjnych 286

283 Eksperymenty stosowania uniwersalnych modeli tła 287

284 Rezultaty stosowania uniwersalnych modeli tła 288

285 Eksperymenty z ilością materiału przygotowawczego (Angielski TIMIT) 289

286 Eksperymenty z ilością materiału przygotowawczego (CORPORA) 290

287 Eksperymenty z ilością materiału przygotowawczego (CORPORA) 291

288 Skuteczność w zależności od szumu 292

289 Skuteczność w zależności od liczby mówców 293

290 Standardy, testy i certyfikaty Systemy rozpoznawania mówców są w dużej mierze wykorzystywane przez służby mundurowe, specjalne i sądownictwo Duży nacisk na wykazanie ich skuteczności Niezależne instytucje (firmy i uniwersytety) przeprowadzają testy i wydają certyfikaty skuteczności Nawet z certyfikatami, skazywanie na podstawie dowodów w postaci analizy systemu rozpoznawania mówcy może być kwestionowane Problemy z nienadążaniem prawa za rozwojem informatyki 294

291 Podsumowanie Architektura systemu rozpoznawania mówcy Podział systemów rozpoznawania mówcy Przykładowe zastosowania Dźwięczność i bezdźwięczność mowy (sposoby analizy) Prawdopodobieństwo a podejmowanie decyzji w systemach rozpoznawania mówcy Universal background model Metodologia projektowania, testowania i wykazywania skuteczności 295

292 296

293 Rozpoznawanie emocji 297

294 Klasyfikacja emocji 298

295 Analiza głosu 299

296 Kismet emotional robot 300

297 Geminoid 301

298 Geminoid 302

299 Geminoid 303

300 Syntaktyczne modelowanie języka Bartosz Ziółko Wykorzystano materiały Dawida Skurzoka, MIT i Wikipedii 304

301 Gramatyka/ modelowanie syntaktyczne Parsery Analizatory morfologiczne / POS tagery n-grams Wygładzanie modeli Filtry Blooma 305

302 Nadmiarowość w językach Konieczna z tego samego powodu co w kodach transmisyjnych Prawdopodobnie stopień nadmiarowości zależy od warunków geograficznych Demo z Mathematica (RedundancyInWrittenLanguage) 306

303 Powody modelowania syntaktycznego Niektóre zdania mogą brzmieć bardzo podobnie: I helped Apple wreck a nice beach. I helped Apple recognise speech. W języku polskim nawet identycznie: może / morze 307

304 Noam Chomsky Gramatyka formalna składa się z: skończonego zbioru symboli końcowych skończonego zbioru symboli niekońcowych skończonego zbioru reguł produkcji na lewo i prawo składających się z sekwencji tych symboli symbol startowy 308

305 Hierarchia Chomskiego 309

306 MIT Regina Barzilay Michael Collins N = noun, V = verb, D = determiner 310

307 311

308 312

309 313

310 Disambiguity in parsing 314

311 Analizator morfologiczny / POS tager Proces zaznaczania słów w tekście jako odpowiadających szczególnym częściom mowy, oparty zarówno na ich definicjach, jak i ich kontekstach. 315

312 Sekwencje słów są przewidywalne Mathematica demo: Nonsense sentence generator 316

313 1-gramy słów (wybrane korpusy) 1) się (2,6%) 2) i (2,4%) 3) w (2,3%) 4) nie (2,1%) 5) na (1,9%) 6) z (1,6 %) 7) do (1,2 %) 8) to (1,2 %) 9) że ) a ) o ) jak ) ale ) po ) co ) jest ) tak ) za ) od ) jego ) go ) już ) tym ) czy

314 2-gramy słów (wybrane korpusy) 1) się w (0,17%) 2) się na (0,14%) 3) się z (0,12%) 4) się do (0,12%) 5) się że (0,08%) 6) że nie (0,07%) 7) w tym (0,07%) 8) nie ma (0,06%) 9) o tym (0,06%) 10) to nie ) się i ) się nie ) i nie ) ale nie ) na to ) że to ) mi się ) nie jest ) a potem ) nigdy nie ) mu się ) po prostu ) w tej ) to co ) w końcu ) nie było ) co się

315 3-gramy słów (wybrane korpusy) 1) w ten sposób (0,015%) 2) na to że (0,012%) 3) w tej chwili (0,012%) 4) w każdym razie (0,011%) 5) po raz pierwszy (0,010%) 6) mi się że (0,009%) 7) sobie sprawę że (0,008%) 8) mam nadzieję że (0,008%) 9) w takim razie (0,008%) 10) zwrócił się do ) wydaje mi się ) od czasu do ) się z nim ) to nie jest ) czasu do czasu ) w tym momencie ) po drugiej stronie ) w ogóle nie

316 Naprawianie n-gram 320

317 Zastosowanie n-gramów N-gramy są najpopularniejszym sposobem modelowania języka w rozpoznawaniu mowy: Z powodów obliczeniowych, zależność jest ograniczana do n słów wstecz. Prawdopodobnie najpopularniejszym jest model trigramowy ponieważ zależność od dwóch poprzednich słów jest bardzo silna, podczas gdy komplikacja modelu jest dość mała a zapotrzebowanie na statystyki realizowalne. 321

318 Siatka słów prezydent wejście strefy rezydent aportuje dwieście to do o trafi szelkę prezydium aprobuje nieście stepy szogun operuje dom schengen 322

319 Siatka słów z zaznaczonym prawidłowym zdaniem prezydent wejście strefy rezydent prezydium aportuje aprobuje dwieście nieście to do o trafi stepy szelkę szogun operuje dom schengen 323

320 Podkreślmy szczególnie prawdopodobne 1- i 2-gramy prezydent wejście strefy rezydent aportuje dwieście to trafi szelkę prezydium aprobuje nieście do o stepy szogun operuje dom schengen 324

321 Ponownie nałóżmy poprawne zdanie prezydent wejście strefy rezydent aportuje dwieście to o trafi szelkę prezydium aprobuje nieście do stepy szogun operuje dom schengen 325

322 Usuńmy mało prawdopodobne 2-gramy prezydent wejście strefy rezydent prezydium aportuje aprobuje dwieście nieście do to o trafi stepy szelkę szogun schengen operuje dom 326

323 i nałóżmy zdanie prezydent wejście strefy rezydent prezydium aportuje aprobuje dwieście nieście do to o trafi stepy szelkę szogun operuje dom schengen 327

324 Zbiory tekstów języka polskiego Źródło MBajty Mil. słów Różnych słów Różnych dwójek Różnych trójek Rzeczpospolita Wikipedia Literatura Transkrypcje Literatura Literatura W Literatura 2 : Słowa występujące więcej niż 10 razy to Dwójki słów występujące więcej niż 10 razy to Trójki słów występujące więcej niż 10 razy to

325 Problemy z n-gramami - Różne pisowanie (np. u - ó), - błędne formaty, - sprawdzanie ze słownikiem, np. myspell?,

326 Histogram n-gramów 330

327 Przykład wyliczeń modelu n-gramowego 331

328 Przykład wyliczeń modelu n-gramowego \begin{equation} E(s,h)=\frac{N(s,h)}{N(h)} \;, \end{equation} 332

331 Algorytm Dijkstry 335

332 Przykład wyliczeń modelu n-gramowego Licząc ścieżkę nie sumujemy dystansów tak jak w telekomunikacji, a mnożymy prawdopodobieństwa (ze względu na regułę Bayesa) lub sumujemy logarytmy! 336

333 Wyszukiwanie najlepszych ścieżek z użyciem 3-gramów. Ala ale ma ładnego kota. Złamała łapie keta Ala ma ładnego kota

334 Klasyczny algorytm Dijkstry (bigramy) koszt = 0.1 koszt = 1. Ala 0.1 ale 1 Złamała 1 ma 0.2 ładnego 0.3 łapie 1.2 kota 0.4 keta

335 Zipf Law Demo Mathematica 339

336 Back-off ), ( ) ( ) ( 0 ), ( ) ( ) ( w h N if h w h w h N if h w h w p N liczba zliczeń słowa z danych statystycznych β bardziej ogólna dystrybucja niż α - czynnik normalizacyjny zapewniający spełnianie przez p(w h) aksjomatu sumowania do jedności, określony jednoznacznie przez α i β: 0 ), ( : 0 ), ( : ˆ) ( ) ( 1 ) ( w h w N w h w N h w h w h jest 3-gramem a jest 2-gramem

337 Metoda Floor ( w h) N( w, h) ( w N h) N liczba słów w danych statystycznych - parametr, często równy liczbie słów w słowniku Metoda przeszacowuje prawdopodobieństwa wydarzeń z małą liczbą zliczeń. 341

338 Przykład ciemny zielony materiał 3-gram C = 0 ciemny zielony 2-gram C > 0 zielony materiał 2-gram C > 0 => wygładzony model ciemny zielony materiał P > 0 ufortyfikowany zamek nierdzewny 3-gram C = 0 ufortyfikowany zamek 2-gram C > 0 zamek nierdzewny 2-gram C > 0 => wygładzony model ufortyfikowany zamek nierdzewny P > 0 342

339 Wygładzanie modeli statystycznych Statystyki wyliczone ze zbiorów danych, opisują ściśle, rzecz biorąc te zbiory a nie rzeczywistość, jak na przykład język jako całokształt. Z tego powodu model n-gramowy można wygładzić w celu uzyskania większej efektywności poprzez zmniejszenie zależności od specyfiki wykorzystanych zbiorów. 343

340 Przykład wygładzania modelu n- gramowego Add-one 344

341 Przykład wygładzania modelu n- gramowego Add-one 345

342 Model interpretacji liniowej z parametrem interpolacyjnym Zdefiniujmy parametr N gdzie 0 1, Wówczas otrzymujemy równanie interpolacyjne Jelinka N( w, h) ( w h) (1 ) ( w hˆ) N Małe zliczenia nie są aż tak bardzo podbijane dzięki interpolacji. 346

343 Wygładzanie Katz a Katz wprowadził ogólną funkcję dyskontującą d : w d( w) i zależną od niej dyskontowaną masę prawdopodobieństwa Q[ d] 1 N W w 1 d( w) Równanie wygładzające wygląda N( w, h) d( w) ( w h) Q[ d] ( w h) N 347

344 Rozkład brzegowy n i = P(X = i). n i = P(X = i,y = j). j Rozkład brzegowy podzbioru zmiennych losowych jest rozkładem prawdopodobieństw zmiennych zawartych w tym podzbiorze. 348

345 Przykład wyliczania rozkładu brzegowego Prawdopodobieństwo bycia potrąconym pod warunkiem określonego światła p(w S), gdzie W oznacza wypadek, a S oznacza typ światła na sygnalizatorze. 349

346 Przykład wyliczania rozkładu brzegowego 350

347 Wygładzanie Kneser-Ney z rozkładem brzegowym jako ograniczeniem W metodzie Katza, całkowita zniżka powoduje, że N( w, h) d( w) ( w h) gdzie 0 d 1 N Zdefiniujmy Maximum Likelihood Estimation (MLE) dla rozkładu brzegowego N( w, hˆ) N( hˆ, g) p( w hˆ) i p( g hˆ) N N gdzie połączona liczba wystąpień N ( hˆ, g) jest równa N(g) jeśli hˆ gˆ i 0 w przeciwnym przypadku. Wówczas ( w hˆ) v N( w, hˆ) [ N( hˆ, v) g: gˆ hˆ, N ( g, w) 0 [ N( g, w) d] g: gˆ hˆ, N ( g, v) 0 [ N( g, v) d]] 351

348 Leaving-one-out (również Kneser-Ney) Przygotowujemy model korzystając z danych, tak jakby nie zawierały konkretnego zdarzenia, które wystąpiło tylko raz. W przypadku n-gramów, wyliczamy model, pomijając na przykład jeden trigram, który wystąpił w zbiorach tekstów tylko raz. Następnie wykorzystujemy model, aby estymować prawdopodobieństwo usuniętego zdarzenia. Procedurę powtarzamy wielokrotnie używając rożnych trigramów. Suma logarytmów wszystkich wyliczonych w ten sposób prawdopodobieństw daje nam logarytm podobieństwa leaving-one-out, który następnie służy jak kryterium optymalizacji F ( g, v): N ( g, v) 1 ln[ ( g) ( v gˆ)] const({ ( v gˆ)}). 352

349 Trigramy z Dijkstry Koszt dotarcia do poprzedniego węzła z punku widzenia wyróżnionego węzła Ala 0.1 ale 1 ma ładnego łapie Koszt dotarcia do danego węzła w zależności od następnego węzła następny koszt ładnego 0.2 łapie 1.1

350 Wyróżnione trigramy. Ala ma Ala ma ładnego ma ładnego kota koszt = 0.1 ładnego kota.. Ala ma ładnego kota. koszt = 0.4

351 Wyszukiwanie najlepszych ścieżek. Ala ładnego ma 3-gram koszt. Ala ma 0.1. Ala ładnego 1 następny poprzedni koszt ładnego. 1 ma. 0.1

352 Wyszukiwanie najlepszych ścieżek 3-gram koszt. ale ma. ale ma 1 następny poprzedni ma. 1 koszt

353 Wyszukiwanie najlepszych ścieżek Ala 0.1 ale 1 ma ładnego łapie 3-gram koszt Ala ma ładnego 0.1 ale ma ładnego 0.1 Ala ma łapie 1 ale ma łapie 1 następny poprzedni koszt ładnego łapie Ala = 0.2 ale = 1.1 Ala = 1.1 ale = 2

354 Wyszukiwanie najlepszych ścieżek Ala ma Złamała 1 kota ładnego keta następny poprzedni koszt Ala = 2 kota ma = 0.3 Złamała = 2 Ala = 2 keta ma = 2 Złamała = 2 3-gram koszt Ala ładnego kota 1 Ala ładnego keta 1 ma ładnego kota 0.1 ma ładnego keta 1 Złamała ładnego kota 1 Złamałą ładnego keta 1

355 Wyszukiwanie najlepszych ścieżek ładnego łapie kota. 3-gram koszt ładnego kota. 0.1 łapie kota. 1 następny poprzedni koszt ładnego = 0.4. łapie = 3 dodajemy koszt bigramów dla kropki

356 Wyszukiwanie najlepszych ścieżek. Ala ale ma ładnego kota. Złamała łapie keta 10 węzłów 17 krawędzi 26 możliwych 3-gramów

357 Rzeczywisty przypadek

358 Funkcja haszująca Funkcja haszująca jest każdą, dobrze definiowaną procedurą lub funkcją matematyczną, która zamienia dużą ilość danych, które mogą mieć niestałą długość, na małą reprezentację, często w postaci jednego integera, który może służyć na przykład za indeks. 362

359 Filtr Blooma 363

360 Podsumowanie Hierarchia Chomskyego Parser Tagger N-gram model Stosowanie n-gramów Algorytm Dijkstry Właściwości n-gramów (Zipf, histogram, konieczność wygładzania) Filtr Blooma 364

361 Technologie Mowy Modele semantyczne i ontologie Bartosz Ziółko Wykorzystano materiały MIT, Li Fei-Fei, Aleksandra Pohla, Jana Wicijowskiego, Mariusza Mąsiora i Wikipedię 365

362 Rule-to-rule Bag-of-words Latent Semantic Analysis Wordnet CYC 366

363 Rule-to-Rule Semantic interpretation [aka syntax directed translation ]: pair syntax, semantic rules. Generalised Phrase Structure Grammars (GPSG): pair each context free rule with semantic action ; as in compiler theory due to Knuth,

364 Meanings by compositionality Robert Berwick (MIT) 368

365 But there are exceptions 369

366 Exceptions - Business class Airlines Business class is luxury, not much to do with making a good business; Hotels - business class is a hotel, where you rent a room if you go in business. It is clean and has all useful things but small and nothing to do with luxury. Copyright Singapore Airlines 370

367 Human-like and computer-like analysis of expressions Kirk: Spock, are there any Romulans in Sector 6471? Spock: None, captain. Kirk: Are you certain, Spock? Spock: A 100% probability, Captain [camera rolls] Kirk: Damn your Vulcan ears, Spock, I thought you said there were no Romulans in sector 6471! Spock: But there is no sector 6471 Logic dictates 371

368 Bag-of-words Semantics of NL sentences and phrases can be composed from the semantics of their subparts (for example words) Principle of Compositionality. 372

369 Bag-of-words by Li Fei-Fei (Princeton) 373

375 379

376 Vector space model Jan Wicijowski.xml 380

377 topics Applying Semantic Model to Recognition words word-topic matrix hypothesis vector similarities vector Jan Wicijowski Języki torricelli Język vanimo Język sahu Język wiaki Język yapunda Chesterfield F.C Andrew Latimer Parnassius hunza Tom Smith Mononukleotyd flawinowy 381

378 Latent Semantic Analysis (LSA) A row in this matrix will be a vector corresponding to a term, giving its relation to each document, a column in this matrix will be a vector corresponding to a document, giving its relation to each term. The dot product between two term vectors gives the correlation between the terms over the documents. 382

379 Latent Semantic Analysis (LSA) 383

380 Latent Semantic Analysis (LSA) 384

381 Bag-of-words with graphs Big John has a house. Big John has a black, aggressive cat. The black aggressive cat has a small mouse. The small mouse is a mammal. 385

382 TFIDF (Term Frequency - Inverse Document Frequency) TFIDF i,j = ( N i,j / N *,j ) * log( D / D i ) where N i,j = the number of times word i appears in document j (the original cell count). N *,j = the number of total words in document j (just add the counts in column j). D = the number of documents (the number of columns). D i = the number of documents in which word i appears (the number of non-zero columns in row i). 386

383 LSA tutorial ws-and-articles/articles/33.html?start=1 387

384 Semantyczne zasoby dla języka polskiego Słowosieć Wikipedia and DBPedia Synonims in OpenOffice Wielki Słownik Języka Polskiego Słownik Języka Polskiego 388

385 Słowosieć Elektronika jest typem sprzętu Elektronika jest typem nauki matematycznoprzyrodniczej i nauki ścisłej 389

386 Słowosieć Automatyka Informatyka Mechanika Inżynieria 390

387 Konstruowanie Słowosieci 391

388 Ontologie Slajdy Aleksandra Pohla Po co nam to wszystko? 392

389 393

390 Ontologie RDFS Resource Description Framework Schema 394

391 Ontologie 395

392 Ontologie 396

393 Ontologie 397

394 Ontologie 398

395 Ontologie 399

396 Definicje ontologii w filozofii i informatyce Ontologia (filozofia): Termin wywodzący się z greckiego słowa oznaczającego byt, ale ukuty w XVII w. na oznaczenie gałęzi metafizyki zajmującej się tym co istnieje. Ontologia (informatyka): Oksfordzki Słownik Filozoficzny Formalna specyfikacja konceptualizacji wybranej dziedziny wiedzy. Tom Gruber

397 Ogólna charakterystyka ontologii Elementy definicyjne: formalna specyfikacja: CycL, FLogic, KIF, LOOM, OCML,OWL, RDF......konceptualizacji: indywidua, pojęcia, własności, relacje, funkcje, procesy......wybranej dziedziny wiedzy: ontologie ogólne ontologie dziedzinowe

398 Cyc jako przykład ontologii ogólnej Cyc produkt Cycorp Rozpoczęcie prac: Największa znana ontologia: 300 tyś. pojęć 26 tyś. predykatów 3 miliony asercji 3 wersje: komercyjna, rozwojowa, otwarta Zaawansowany silnik inferencyjny Leksykon dla języka angielskiego

399 CycL język ontologii CycL: nadbudowany nad rachunkiem predykatów 2-rzędu teoria mnogości ZF asercje na meta-poziomie operatory modalne 2 poziomy języka epistemologiczny heurystyczny (SubL dialekt Lispa)

400 Struktura wiedzy 1. Pojęcia podstawowe #$Thing korzeń ontologii #$Collection kolekcja wszystkich kolekcji #$Individual kolekcja wszystkich indywiduów #$genls relacja generalizacji #$isa relacja należenia do kolekcji

401 Struktura wiedzy 2. Kolekcje i indywidua Kolekcje 1-ego rzędu: #$Intangible,#$PartiallyTangilbe, #$TemporalThing, #$SpatialThing Kolekcje 2-ego rzędu: #$TemporalStuffType, #$TemporalObjectType, #$ExistingStuffType, #$ExistingObjectType

402 Struktura wiedzy 3. Predykaty arność typ argumentów format argumentów relacja genlpreds przykład (#$coloroftype, #$conceptuallyrelated) Funkcje pozwalają unikać reifikacji przykład (#$CapitalFn COUNTRY)

403 Mikroteorie 3 miliony asercji! Trudność spełnienia wymogu globalnej niesprzeczności Podział wiedzy na mniejsze jednostki mikroteorie predykat #$genlmt #$BaseKB korzeń drzewa mikroteorii #$EverythingPSC suma wszystkich mikroteorii

404 Leksykon Mapowanie pomiędzy pojęciami (#$Dog) a słowami języków naturalnych ( dog ) Symboliczna reprezentacja słów (X-TheWord) Predykat denotacji (#$denotation WORD POS N DENOTATION) Bank(1) (#$denotation #$Bank-TheWord #$CountNoun 0 #$Bank-Topographical) Bank(2) (#$denotation #$Bank-TheWord #$CountNoun 1 #$BankOrganization)

405 Architektura Cyc Cycorp

406 Architektura Cyc Baza wiedzy Świat Wyciąg operacji, serwer operacji Partycje wiedzy Silnik inferencyjny Interfejs użytkownika API Narzędzie integracji źródeł wiedzy

407 Organizacja danych Świat - obraz pamięci działającej ontologii zapisany w formacie CFASL może być załadowany z powrotem bez sprawdzania integralności danych Wyciąg operacji zestaw operacji wykonywanych przez użytkownika w czasie pracy z systemem Serwer operacji pośredniczy w wymianie informacji pomiędzy sesjami różnych użytkowników Partycja wiedzy fragment Świata

408 Interfejs użytkownika

409 Interfejs użytkownika Interfejs webowy pozwala przeglądać ontologią, wprowadzać nowe fakty, zadawać pytania, etc. (HTML + CGI) Edytor faktów (Fact Editor) pozwala wprowadzać fakty osobom, które nie są zaznajomione ze strukturą ontologii (Java) Biblioteka zapytań (Query Library) pozwala tworzyć zapytania i je wykonywać. Wykorzystuje mechanizmy NLP (Java).

410 Komunikacja ze światem zewnętrznym API: SubL: protokoły ASCII oraz CFASL przez TCP/IP, brak wsparcia dla wywołań zwrotnych Java: nadbudowany nad SubL, zapewnia łatwą integrację z systemami napisanymi w Javie, wspiera wywołania zwrotne Wspierane języki RW: CycML, DAML, OWL SKSI: narzędzie pozwalające na integrację z bazami danych i stronami internetowymi

411 Zastosowania Cyc

412 Zastosowania Cyc - aktualne Integracja baz danych Integracja baz wiedzy Inteligentne wyszukiwanie informacji: na podstawie krótkich opisów (np. zdjęcia) na stronach WWW Rozproszona AI Przetwarzanie języka naturalnego

413 Zastosowania Cyc - potencjalne Automatyczne pośrednictwo w sprzedaży dóbr Tworzenie inteligentnych interfejsów Tłumaczenie maszynowe wysokiej jakości Rozpoznawanie mowy wspomagane wiedzą Zaawansowane modelowania zachowań użytkowników Semantyczny data-mining Wsparcie dla e-biznesu

414 Bazy danych Wymagania: zmapowanie tabel i ich atrybutów na pojęcia występujące w Cyc. Rezultat: Możliwość wykrycia anomalnych danych poprzez ich analizę z wykorzystaniem wiedzy zdroworozsądkowej. Integracja wiedzy występującej w wielu bazach danych: wykrycie danych sprzecznych generowanie zapytań obejmujących wiele baz danych

415 CYC 419

416 CYC 420

417 Przykład CYC 421

418 Wyszukiwanie informacji 1. Założenia: baza danych/wiedzy obejmująca tysiące lub setki tysięcy danych niepodlegających analizie tekstowej, zawierających krótkie opisy (np. zdjęcia, filmy, abstrakty) Rezultat: możliwość inteligentnego wyszukiwania informacji znacznie wykraczającego poza zwykłe mechanizmy dopasowania/zastępowania synonimami.

419 Wyszukiwanie informacji 2. Założenie: dziedzinowe bazy wiedzy dostępne przez WWW, implementujące protokół komunikacyjny Cyc Rezultat: możliwość zaawansowanego wyszukiwania wszelkich informacji dostępnych w dziedzinowych bazach wiedzy (dla użytkownika końcowego wygląda to tak, jakby cała wiedza znajdowała się w Cyc).

420 Problemy ze stosowaniem ontologii Ogromne koszty Wiedza zmienia się z czasem Ontologie zawierają ograniczoną wiedzę Mogą być błędy wynikające z automatycznej ekstrakcji faktów z tekstów Ale Watson wygrał w Va Banque z mistrzami 424

421 Watson gra z mistrzami w Va Banque 425

422 Przetwarzanie języka naturalnego Precyzyjne przetwarzanie języka naturalnego wymaga często posiadania wiedzy zdroworozsądkowej: I saw clouds flying over Zurich. Widziałem chmury lecące nad Zurychem. I saw buildings flying over Zurich. Widziałem domy lecąc nad Zurychem.

423 Linked Data 427

424 Podsumowanie Zasada kompozycyjności (fioletowa krowa) Koncepcja modelu bag-of-words Podstawy LSA Orientacja w zagadnieniach związanych z korpusami mowy i tekstów (jak się je robi, ocenia ich jakość, wielkość itp.) Implementacje słowników (tekst, SQL, FSA) Słowosieć (koniecznie sprawdzić stronę) Czym jest ontologia, czyli jak dodać Mruczka do Facebooka 428

425 Technologie Mowy Interfejs głosowy, systemy dialogowe Bartosz Ziółko Wykorzystano materiały Aleksandra Pohla, MIT, Stanusch Technologies i AIML 429

426 Interfejs głosowy 430

427 Początki komunikacji człowiek - komputer 431

428 Kilka zasad dobrego interfejsu Szybkość vs potwierdzanie komend Syndrom bankomatu Rozumienie potrzeb i możliwości użytkownika (rozpoznawanie vs przypominanie) Ilość dźwięków w interfejsie Szkocka winda Standaryzacja (dlaczego McDonalds odniosło sukces) Jasna i łatwo powtarzalna nawigacja Problem zniecierpliwienia (10 sekund) 432

429 Interfejs głosowy vs ekrany dotykowe Według Microsoftu ekrany dotykowe będą przyszłością komunikacji człowiek komputer. Na razie bez znaczących sukcesów komercyjnych, poza urządzeniami mobilnymi. 433

430 Obecne zastosowania ekranów dotykowych 434

431 Przyszłość, już teraz tylko nikt jej nie chce * * (poza Billem Gatesem) Microsoft Surface - a new $10,000 touchscreen table. 435

432 Problemy z ekranami dotykowymi Touch Table Microsoftu miał być przełomem w sprzęcie korporacyjnym. Sprzedano jednak bardzo niewielką ilość. - Za bardzo nastawiony na pracę zespołową (?), - zbyt rewolucyjny pod kątem ergonomicznym nie tylko usunięcie klawiatury, ale także patrzenie na ekran w dół (?). 436

433 Kto to? 437

434 HAL 9000 Odyseja kosmiczna 438

435 Systemy dialogowe Najbardziej naturalny sposób komunikacji dla człowieka Atrakcyjny Prosty dla nieprzeszkolonych osób Sprzyja miniaturyzacji 439

436 Wirtualni doradcy Symulacja osobowości Mowa ciała Zaskakiwanie Synteza mowy Planowane ASR 440

437 Wirtualni doradcy WD: Witaj w centrum obsługi technicznej naszej telewizji. Nazywam się Jerzy i postaram się rozwiązać Twoje problemy. Bedzie nam łatwiej jeżeli będę się do Ciebie zwracać po imieniu. Powiedz mi jak masz na imię? Użytkownik: Ewa WD: Witaj Ewo. Jaki masz problem. Użytkownik: Nie ma obrazu. WD: Czy telewizor jest włączony i czy świeci się kontrolka jego włączenia? Użytkownik: Tak WD: Czy dekoder telewizji jest włączony? Użytkownik: Tak WD: Czy telewizor jest ustawiony na kanał na którym odbierasz programy satelitarne? Użytkownik: Tak WD: Podejdź do telewizora i sprawdź czy kable łączące telewizor i odbiornik telewizji satelitarnej nie poluzowały się. Użytkownik: Zadziałało! Jest obraz. Dziękuje bardzo. WD: Bardzo proszę. Czy mogę jeszcze w czymś pomóc? 441

438 Standard dialogue in a computer game 442

439 443

440 444

441 Rozumienie języka ludzi przez komputery Masz długopis? => proszę podaj mi swój długopis, jeśli masz takowy Każdy rolnik, który ma owce, lubi je. Po zebraniu makulatury, sprzedaliśmy ją razem z panią. Kasia to moja siostra cioteczna, Jurek też. 445

442 Dialogue System Architecture MIT Regina Barzilay 446

443 447

444 Example 448

445 449

446 450

447 Surface form is a weak predictor 451

448 452

449 Hidden Markov Model for Dialogue Acts Interpretation 453

450 HMMs for dialogue acts interpretation 454

451 455

452 How to Generate This Semantics 456

453 Natural language generation 457

454 States in the dialogue system 458

455 States in the dialogue system greet=0 if user has to be greeted, 1 otherwise attr represents attribute being queried; 1/2/3 =activity/location/time, 4 = done with attributes conf represents confidence in the attribute value. 0,1,2=low/miidle/high confidence in the speech recognizer; 3=recognition system has received YES as an answer to a confirmation; 4=system has received NO val=1 if attribute value has been obtained, 0 otherwise times=number of times system has asked about the attribute gram=type of grammar used to obtain the attribute value hist=0 if system has had problems in understanding the user earlier in the conversation; 1 otherwise 459

456 AIML - Artificial Intelligence Markup Language 460

457 AIML - Artificial Intelligence Markup Language 461

458 AIML - Artificial Intelligence Markup Language AIML (Artificial Intelligence Markup Language) is an XML-compliant language that's easy to learn, and makes it possible for you to begin customising an Alicebot or creating one from scratch within minutes. The most important units of AIML are: <aiml>: the tag that begins and ends an AIML document <category>: the tag that marks a "unit of knowledge" in an Alicebot's knowledge base <pattern>: used to contain a simple pattern that matches what a user may say or type to an Alicebot <template>: contains the response to a user input 462

459 Categories The free A.L.I.C.E. AIML includes a knowledge base of approximately categories. Here's an example of one of them: <category> <pattern>what ARE YOU</pattern> <template> <think><set name="topic">me</set></think> I am the latest result in artificial intelligence, which can reproduce the capabilities of the human brain with greater speed and accuracy. </template> </category> 463

460 Recursion AIML implements recursion with the <srai> operator. No agreement exists about the meaning of the acronym. The "A.I." stands for artificial intelligence, but "S.R." may mean "stimulus-response," "syntactic rewrite," "symbolic reduction," "simple recursion," or "synonym resolution." The disagreement over the acronym reflects the variety of applications for <srai> in AIML 464

461 Symbolic reduction It refers to the process of simplifying complex grammatical forms into simpler ones. Usually, the atomic patterns in categories storing robot knowledge are stated in the simplest possible terms, for example we tend to prefer patterns like "WHO IS SOCRATES" to ones like "DO YOU KNOW WHO SOCRATES IS" when storing biographical information about Socrates. <category> <pattern>do YOU KNOW WHO * IS</pattern> <template><srai>who IS <star/></srai></template> </category> Whatever input matched this pattern, the portion bound to the wildcard * may be inserted into the reply with the markup <star/>. This category reduces any input of the form "Do you know who X is?" to "Who is X?" 465

462 Divide and conquer Many individual sentences may be reduced to two or more subsentences, and the reply formed by combining the replies to each. A sentence beginning with the word "Yes" for example, if it has more than one word, may be treated as the subsentence "Yes." plus whatever follows it. <category> <pattern>yes *</pattern> <template><srai>yes</srai> <sr/></template> </category> The markup <sr/> is simply an abbreviation for <srai><star/></srai> 466

463 Synonyms The AIML 1.01 standard does not permit more than one pattern per category. Synonyms are perhaps the most common application of <srai>. Many ways to say the same thing reduce to one category, which contains the reply: <category> <pattern>hello </pattern> <template>hi there! </template> </category> <category> <pattern>hi </pattern> <template><srai> HELLO </srai></template> </category> <category> <pattern>hi THERE </pattern> <template><srai> HELLO </srai></template> </category> 467

464 Spelling and grammar correction The single most common client spelling mistake is the use of "your" when "you are" is intended. Not every occurrence of "your" however should be turned into "you are." A small amount of grammatical context is usually necessary to catch this error: <category> <pattern>your A *</pattern> <template>i think you mean "you are" not "your." <srai>you ARE A <star/></srai> </template> </category> Here the bot both corrects the client input and acts as a language tutor. 468

465 Keywords AIML template which is activated by the appearance of a keyword anywhere in the input sentence. <category> <pattern>mother</pattern> <template> Tell me more about your family. </template> </category> <category> <pattern>_ MOTHER</pattern> <template><srai>mother</srai> </template> </category> Both, detects the keyword when it appears by itself, and provides the generic response. Detects the keyword as the suffix of a sentence. 469

466 Keywords <category> <pattern>mother _ </pattern> <template> <srai> MOTHER </srai> </template> </category> <category> <pattern>_ MOTHER * </pattern> <template> <srai> MOTHER </srai></template> </category> Detects it as the prefix of an input sentence detects the keyword as an infix. Each of the last three categories uses <srai> to link to the first, so that all four cases produce the same reply, but it needs to be written and stored only once. 470

467 Conditionals Conditional branches using only the <srai> tag. <category> <pattern>who IS HE</pattern> <template><srai> WHOISHE <get name="he"/></srai> </template> </category> <category> <pattern>whoishe * </pattern> <template>he is <get name="he"/>. </template> </category> <category> <pattern> WHOISHE UNKNOWN </pattern> <template> I don t know who he is. </template> </category> Provided that the predicate "he" is initialised to "Unknown," the categories execute a conditional branch depending on whether "he" has been set. AIML also provides the equivalent function through the <condition> tag. 471

468 Targeting User: Where do I find the webpage with Australopithecus? Alice: Where do you want to find it? User: Bad Answer Alice, time to Learn a new Line Alice: How would you answer "Where do I find the webpage with Australopithecus?" User: I would say: " Alice: Thanks, human. Try asking me again. User: Where do I find the webpage with Australopithecus? Alice: 472

469 CONTEXT The keyword "that" in AIML refers to the bot s previous utterance. Specifically, if the bot responds with a multiple sentence paragraph, the value of that is set to the last sentence in the sequence. The choice of the keyword "that" is motivated by its use in ordinary language: R: Today is yesterday. C: That makes no sense. R: The answer is approximately. C: That is cool. 473

470 That In AIML the syntax <that>...</that> encloses a pattern that matches the robot s previous utterance. A common application of <that> is found in yes-no questions: <category> <pattern>yes</pattern> <that>do YOU LIKE MOVIES</that> <template>what is your favorite movie? </template> </category> This category is activated when the client says YES. The robot must find out what is he saying "yes" to. If the robot asked, "Do you like movies?," this category matches, and the response, "What is your favorite movie?," continues the conversation along the same lines. 474

471 Topic INPUT <that> THAT <topic> TOPIC. <topic name="cars"> <category> <pattern>*</pattern> <template> <random> <li>what s your favorite car?</li> <li>what kind of car do you drive?</li> <li>do you get a lot of parking tickets?</li> <li>my favorite car is one with a driver.</li> </random> </template> 475

472 Facade Download and play 476

473 Typy wypowiedzi 477

474 Podsumowanie Czym jest ontologia, czyli jak dodać Mruczka do Facebooka Podchwytliwe pytanie Co to jest CYC? Podstawowe zasady projektowania interfejsów Zalety i wady stosowania mowy w interfejsach Czym system dialogowy różni się od zwykłego interfejsu Systemu dialogowe AIML 478

475 Istniejące systemy technologii mowy Przyszłość technologii mowy Bartosz Ziółko 479

476 480

Pokazać jeszcze