PRACA DYPLOMOWA Inżynierska
|
|
- Aniela Orłowska
- 9 lat temu
- Przeglądów:
Transkrypt
1 AKADEMIA GÓRNICZO-HUTNICZA IM. STANISŁAWA STASZICA W KRAKOWIE Wydział Informatyki, Elektroniki i Telekomunikacji Katedra Elektroniki PRACA DYPLOMOWA Inżynierska Temat: Korpus mowy telefonicznej Telephone speech corpus Imię i nazwisko: Robert Dyjas Kierunek studiów: Elektronika i Telekomunikacja Opiekun pracy: dr inż. Bartosz Ziółko
2 Oświadczam, świadomy odpowiedzialności karnej za poświadczenie nieprawdy, że niniejszą pracę dyplomową wykonałem osobiście i samodzielnie i że nie korzystałem ze źródeł innych niż wymienione w pracy. 2
3 Spis treści Wstęp do pracy... 5 Cel pracy... 5 Zakres pracy Opracowanie teoretyczne Podstawowe pojęcia Historia rozpoznawania mowy Rozpoznawanie mowy polskiej Zastosowania korpusów Wybrane korpusy mowy polskiej Korpusy powstałe na AGH SARMATA Format.mlf Zebranie danych do analizy Typy danych Parametry typów danych Dopasowanie danych Metadane zbierane przy nagrywaniu System do zbierania nagrań Ciekawostki Obróbka danych Anotacja Słowniki Analiza za pomocą programu SARMATA Konwersja do formatu.mlf Analiza statystyczna korpusu Osoby nagrywające się
4 4.2. Słowa występujące w korpusie Zakończenie Podsumowanie Załączniki: Kod dopasowujący dane Kod eliminujący powtórzenia Dane o rozmówcach plik metadane.csv Skrypt generujący słownik Plik opisujący występowanie słów slowa.csv Skrypt konwertujący plik wynikowy do formatu.mlf Bibliografia
5 Wstęp do pracy Poniższy rozdział ma za zadanie przedstawienie celu oraz zakresu pracy dyplomowej. Zostały w nim omówione wymagania stawiane dyplomantowi oraz przedstawione etapy, z których składa się praca. Cel pracy Celem pracy jest stworzenie korpusu mowy polskiej. Ma on spełniać szereg wymagań takich jak: Minimalna sumaryczna długość nagrań: 100 minut Treść nagrań ma zawierać przede wszystkim losowe ciągi cyfr/liczb w różnych konfiguracjach Jeżeli ta sama osoba czytająca ma odczytać więcej niż jeden zestaw ciągów, to zestawy te mają być dopasowane w sposób zapewniający jak największą różnorodność Sugerowane jest, by korpus zawierał krótsze wypowiedzi większej liczby osób niż długie wypowiedzi mniejszej liczby osób Dla zapewnienia realności nagrań mają one być zapisem rozmowy telefonicznej żeby uwzględnić wszelkie rodzaje zniekształceń dźwięku powstałe na linii nadawca odbiornik Do każdego nagrania mają być zebrane odpowiednie metadane opisane szczegółowo w podrozdziale 2.4 Zebrane dane powinny być autentyczne, tj. np. jeśli zbierane są dane o strukturze numeru PESEL, to powinny one odpowiadać istniejącym aktualnie numerom PESEL Zakres pracy Zakres pracy obejmuje cały proces powstawania korpusu, począwszy od przygotowania danych, które potem mają stanowić treść nagrań. Powinny one spełniać wspomniany wyżej warunek autentyczności, więc w tym celu należy dokonać sprawdzenia. Następnym krokiem jest odpowiednie dopasowanie danych. Należy więc znaleźć lub stworzyć algorytm, dzięki któremu zostanie osiągnięta maksymalna możliwa różnorodność nagrań. 5
6 Stworzenie systemu umożliwiającego automatyczne lub półautomatyczne przeprowadzenie samego procesu nagrywania jest ostatnim z kroków poprzedzających samo nagrywanie wypowiedzi. Zadaniem dyplomanta jest znalezienie odpowiedniej liczby osób chętnych nagrać swoje wypowiedzi, odpowiednie rozdystrybuowanie do tych osób treści oraz objaśnienie im procesu nagrywania. Ze względu na zachowanie naturalności wskazane jest również, by w miarę możliwości nie sugerować osobom nagrywającym wypowiedzi sposobu odczytywania ciągów (zarówno jeśli mowa o sposobie odczytywania dat, jak i o sposobie składania ze sobą cyfr). Ostatnim etapem procesu przygotowania korpusu mowy jest odpowiednia obróbka tych danych. W pojęciu tym mieści się najpierw zebranie wszystkich nagrań oraz ich poprawna anotacja. Obróbka obejmuje również przygotowanie słowników do wszystkich nagrań oraz dostarczenie ich do Zespołu Przetwarzania Sygnałów celem transkrypcji przy użyciu systemu AGH SARMATA (więcej o systemie w rozdziale 1.7). Dane wyjściowe z tego systemu mają zostać również przekonwertowane przez dyplomanta do formatu.mlf, który został szczegółowo opisany w rozdziale
7 1. Opracowanie teoretyczne 1.1. Podstawowe pojęcia Korpus mowy - zbiór tekstów będący podstawą badań językoznawczych [1]. W opracowaniu, jako korpus, traktowany jest zbiór: tekstów, nagrań tychże tekstów na nośnik audio (plik.wav), anotacji (zawierającej również metadane) oraz pliki do tych nagrań w formacie.mlf. Anotacja (ang. annotation) stanowi dodatkową warstwę informacyjną, dodaną przez twórców korpusu, umożliwiającą tworzenie bardziej precyzyjnych zapytań oraz wyszukiwanie informacji dodatkowych nie zawartych bezpośrednio w zbiorze tekstów źródłowych. Anotacja może również obejmować metadane i pozwalać na wyszukiwanie, np. według daty powstania lub płci autora tekstu. Zarówno w tekstach anglo- jak i polskojęzycznych, termin anotacja jest używany zamiennie z terminem znakowanie (ang. mark-up), choć niektórzy autorzy postulują rozróżnienie tych dwóch terminów [2]. W opracowaniu tym przyjęto terminy anotacja oraz znakowanie jako jednoznaczne. Znakowanie j.w. Plik.mlf plik zawierający informacje odnośnie początku i końca trwania frazy/wyrazu/głoski. W niniejszym opracowaniu pliki te będą zawierać informacje odnośnie każdego wyrazu. Rozpoznawanie mowy (ang. ASR - automatic speech recognition) technologia pozwalająca komputerowi lub innemu urządzeniu interpretować mowę ludzką, na przykład do celów transkrypcji lub jako alternatywną metodę interakcji. Fonem - [gr. phṓnēma dźwięk ], podstawowa jednostka fonologiczna stanowiąca teoretyczną abstrakcję w stosunku do głosek [3] Historia rozpoznawania mowy [4] [5] Zainteresowanie badaniami nad ludzką mową nie jest zjawiskiem nowym. Słowa wypowiadane były przez długi czas głównym medium w komunikacji międzyludzkiej. Stąd ciekawość ludzi nauki skupiała się zarówno na mechanicznej syntezie mowy, jak i na rozpoznawaniu wypowiedzianych słów celem zautomatyzowania niektórych czynności i prostych zadań. Samo zainteresowanie wyszukiwaniem sposobów na bardziej efektywne wykonywanie różnych czynności było jednym z powodów, dla których powstały pierwsze gramofony. Miały one na celu stworzenie możliwości do nagrania na nośnik 7
8 wiadomości lub listu, który potem miał być przekazany sekretarce celem przepisania. Dzięki zapisaniu takich danych na nośniku, można było oszczędzić na zatrudnieniu kosztownych stenografów. Samo rozpoznawanie mowy było tematem poruszanym w kilku filmach z okresu lat sześćdziesiątych i siedemdziesiątych. Przykładem może być film 2001: Odyseja kosmiczna. Został tam uruchomiony robot HAL, który potrafił rozpoznawać kierowane do niego zdania oraz na nie odpowiadać. Pierwsze próby rozpoznawania mowy opierały się na rozpoznawaniu pojedynczych dźwięków na podstawie widma mocy sygnału głosowego. W 1952 roku Davis, Biddulph oraz Balashek z Bell Laboratories zbudowali system pozwalający na rozpoznanie pojedynczych cyfr. Do jego poprawnego działania wymagana była jednak wcześniejsza detekcja parametrów głosu konkretnego mówcy oraz założenie o niezmienieniu swojej pozycji względem mikrofonu podczas testowania i detekcji. W latach sześćdziesiątych poprzedniego wieku została opracowana szybka transformata Fouriera (ang. FFT Fast Fourier Transform) oraz niejawne łańcuchy Markowa (ang. HMM Hidden Markov Model). Oba te narzędzia są wykorzystywane również w obecnych badaniach nad przetwarzaniem mowy. Wspomniane już lata sześćdziesiąte przyniosły również, uznawany za pierwszy, pełny syntezator mowy wykonany przez Noriko Umeda oraz jego zespół w 1968 roku. Syntezator ten działał tylko dla języka angielskiego. Na skutek pięcioletniego projektu finansowanego przez ARPA Speech Understanding Project powstał we wrześniu 1976 roku system CMU Harpy [6]. Umożliwiał on rozpoznawanie 1000 słów ze słownika z dokładnością powyżej 90% Rozpoznawanie mowy polskiej Wg artykułu George a H.J. Weber a [7] w 1997 roku językiem angielskim posługiwało się aż 480 mln ludzi, zaś język polski 10 lat później był głównym językiem dla zaledwie 40 milionów ludzi [8]. Podane liczby uzasadniają mniejszy nacisk badaczy skierowany na pracę nad rozpoznawaniem mowy polskiej. Jednakże, w ostatnich latach, pojawiły się wdrożenia systemów rozpoznawania mowy na dużą skalę. Należy do nich między innym trwający od 2013 roku projekt prowadzony w ramach Polskiej Platformy Bezpieczeństwa Wewnętrznego [9], program SkryBot, Google Web Speech API (w wersji beta) [10] oraz system rozpoznawania mowy 8
9 polskiej SARMATA, stworzony przez Zespół Przetwarzania Sygnałów Akademii Górniczo-Hutniczej (opisany szerzej w rozdziale 1.7) Zastosowania korpusów Wszelkie systemy rozpoznawania mowy potrzebują do swojego działania znać dźwięki/głoski/wyrazy, które mają rozpoznawać. W tym celu potrzebują tzw. danych treningowych. Danych tego typu może dostarczyć np. korpus mowy. Odpowiednie i precyzyjne wykonanie korpusu jest bardzo ważnym elementem wykonania sprawnie działającego systemu rozpoznawania mowy. Dzięki starannie przygotowanym danym treningowym, system może w bardziej efektywny sposób nauczyć się podanych mu dźwięków, co przekłada się na jego większą dokładność. W zależności od docelowego zadania, które zostanie postawione systemowi ASR, korpus, który będzie go trenował, może (a czasami wręcz powinien) się zdecydowanie różnić od innych korpusów występujących dla danego języka. Przykładowo, przy tworzeniu systemu dla wymiaru sprawiedliwości w słowniku powinno występować słowo repertorium, które w interfejsie obsługi, np. komputera, nie jest wcale używane (przykład takiego interfejsu można zobaczyć w [11]). Korpus mowy nie musi się wcale ograniczać do zwykłej mowy. Pokazują to przykłady korpusów opracowanych w Zespole Przetwarzania Sygnałów AGH (ich opisy są dostępne na stronie internetowej [12]). Grupa ta opracowała m.in. korpus audiowizualny oraz korpus emocji w mowie. W niniejszym opracowaniu został przygotowany korpus, którego dane w dużej mierze opierają się na cyfrach i liczbach, jak również datach. Może on być wykorzystany na przykład przy tworzeniu systemu, który pozwoli na automatyczne sterowanie jakimś systemem, którego dane wejściowe to liczby. Dane tekstowe, które zostały przygotowane do przeczytania, mają strukturę ciągów, którymi posługujemy się coraz częściej w rozmowach telefonicznych, jak i w codziennym życiu. W dzisiejszych czasach każdy bank czy operator telefonii komórkowej oraz niektóre z firm, świadczących usługi na podstawie umów zawieranych drogą telefoniczną, posiadają systemy weryfikacji rozmówców. Niestety, (zarówno dla klientów jak i świadczących usługi) często weryfikacja ta polega na żmudnym powtarzaniu wszystkich lub części swoich danych osobowych. System rozpoznawania mowy oparty na przygotowanym przez dyplomanta korpusie, może zdecydowanie usprawnić ten element. 9
10 1.5. Wybrane korpusy mowy polskiej Zdecydowanie najpopularniejszym z korpusów mowy polskiej jest CORPORA autorstwa Stefana Grocholewskiego. Została ona wykonana w 1997 roku na Politechnice Poznańskiej. Sam autor opisuje ten korpus w następujący sposób: Dla każdego z 45 mówców dokonano nagrań 365 wypowiedzi. Do nagrań wykorzystano mikrofony pojemnościowe lub w jednym przypadku mikrofon dynamiczny. Parametry nagrań: częstotliwość próbkowania - 16 khz, długość słów - 12 bitów. Nagrań dokonano w warunkach naturalnych pomieszczeń, w bezpośredniej bliskości pracującego komputera [13]. Sama treść korpusu autorstwa p. Grocholewskiego na pierwszy rzut oka może się wydawać bezsensowna, ponieważ została ona dobrana pod kątem zapewnienia jak największej różnorodności fonetycznej. Stąd zdania takie, jak: lubić czardaszowy pląs czy on myje wróble w zoo. Niemal wszystkie wypowiedzi, (oprócz 2 mówców) zostały zanotowane automatycznie właśnie na podstawie ręcznie posegmentowanych wypowiedzi wspomnianej dwójki mówców. Był to jeden mężczyzna oraz jedna kobieta [14]. Kolejny ważny korpus mowy polskiej to jurisdic. Zawiera on nagrania o tematyce prawniczej. Nagrane są zarówno spontaniczne wypowiedzi, jak i teksty czytane. Wedle relacji autorów zawiera on około 1000 mówców z różnych części Polski [15]. Korpus LUNA zawiera dialogi telefoniczne. Został on stworzony celem opracowania narzędzia do usprawnienia obsługi serwisów telefonicznych. Korpus zawiera zarówno rozmowy człowieka z człowiekiem, jak i człowieka z komputerem. Narodowy Korpus Języka Polskiego jest zbiorem półtora miliarda słów, zaczerpniętych z literatury, mediów, listów, tekstów internetowych itp. Powstawał on w latach przy współpracy Polskiej Akademii Nauk, Wydawnictwa Naukowego PWN oraz Uniwersytetu Łódzkiego. Był projektem badawczym Ministerstwa Nauki i Szkolnictwa Wyższego. Posiada on swoją stronę, na której można zarówno przeczytać dodatkowe informacje o nim jak i przeszukać jego zawartość. Był on również wykorzystywany w projektach przeprowadzonych na AGH [16]. Część korpusu stanowią nagrania rozmów i audycji radiowych, które niestety nie są zanotowane czasowo [17]. 10
11 1.6. Korpusy powstałe na AGH [17] Najważniejszym korpusem powstałym na AGH jest Korpus AGH zawierający ponad 25 godzin nagrań. Są to nagrania 166 mówców, głównie w przedziale wiekowym lat. Większość nagrywających to mężczyźni. Nagrania w korpusie to dźwięki w formacie.wav jednokanałowe. Część z nagrań została zanotowana ręcznie, a część za pomocą OpenSJP (dystrybuowanego na licencji open source słownika języka polskiego) oraz ręcznie poprawiona. Niektóre słowa w tym korpusie (np. zapożyczone z innych języków) zostały przekonwertowane za pomocą oprogramowania ORTFON [18]. Korpus zawiera też zasady, za pomocą których słowa te zostały przetworzone, co umożliwia zastosowanie tego procesu w drugą stronę. 10 godzin z nagrań stanowią nagrania języka potocznego. Zostały one wykonane przez 10 osób. Każda z nich czytała około 1000 zwrotów. Nagrania odbywały się w cichym pokoju. Anotacja została wykonana na poziomie całych zwrotów. Niemal 7 godzin stanowią nagrania wykonane przez studentów podczas zajęć z przedmiotu prowadzonego przez Zespół Przetwarzania Sygnałów. Warunkiem zaliczenia przedmiotu było wykonanie prostego systemu rozpoznawania mowy o dowolnej tematyce. Najczęściej był to system obsługujący zamówienie pizzy, kupno biletu autobusowego lub stworzenie interfejsu do obsługi aplikacji. Każdy system składał się z około 3 minut nagrań. Dotychczas takie zadanie wykonało 125 studentów, głównie w wieku lat. Proporcje odnośnie płci to dwóch mężczyzn na jedną kobietę. Jedna z części korpusu została przygotowana specjalnie pod kątem przygotowanie systemu służącego do syntezy tekstu na mowę. Część ta składa się z 2132 zdań przeczytanych przez młodą kobietę. Tekst został przygotowany na podstawie NKJP (Narodowego Korpusu Języka Polskiego) [19] i dobrany pod kątem zapewnienia jak największej różnorodności fonetycznej, i jak największego podobieństwa do języka mówionego. Całe 4 i pół godziny nagrań zostało przygotowanych za pomocą wysokiej jakości sprzętu z wykorzystaniem komory bezechowej. Subkorpus przygotowany na podstawie nagrań VOIP został wykonany przez 27 mówców, głównie w wieku lat. Zawiera on niemalże 3 godziny nagrań, których zawartość to w głównej mierze cyfry i liczby oraz słowa służące do nawigacji głosowej telefonicznego systemu pomocy technicznej. Anotacja tego subkorpusu została wykonana na poziomie słów. 11
12 Pozostałe nagrania wykonane na potrzeby korpusu stanowią m.in. nagrane komendy służące do sterowania systemem ASR SARMATA (więcej o systemie w rozdziale 1.7) oraz używane w systemie SAWA (interfejs głosowy wykonany dla instytucji wymiaru sprawiedliwości). Nagrane są publiczne wykłady oraz prezentacje wykonane przez członków Zespołu Przetwarzania Sygnałów AGH. Nagrania te trwają w sumie nieco ponad 1,5 godziny. Są zanotowane na poziomie słów. Kolejny ciekawy korpus wykonany przez zespół DSP AGH to audiowizualny korpus mowy. Zawiera on ponad 3 godziny nagrań głosu oraz twarzy (patrząc od przodu). Nagrania zostały zarejestrowane w rozdzielczości Full HD, głównie przy naturalnym oświetleniu. Przedstawiony korpus może służyć na przykład do trenowania systemu służącego do rozpoznawania mowy z ruchu warg [20]. Korpus emocji w mowie jest jedynym korpusem w Polsce, który zawiera dostępne w ramach licencji nagrania ludzkich emocji. Zawiera on 6 różnych emocji oraz stan neutralny, jako sygnał odniesienia. Swojego głosu użyczyło 12 mówców; zarówno profesjonalnych aktorów, jak i studentów. Każde nagranie zawiera tę samą treść, a mówca został poproszony o przeczytanie konkretnych fraz w sposób wyrażający daną emocję. Korpus zawiera zarówno tekst ciągły, jak i cyfry, polecenia oraz zdania [21] SARMATA System rozpoznawania mowy polskiej SARMATA jest kolejnym z projektów wykonanych przez wspomniany już Zespół Przetwarzania Sygnałów (DSP) AGH. Jest aplikacją przystosowaną do obsługi do 1000 komend jako np. interfejs głosowy. Zastosowania SARMATY to, między innymi, prowadzenie interaktywnych rozmów (ang. IVR Interactive Voice Response), za pomocą których można zautomatyzować działanie systemu call center. W połączeniu z innym systemem weryfikacji mówców (jak np. Voice Color spółki Techmo, będącej spin-offem Akademii Górniczo-Hutniczej w Krakowie [22]) może on odciążyć pracownika od odpowiadania na powtarzające się pytania i tym samym zmniejszyć koszt biznesowy utrzymania call center. Jak zostało już wcześniej wspomniane, SARMATA może służyć jako system to głosowej obsługi programów komputerowych, co oprócz korzyści polegających na zwiększeniu efektywności pracy, może być też znaczącym ułatwieniem dla niepełnosprawnych, np. słabowidzących i mających trudności w posługiwaniu się myszą. 12
13 Przykładem takiego właśnie interfejsu jest wykonana za pomocą SARMATY Wirtualna Mysz. Jest to system, który pozwala na sterowanie myszą komputerową za pomocą głosu. Kolejnym z zastosowań systemu SARMATA jest wyszukiwarka akustyczna. Za jej pomocą możliwe jest odszukanie w nagraniach danego słowa. Pozwala to znacznie zaoszczędzić czas wszystkim osobom, które pracują analizując pliki dźwiękowe i wyszukując w nich odpowiednie dane. W niniejszym opracowaniu opisany powyżej system został użyty do analizy nagrań będących składową korpusu. Dzięki jego wykorzystaniu został zaoszczędzony czas, który musiałby zostać poświęcony na ręczną transkrypcję dźwięków. Przy założeniu, że jedna minuta nagrań wymaga poświęcenia około 20 minut na ręczną transkrypcję, dzięki SARMACIE zaoszczędzonych zostało ponad 40 godzin pracy Format.mlf Pliki w formacie.mlf (Master Label File) służą do zapisania danych powstałych w procesie transkrypcji. W zależności od dokładności transkrypcji zawierają one informacje o fonemie/słowie/frazie oraz ich czasie, w którym dana jednostka się zaczyna i kończy. Plik.mlf musi zaczynać się nagłówkiem #!MLF!#. W zależności od potrzeby może on zawierać anotację dowolnej liczby plików. Każda z nich musi być poprzedzona ścieżką do pliku dźwiękowego wziętą w cudzysłów. Po podaniu ścieżki następują dane zapisane w formacie: czas rozpoczęcia, czas zakończenia, treść (rozdzielonej spacjami). Podstawową jednostką czasu w pliku.mlf jest 100 ns, więc w przypadku uzyskania anotacji z większą jednostką podstawową należy podczas konwersji przemnożyć przez wielokrotność liczby 10 w celu uzyskania czasu zapisanego w setkach nanosekund. Komentarze w pliku muszą rozpoczynać się znakiem #. Kropka oznacza koniec zapisu anotacji danego pliku. 13
14
15 2. Zebranie danych do analizy Rozdział ten przedstawia szczegółowo proces przygotowania danych, z których będzie składał się korpus. Omawia on dokładnie, w jaki sposób zostały wygenerowane dane służące do przygotowania zestawów dla czytających oraz jakie są ich właściwości. W rozdziale zostały też przedstawione dane, które były zbierane podczas procesu nagrywania oraz opisany system stworzony przez dyplomanta na potrzeby usprawnienia procesu zbierania danych dźwiękowych Typy danych Na podstawie analizy materiałów dostępnych w sieci oraz własnych doświadczeń z telefoniczną weryfikacją rozmówcy zostały wybrane najczęściej używane typy danych, które następnie zostały wykorzystane do stworzenia korpusu. Te typy to: PESEL, data urodzenia, kod PIN, numer klienta, seria i numer dowodu osobistego Parametry typów danych Aby jak najlepiej wytrenować program rozpoznający mowę (do czego może być też wykorzystany korpus), należało wygenerować dane treningowe jak najbardziej odpowiadające rzeczywistości. Dla numeru PESEL i daty urodzenia zostały określone z przedziału od 1 stycznia 1940 r. do 31 grudnia 2014 r. Dzięki temu można założyć, że wykorzystane dane mogą wytrenować system do prawidłowego działania przez najbliższe 18 lat. Ostatnie pięć cyfr numeru PESEL zostało wygenerowane zgodnie z obowiązującymi standardami, gdzie parzystość przedostatniej cyfry określa płeć, a ostatnia cyfra jest sumą kontrolną obliczoną z wzoru a + 3b + 7c + 9d + e + 3f + 7g + 9h + i + 3j gdzie: litery od a do j oznaczają kolejne cyfry numeru PESEL. Jako kod PIN został wygenerowany losowy ciąg czterech cyfr. Na 320 rekordów 40 powstało przez dwukrotne wklejenie listy 20 najczęściej występujących numerów PIN znalezionej na stronie internetowej datagenetics.com [23]. Numer klienta to ciąg 8 losowych cyfr. Numer dowodu osobistego zawiera tych cyfr o dwie mniej. Jako serię dowodu osobistego przyjąłem ciąg 3 liter, gdzie pierwszą zawsze jest A. Założenie to można przyjąć za prawdziwe, ponieważ maksymalna liczba dowodów osobistych wydanych w seriach rozpoczynających się na literę A wynosi
16 (zakładając 26 liter w alfabecie i 5 z 6 cyfr jako losowe, a szóstą, jako sumę kontrolną), co ponad czterdziestokrotnie przewyższa liczbę mieszkańców Polski [24]. Suma kontrolna dowodu osobistego jest obliczana w następujący sposób: serię dowodu zamienia się na wartości liczbowe wg wzoru [25]: A B C D E F G H I J K L M N O P Q R S T U V W X Y Z Tabela 2.1 Wartości odpowiadające literom potrzebne do wyliczenia sumy kontrolnej Aby sprawdzić poprawność numeru dowodu osobistego oblicza się sumę iloczynów cyfr/wartości odpowiadających literom oraz wag, które wynoszą kolejno Suma tych iloczynów powinna po wykonaniu nań operacji modulo 10 dać wartość równą sumie kontrolnej Dopasowanie danych Algorytm według którego zostały do siebie dopasowane zestawy danych musiał stworzyć zestawy jak najbardziej zróżnicowane między sobą, jeśli chodzi o częstotliwość występowania poszczególnych cyfr oraz liter. Algorytm, który został użyty, polegał na policzeniu częstości występowania każdej cyfry oraz litery i przedstawieniu ich w postaci liczb. Następnie dla każdej pary liczona była suma kwadratów liczb powstałych z sumowania współczynników przy tym samym znaku alfanumerycznym. Taka analiza danych zapewniała, że najmniejszy współczynnik (najlepsze dopasowanie) zostanie uzyskany dla danych, dla których rozkład występowania poszczególnych znaków będzie najbardziej zróżnicowany. Do wykonania obliczeń zostały użyte makra programu Microsoft Excel. Kod został przedstawiony w załączniku nr 1. W skrypcie został użyty algorytm dopasowania bąbelkowego. W rezultacie otrzymano dla każdej porcji danych pięć porcji, dla których współczynnik dopasowania był najmniejszy. Następne makro wybierało najlepiej dopasowane pary i odznaczało, które z porcji danych zostały już wykorzystane. Operacja ta zapobiegła duplikowaniu się danych w poszczególnych parach. Kod został przedstawiony w załączniku nr Metadane zbierane przy nagrywaniu Jednym z wymagań postawionych korpusowi było zebranie odpowiednich metadanych do każdego nagrania, które mogą zostać później wykorzystane 16
17 do dokładniejszej analizy lub do lepszego rozpoznawania głosów na podstawie posiadanych informacji o nagraniach. Metadane zbierane przy tworzeniu korpusu to: Płeć Przedział wiekowy Poziom szumu Rodzaj telefonu (stacjonarny/komórkowy) Informacje o wieku osób nagrywanych, ze względu na ich prywatność, zostały ograniczone do informacji o przedziale wiekowym. Przyjęte zostały następujące przedziały wiekowe: < 20 lat lat lat lat > 50 lat Aby określić warunki, w jakich miało miejsce nagranie, przyjęto skalę pięciostopniową, określającą subiektywnie oceniony poziom szumu towarzyszącego nagrywanym słowom. Poziom 1 oznacza praktycznie brak szumów, poziom 2 szum ledwo odczuwalny, ale jednak dający się usłyszeć. Poziom 3 to szum wyraźnie słyszalny, ale w dość małym stopniu wpływający na pogorszenie rozpoznawalności poszczególnych wymawianych głosek. Przedostatnie dwa poziomy odpowiadają szumowi, który wpływa na odbiór nagrania oraz sprawia, że należy dokładniej przysłuchiwać się głoskom, by je rozpoznać. Przy poziomie szumu 5 osoba anotująca może mieć czasami problemy z rozpoznaniem głosek pomimo posiadania tekstu, który został przeczytany oraz wielokrotnego przesłuchania fragmentu nagrania. Ponadto, przy określeniu poziomu szumu wzięte zostały pod uwagę przypadki, gdy osoba nagrywająca mówiła cicho wtedy też zostawała przyznana wyższa ocena wartości szumu. Przy określeniu płci nagrywającego użyto następującej zasady: kobieta została oznaczona literą K a mężczyzna literą M. Rodzaj telefonu, z którego korzystała osoba nagrywająca został oznaczony jako C dla telefonu komórkowego i S dla telefonu stacjonarnego. Nie zostało wprowadzone bardziej szczegółowe rozróżnianie modelu telefonu. 17
18 2.5. System do zbierania nagrań Zebranie materiału dźwiękowego zostało uproszczone przez dyplomanta dla zapewnienia komfortu nagrywającym, oraz aby zapobiec ewentualnym niejasnościom ze strony osób, których nagrane głosy miały znaleźć się w korpusie. Do rejestrowania rozmów został wykorzystany system stworzony w oparciu o usługi jednego z operatorów telefonii VOIP (ang. Voice over Internet Protocol). Algorytm działania systemu przedstawiał się następująco: Odbierz telefon Odtwórz komunikat Rejestruj głos Wyślij nagranie e- mailem Rysunek 2.1 Algorytm działania systemu nagrywającego Przed wykonaniem telefonu osoba nagrywająca się otrzymała zestaw danych, z którymi miała możliwość zapoznać się przed wykonaniem połączenia. Najczęściej w tym miejscu pojawiały się liczne wątpliwości dotyczące samego czytania. Dotyczyły one w największym stopniu sposobu odczytywania dat (czy należy je czytać cyfra po cyfrze, czy drugą z liczb należy czytać jako nazwę miesiąca czy też jako liczbę), jak również możliwości tworzenia złożeń cyfr (np. Czy zamiast jeden zero zero zero mogę przeczytać tysiąc? ). Aby nagrania były jak najbardziej zbliżone do rzeczywistości, dyplomant starał się nie narzucać nikomu sposobu odczytywania w/w danych. Spowodowało to wystąpienie w korpusie różnych wariantów ich odczytywania. Po wyjaśnieniu wszystkich wątpliwości, osoba przystępowała do nagrywania. Sposób i miejsce nagrania nie było nigdy precyzyjnie określone, więc w większości przypadków nagrania były przeprowadzane w ustronnym miejscu, późnym wieczorem, żeby zapewnić jak najniższy poziom szumu oraz jak najlepszą jakość nagrania. Nie było to jednak regułą, ponieważ część sytuacji została umyślnie zaaranżowana tak, by nagranie zostało przeprowadzone w środowisku zaszumionym. Po wybraniu podanego w instrukcji numeru telefonu, w słuchawce odtwarzany był nagrany wcześniej komunikat informujący, by rozpocząć czytanie po usłyszeniu sygnału dźwiękowego. Warto w tym miejscu również wspomnieć, że nagrania znacznie się między sobą różniły pod wieloma względami. Niektóre z nich były czytane bardzo 18
19 szybko i praktycznie z brakiem odstępów między frazami a niektóre powoli i bardzo dokładnie, z zachowaniem znacznych przerw. Z tego powodu najkrótsze nagrania trwały 40 sekund a najdłuższe 3 razy tyle. Dokładniejsza analiza statystyczna korpusu została przedstawiona w rozdziale 4. Ważnym aspektem była też głośność wypowiadanych słów. W zależności od modelu telefonu oraz od samej osoby, która czytała dane, część nagrań była bardzo cicha, a część wręcz przesterowana. Mogło to też być spowodowane powszechnym przyzwyczajeniem do dość głośnego wypowiadania słów do telefonu. Również poziom szumów w korpusie jest zróżnicowany. Jak zostało już wyżej wspomniane, część nagrań została przeprowadzona wieczorową porą w domach, a część w trakcie pracy czy podczas przebywania w otwartej przestrzeni miejskiej. Dzięki temu każde nagranie różni się od pozostałych. Zróżnicowanie pozwala również na stwierdzenie, że warunki, w których zostały poczynione nagrania, w dobry sposób odwzorowują realne warunki korzystania przez ludzi z telefonów Ciekawostki Jedna osoba dostała do odczytania swoją datę urodzenia, a inna w numerze PESEL, który dostała do odczytania, odnalazła datę urodzenia własnego syna. Skrótowiec AGH pojawił się w jednym z zestawów nie został jednak przydzielony do studenta Akademii Górniczo Hutniczej. Część tekstów została nagrana przez pracowników profesjonalnego Call Center (zestawy ). Najstarszy uczestnik nagrań miał w chwili nagrywania 74 lata. 19
20
21 3. Obróbka danych 3.1. Anotacja Po zebraniu wymaganej liczby nagrań została przygotowana ich anotacja. Zgodnie z definicją tego pojęcia [26], zawiera ona również przygotowanie metadanych. Te zaś zostały omówione szczegółowo w rozdziale 2.4, więc w tym rozdziale zostanie dokładnie omówione jedynie przedstawienie zawartości nagrań za pomocą umownych oznaczeń tekstowych. Jak zostało już wyżej wspomniane, aby zapewnić nagraniom naturalność oraz w realny sposób odwzorować rzeczywisty sposób wymowy, osobom nagrywającym się nie został narzucony sposób wymowy zarówno dat, jak i liczb. Pomimo oczywistych korzyści wynikających z tego zabiegu, jak np. duża różnorodność sposobów wymowy poszczególnych fraz, brak narzucenia reguł poskutkował również koniecznością zwiększenia nakładów pracy podczas znakowania tekstu. Podczas procesu znakowania przyjęte zostały umowne zasady, dzięki którym dyplomant mógł z największą możliwą dokładnością opisać to, co zostało nagrane. Wielkie litery, które występowały w tekstach w polu Dowód osobisty zostały zapisane zgodnie ze sposobem ich wymawiania ( a, be, ce, y lub igrek itp.). Wszystkie pomyłki, zawahanie oraz niezidentyfikowane słowa powstałe przez problemy na łączu zostały oznaczone poprzez wzięcie ich w nawias oraz wpisanie w tym nawiasie dźwięku, który być może tam wystąpił. Taki zabieg jest przydatny przy detekcji tego rodzaju wypowiedzi. Została również zwrócona uwaga na słowa, które w języku polskim mogą być wymawiane błędnie, takie jak, np. jedynaście zamiast jedenaście oraz rozłanczam zamiast rozłączam. Znakowanie tego typu fraz zostało wykonane zgodnie z tekstem, który został wypowiedziany, niezależnie od jego poprawności językowej. Nie wszystkie błędy w wypowiedziach zostały oznaczone. Przykładowo, liczbę 300 często można spotkać w nagraniach wymawianą jak czysta jednak obie wymowy są do siebie tak podobne, że nie można ze stuprocentową pewnością ocenić, jaki dźwięk wystąpił. Niektóre z dźwięków były też dźwiękami pośrednimi między wymową poprawną a błędną. W w/w przypadku taka wymowa wynikała z faktu, że wszystkie nagrania zostały wykonane przez osoby, które pochodziły lub aktualnie mieszkają 21
22 na terenach, na których używany jest dialekt małopolski, którego jedną z charakterystycznych cech jest używanie afrykat [27], czyli spółgłosek zwartoszczelinowych [28] Słowniki Przygotowanie słowników było koniecznym elementem potrzebnym do analizy nagrań za pomocą systemu AGH SARMATA. Przyjęto format słowników, w którym każde słowo znajduje się w osobnej linii, aby skorzystać z trybu seryjnego w systemie. Do przygotowanie słowników został wykorzystany plik w formacie.csv zawierający znakowanie nagrań oraz skrypt Windows PowerShell, którego źródło zostało przedstawione w załączniku nr 4. Skrypt ten najpierw zapisuje wszystkie dane z pliku.csv do zmiennej (komenda Import-CSV). Następnie następuje obróbka tekstu, tj. usunięcie niepotrzebnych spacji (funkcja Trim) oraz zmiana wielkości liter na małe (funkcja ToLower) a następnie, za pomocą komendy Foreach-Object dopisuje każde niepuste (wyfiltrowane funkcją Where-Object) pole do końca pliku wynikowego. Plik ten jest osobny dla każdego nagrania. Ostatnim etapem potrzebnym, by zapewnić zgodność z systemem SARMATA, była konwersja plików z formatu.mp3 na format.wav. Została ona wykonana za pomocą programu mpg123 działającego w systemie Linux Debian Analiza za pomocą programu SARMATA W celu zoptymalizowania i automatyzacji części procesu przygotowywania korpusu dyplomant wykorzystał opisany w rozdziale 1.7 system rozpoznawania mowy SARMATA, który został do tego celu udostępniony dzięki uprzejmości Zespołu Przetwarzania Sygnałów. Wykorzystanie SARMATY w zakresie niniejszej pracy inżynierskiej ograniczało się jedynie do automatycznej anotacji nagrań na podstawie plików w formacie.wav (16bit 16kHz PCM) oraz słowników (w plikach tekstowych w formacie UTF8 bez BOM). Na wejście programu zostały podane również pliki zawierające plik służący do transkrypcji na zapis fonetyczny oraz baza wzorców. Z dostępnych dyplomantowi 2 baz została wybrana baza complete_b00( ), jako generująca lepsze wyniki (dokładniejsze wykrywanie ciszy). Została ona użyta pomimo dłuższego czasu przetwarzania nagrań. 22
23 Pozostałe parametry, z jakimi został uruchomiony program, to wyłączony pruning (algorytm drzew decyzyjnych służący do odrzucania najmniej wartościowych połączeń), brak Voice Activity Detection (system detekcji mowy używany m.in. w technologii VOIP) oraz włączona opcja śledzenia tylko jednej ścieżki (celem przyspieszenia obliczeń) Konwersja do formatu.mlf Pliki wyjściowe otrzymane z przetwarzania za pomocą SARMATY miały format tekstowy, jednak nie był to format zgodny z opisanym w rozdziale 1.8 formatem.mlf. Wycinek pliku tego formatu przedstawiał się następująco: 1st Path: 1. sil [0-174] (0) 2. trzy [ ] (0) 3. dwa [ ] (0) 4. sil [ ] (0) Recognitions: 1. sil trzy dwa sil ( )( ) 2. sil trzy dwa sil ( ) ( ) 3. sil trzy dwa sil ( ) ( ) 4. sil trzy dwa sil ( )( ) Przetworzenie powyższego formatu na zgodny z formatem.mlf wymagało na początek zapisania do zmiennych niezbędnych danych (nazwy pliku, czasów rozpoczęcia i czasów zakończenia oraz słów). Następnie dane te należało zapisać do pliku.mlf pamiętając o odpowiedniej składni (m.in. nagłówek, nazwa pliku, znak kropki na końcu anotacji każdego pliku). 23
24
25 4. Analiza statystyczna korpusu 4.1. Osoby nagrywające się Do scharakteryzowania grupy, która uczestniczyła w nagraniach korpusu można użyć następujących wykresów: 4.1 Wykres osób nagrywających się w zależności od płci Powyższy wykres przedstawia jaki jest stosunek procentowy kobiet i mężczyzn w odniesieniu do całej grupy nagrywających się. W sumie grupę tę stanowi 66 kobiet oraz 48 mężczyzn. W zależności od płci przedstawiono poniżej udział procentowy poszczególnych grup wiekowych w odniesieniu do wszystkich nagrywających się danej płci. Z dobrym przybliżeniem można przyjąć, że dla obojga płci udział grup wiekowych jest podobny. Największe różnice (ok. 10%) występują w grupach wiekowych poniżej 20 lat oraz w przedziale lat. Ponadto, dla każdej płci wyraźnie przeważa grupa wiekowa lat. Stanowi ona w obu przypadkach ponad 60% nagrywających się. 25
26 Wykres 4.2 Grupy wiekowe nagrywających z podziałem ze względu na płeć Wykres 4.3 Wykres przedziałów wiekowych bez względu na płeć Jak zostało już wcześniej wspomniane, z powodu niewielkich różnic w liczbie kobiet i mężczyzn, wykres nieuwzględniający płci wygląda bardzo podobnie do wykresu obrazującego przedziały wiekowe kobiet jak i do wykresu obrazującego przedziały wiekowe mężczyzn. Jedynie niewielki odsetek połączeń został wykonany z telefonów stacjonarnych. Zapewne jest to spowodowane rosnącą w dalszym ciągu popularnością telefonów komórkowych oraz tym, że w dzisiejszych czasach już nawet najmłodsi posiadają takie urządzenia. Na wszystkie 114 nagrań jedynie 6 pochodziło z połączeń wykonanych telefonem stacjonarnym. Pozostałe 108 nagrań pochodzi z połączeń wykonanych telefonem komórkowym. 26
27 4.2. Słowa występujące w korpusie Aby obliczyć częstotliwość występowania poszczególnych słów, zostało wykorzystane narzędzie dostępne na stronie internetowej [29]. W stworzonym korpusie występuje 198 unikalnych fraz, a ogółem zawiera on 8652 słowa. W obu tych liczbach zawarte są wszystkie słowa/frazy, które przy znakowaniu były traktowane jako oddzielny wyraz, czyli także litery, które były czytane podczas dyktowania pola Dowód osobisty. Pojedyncze litery występują w korpusie sumarycznie 670 razy, z czego sama litera A pojawia się 240 razy. Stanowi ona ponad jedną trzecią wystąpień wszystkich liter. Nie jest to zaskoczeniem, ponieważ jak zostało udowodnione w rozdziale 2.2, litera ta jest i jeszcze przez najbliższy czas będzie pierwszą literą serii każdego dowodu osobistego w Polsce. Pomimo, że w korpusie nie wykorzystano polskich liter, występuje w nim 29 różnych fraz oznaczających litery. Alfabet łaciński zaś składa się jedynie z 26 znaków. 3 dodatkowe frazy spowodowane są różnym sposobem wymawiania y (jako y albo igrek), q ( ku albo kju ) oraz r ( er albo ry ). Są to jednakże jedynie pojedyncze przypadki. Wykres 4.4 Wystąpienia poszczególnych liter alfabetu Powyższy wykres obrazuje niemal równą częstotliwość występowania poszczególnych liter alfabetu. Dla zachowania przejrzystości wartość wykresu odpowiadająca literze a została zmniejszona o 228 (tyle razy a występuje jako 27
28 pierwsza litera w serii Dowodu osobistego ). 3 najniższe słupki obrazują alternatywne sposoby wymawiania r, q oraz y. Poniższy wykres przedstawia zaś liczbę wystąpień poszczególnych cyfr (czytanych pojedynczo albo w złożeniach). Wyszczególniono na nim wystąpienia wyrazów w nieodmienionej formie. Sumarycznie poniższe słowa wystąpiły w korpusie 5303 razy. Wykres 4.5 Wykres częstotliwości występowania poszczególnych cyfr Słowem, które pojawia się najczęściej w całym korpusie jest słowo zero. Pojawia się ono 663 razy, co stanowi prawie 8% wszystkich wystąpień słów. Duża liczba wystąpień tego słowa jest spowodowana tym, że zero jest cyfrą, która, jeśli występuje z przodu, nie da się złożyć z inną cyfrą i przeczytać jako pary (wyjątkiem jest przypadek, kiedy zero jest po prostu opuszczane zdarzyło się to w dwóch wypowiedziach). Drugim, najczęściej pojawiającym się słowem, jest dwa. Warto zauważyć, że cyfra ta pojawia się jako pierwsza cyfra roku w dwudziestu procentach dat, które występują w polu Data urodzenia (zakres dat, jak zostało wspomniane w rozdziale 2.2 zawiera lata ). Wyrażenie dwa tysiące występuje więc 37 razy. 3 razy pojawia się słowo dwutysięczny, co sumarycznie daje 40 wystąpień. W pozostałych przypadkach liczba 2000 czytana była cyfra po cyfrze (ok. 10 wystąpień, co stanowi 20% wszystkich przypadków czytania liczby 2000). Kolejną ważną cyfrą jest jeden. Jak można zobaczyć na stronie 28, liczba jej wystąpień w nagraniach tylko nieznacznie odbiega od wystąpień innych liczb (nie biorąc pod uwagę dwa oraz zero, które zostały omówione wcześniej). 28
29 Na pierwszy rzut oka może być to zastanawiające, ponieważ cyfra 1 jest nieodłącznym elementem niemal 80 procent dat występujących w korpusie. Biorąc jednak pod uwagę 185 wystąpień słowa tysiąc, można łatwo wytłumaczyć brak dużej przewagi wyrazu jeden. Jedynie w kilku przypadkach (na 228 dat występujących w korpusie), rok był czytany cyfra po cyfrze. 29
30
31 Zakończenie Korpus mowy może zostać z powodzeniem wykorzystany do zwiększenia efektywności powtarzalnych zadań. Swoje biznesowe uzasadnienia zyskuje w momencie, gdy osoby, które np. muszą telefonicznie weryfikować dane rozmówcy, mogą zostać w tym etapie zastąpione przez odpowiedni automat. Może to pozwolić na szybszą i bardziej efektywną obsługę klienta, a przecież do takiej dąży każda firma posiadająca telefoniczną obsługę swoich kontrahentów. Podsumowanie Analizując przedstawione we wstępie wymagania dotyczące celu pracy oraz rezultat, którego omówieniem zajmuje się to wypracowanie, można stwierdzić, że zamierzony efekt został osiągnięty z nadwyżką ponad 20%. Cały korpus został umieszczony na załączonej płycie CD. Zawiera ona zarówno pliki dźwiękowe, związane z nimi metadane, jak i otrzymane pliki.mlf. Korpus ten może zostać w przyszłości wykorzystany do automatyzacji wielu operacji wykonywanych za pomocą głosu oraz kombinacji cyfr. Przykładowe zastosowania mogą obejmować m.in. logowanie do różnych systemów, w których używa się kodu PIN. Warto również rozważyć połączenie powstałego korpusu z systemem weryfikacji biometrycznej opartym na analizie głosu, aby stworzyć metodę weryfikacji dwuetapowej. Kolejne, przykładowe zastosowania, mogą się opierać na uproszczeniu procesu obsługi telefonicznej poprzez automatyczne pobranie od osoby obsługiwanej najczęściej potrzebnych danych. W przypadku obsługi technicznej, może to być np. wersja systemu operacyjnego, identyfikator oraz model sprzętu, którego dotyczy zgłoszenie. Autor pragnie również wyrazić nadzieję, że praca wykonana przez niego oraz inne osoby zaangażowane w przygotowanie korpusu, przyczyni się w pewnym stopniu do rozwoju prac związanych z przetwarzaniem języka polskiego oraz stanie się przydatnym narzędziem ułatwiającym codziennie wykonywane czynności. 31
32
33 Załączniki: 1. Kod dopasowujący dane Sub dopasowanie2() Dim i As Integer Dim j As Integer Dim k As Integer Dim x As Integer Dim y As Integer Dim dopasowanie As Integer Dim temp(1 To 321, 1 To 2) As Integer Dim t As Integer t = 1 For i = 2 To 321 For j = 2 To 321 If Worksheets("Arkusz1").Cells(i,6).Value = Worksheets("Arkusz1").Cells(j, 6).Value Then dopasowanie = 0 For k = 1 To 38 x = Worksheets("Czest").Cells(i, k).value y = Worksheets("Czest").Cells(j, k).value dopasowanie = dopasowanie + ((x + y) * (x + y)) Next k temp(j, 1) = dopasowanie temp(j, 2) = j Else temp(j, 1) = 9999 temp(j, 2) = j End If Next j Call BubbleSort(temp) Cells(i, 2).Value = temp(2, 1) Cells(i, 3).Value = temp(3, 1) Cells(i, 4).Value = temp(4, 1) Cells(i, 5).Value = temp(5, 1) Cells(i, 6).Value = temp(6, 1) Cells(i, 7).Value = temp(2, 2) 33
34 Cells(i, 8).Value = temp(3, 2) Cells(i, 9).Value = temp(4, 2) Cells(i, 10).Value = temp(5, 2) Cells(i, 11).Value = temp(6, 2) Cells(i, 12).Value = Worksheets("Arkusz1").Cells(i, 6) Next i End Sub 2. Kod eliminujący powtórzenia Sub wybierz() Worksheets("Arkusz1").Columns(7).ClearContents Dim i As Integer Dim j As Integer Dim x As Integer Dim y As Integer Dim k As Integer Dim wiersz As Integer k = 1 x = 1 y = 1 Dim wartosc As Integer For j = 1 To 5 For i = 2 To 321 x = Worksheets("Arkusz2").Cells(i, 1).Value y = Worksheets("Arkusz2").Cells(i, j + 6).Value If Worksheets("Arkusz1").Cells(x, 7) <> "Wykorzystany" And Worksheets("Arkusz1").Cells(y, 7) <> "Wykorzystany" Then Worksheets("Arkusz3").Cells(k, 1).Value = Worksheets("Arkusz2").Cells(i, 1).Value Worksheets("Arkusz3").Cells(k, 2).Value = Worksheets("Arkusz2").Cells(i, j + 6).Value Worksheets("Arkusz3").Cells(k, 3).Value = Worksheets("Arkusz1").Cells(x, 6) wiersz = Worksheets("Arkusz2").Cells(i, 1).Value Worksheets("Arkusz1").Cells(wiersz, 7).Value = "Wykorzystany" wiersz = Worksheets("Arkusz2").Cells(i, j + 6).Value Worksheets("Arkusz1").Cells(wiersz, 7).Value = "Wykorzystany" k = k
35 End If Next i Next j End Sub 3. Dane o rozmówcach plik metadane.csv 4. Skrypt generujący słownik $plik = "..\anotacja_spacje.csv" $dane = Import-Csv $plik -Delimiter ';' $dane Foreach-Object {$_.PSObject.Properties Foreach- Object{$_.Value = $_.Value.Trim()}} $dane Foreach-Object { $nazwa = $_.ID + ".txt"; $_.PSObject.Properties Where-Object{($_.Name -notlike "ID") -and ($_.Value -ne "")} Foreach-Object {$_.Value = $_.Value.ToLower();$_.Value Out-File $nazwa -Append} } 5. Plik opisujący występowanie słów slowa.csv 6. Skrypt konwertujący plik wynikowy do formatu.mlf $file=@() $wav=@() $j=0 $mlf="zbiorczo.mlf" "#!MLF!#" Out-File $mlf Get-ChildItem. -Filter *.txt Foreach-Object{ $file=$_.name $wav=$file.replace("txt","wav") "`"$wav`"" Out-File $mlf -Append "" Out-File $mlf -Append "" Out-File $mlf -Append $wiersze=get-content.\$file Where-Object {$_ -match "([0-9]*). (\w*) \["} $kropka $nawias1 $kreska $nawias2 $czas1 $czas2 $tekst $string 35
36 for ($i=0; $i -lt $wiersze.length; $i++) { $kropka=$kropka+$wiersze[$i].indexof(".") $nawias1=$nawias1+$wiersze[$i].indexof("[") $kreska=$kreska+$wiersze[$i].indexof("-") $nawias2=$nawias2+$wiersze[$i].indexof("]") $czas1=$czas1+$wiersze[$i].substring($nawias1[$i]+1,$kreska[$i]- $nawias1[$i]-2) $czas2=$czas2+$wiersze[$i].substring($kreska[$i]+2,$nawias2[$i]- $kreska[$i]-2) $tekst=$tekst+$wiersze[$i].substring($kropka[$i]+2,$nawias1[$i]- $kropka[$i]-2) $string=$string + ($czas1[$i] + " " + $czas2[$i] + " " + $tekst[$i]) } $string Out-File $mlf -Append "." Out-File $mlf -Append 36
37 Bibliografia [1] [Data uzyskania dostępu: 18 stycznia 2015]. [2] [Data uzyskania dostępu: 18 stycznia 2015]. [3] [Data uzyskania dostępu: 18 stycznia 2015]. [4] B. Ziółko i M. Ziółko, Przetwarzanie mowy, Kraków: Wydawnictwo AGH, [5] L. R. Rabiner i B. H. Juang, Automatic Speech Recognition A Brief History of the Technology Development, Atlanta: Georgia Institute of Technology, [6] D. H. Klatt, Review of the ARPA Speech Understanding Project, Massachusetts Institute of Technology, Cambridge, [7] The World's 10 most influential Languages, Language Today, pp , [8] Nationalencyklopedin "Världens 100 största språk 2007". [9] [Data uzyskania dostępu: 18 stycznia 2015]. [10] [Data uzyskania dostępu: 18 stycznia 2015]. [11] [Data uzyskania dostępu: 18 stycznia 2015]. [12] [Data uzyskania dostępu: 18 stycznia 2015]. [13] S. Grocholewski, CORPORA - speech database for Polish diphones. Proceedings of Eurospeech., [14] S. Grocholewski, CORPORA - speech database for Polish diphones, w Eurospeech, Rhodos, Greece,
38 [15] G. Demenko, S. Grocholewski, K. Klessa, Lange M., M. Lange, D. Śledziński i N. Cylwik, JURISDIC - Polish speech database for taking dictation of legal texts, w Proceedings of the International Conference on Language Resources and Evaluation, Marrakech, Morocco, [16] A. Przepiórkowski, M. Bańko, R. Górski i B. Lewandowska-Tomaszczyk, Narodowy Korpus Języka Polskiego, Warszawa: Wydawnictwo Naukowe PWN, [17] B. Ziółko, T. Jadczyk, D. Skurzok i P. Żelasko, AGH Corpus of Polish Speech. [18] [Data uzyskania dostępu: 18 stycznia 2015]. [19] [Data uzyskania dostępu: 15 stycznia 2015]. [20] [Data uzyskania dostępu: 18 stycznia 2015]. [21] [Data uzyskania dostępu: 18 stycznia 2015]. [22] [Data uzyskania dostępu: 18 stycznia 2015]. [23] Data Genetics, wrzesień [Data uzyskania dostępu: 18 stycznia 2015]. [24] Główny Urząd Statystyczny, 09 kwietnia [Data uzyskania dostępu: 18 stycznia 2015]. [25] M. Kwiatek, Algorytmy i Struktury Danych, 03 marca [Data uzyskania dostępu: 18 stycznia 2015]. [26] [Data uzyskania dostępu: 18 stycznia 2015]. [27] [Data uzyskania dostępu: 18 stycznia 2015]. 38
39 [28] H. Karaś, Dialekty i gwary polskie, [Data uzyskania dostępu: 18 stycznia 2015]. [29] [Data uzyskania dostępu: 11 stycznia 2015]. 39
Maciej Piotr Jankowski
Reduced Adder Graph Implementacja algorytmu RAG Maciej Piotr Jankowski 2005.12.22 Maciej Piotr Jankowski 1 Plan prezentacji 1. Wstęp 2. Implementacja 3. Usprawnienia optymalizacyjne 3.1. Tablica ekspansji
P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H
W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania
Sprawozdanie z laboratoriów HTK!
Inżynieria akustyczna - Technologia mowy 2013 Błażej Chwiećko Sprawozdanie z laboratoriów HTK! 1. Przeznaczenie tworzonego systemu! Celem było stworzenie systemu służącego do sterowania samochodem. Zaimplementowane
Zapytania do bazy danych
Zapytania do bazy danych Tworzenie zapytań do bazy danych MS Access może być realizowane na dwa sposoby. Standard SQL (Stucture Query Language) lub QBE (Query by Example). Warto wiedzieć, że drugi ze sposobów
Rozpoznawanie mowy za pomocą HTK
Kinga Frydrych Wydział Inżynierii Mechanicznej i Robotyki Inżynieria Akustyczna, rok III, 2013/2014 Sprawozdanie z ćwiczeń laboratoryjnych z Technologii mowy Rozpoznawanie mowy za pomocą HTK 1. Opis gramatyki
Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Elektroenergetyki Technologie informatyczne
Politechnika Gdańska Wydział Elektrotechniki i Automatyki Katedra Elektroenergetyki Technologie informatyczne Microsoft Excel Ćw. 4 1. Bazy danych w programie Excel - wprowadzenie Program MS Excel umożliwia
0 + 0 = 0, = 1, = 1, = 0.
5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego
Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Publikacja jest dystrybuowana bezpłatnie Program Operacyjny Kapitał Ludzki Priorytet 9 Działanie 9.1 Poddziałanie
Systemy i Sieci Telekomunikacyjne laboratorium. Modulacja amplitudy
Systemy i Sieci Telekomunikacyjne laboratorium Modulacja amplitudy 1. Cel ćwiczenia: Celem części podstawowej ćwiczenia jest zbudowanie w środowisku GnuRadio kompletnego, funkcjonalnego odbiornika AM.
Program szkolenia VBA (VISUAL BASIC FOR APPLICATIONS) W EXCELU PODSTAWOWY.
Program szkolenia VBA (VISUAL BASIC FOR APPLICATIONS) W EXCELU PODSTAWOWY SZKOLENIE JEST DLA OSÓB, KTÓRE: nigdy wcześniej nie programowały lub nie miały styczności z programowaniem od dłuższego czasu,
Zarządzanie bazą danych
-1- Kampania SMS Kampanie SMS to bardzo efektywne narzędzie marketingu bezpośredniego. Łączy w sobie prostotę i zwięzłość przekazu wraz z niemal stu procentową pewnością odebrania i przeczytania wiadomości
Program warsztatów CLARIN-PL
W ramach Letniej Szkoły Humanistyki Cyfrowej odbędzie się III cykl wykładów i warsztatów CLARIN-PL w praktyce badawczej. Narzędzia cyfrowe do analizy języka w naukach humanistycznych i społecznych 17-19
Jak przygotować pliki gotowe do publikacji w sieci za pomocą DigitLabu?
Jak przygotować pliki gotowe do publikacji w sieci za pomocą DigitLabu? Po zainstalowaniu DigitLabu na komputerze otrzymujemy pakiet programów niezbędnych do przygotowania cyfrowych wersji obiektów tekstowych.
Języki programowania zasady ich tworzenia
Strona 1 z 18 Języki programowania zasady ich tworzenia Definicja 5 Językami formalnymi nazywamy każdy system, w którym stosując dobrze określone reguły należące do ustalonego zbioru, możemy uzyskać wszystkie
Program szkolenia VBA (VISUAL BASIC FOR APPLICATIONS) W EXCELU PRZEKROJOWY.
Program szkolenia VBA (VISUAL BASIC FOR APPLICATIONS) W EXCELU PRZEKROJOWY SZKOLENIE JEST DLA OSÓB, KTÓRE: chcą podnieść swoje umiejętności pracy w języku VBA do poziomu średniozaawansowanego, nigdy wcześniej
Cechy karty dzwiękowej
Karta dzwiękowa System audio Za generowanie sygnału dźwiękowego odpowiada system audio w skład którego wchodzą Karta dźwiękowa Głośniki komputerowe Większość obecnie produkowanych płyt głównych posiada
Instrukcje dla zawodników
Płock, 17 marca 2018 r. Instrukcje dla zawodników Arkusze otwieramy na wyraźne polecenie komisji. Wszystkie poniższe instrukcje zostaną odczytane i wyjaśnione. 1. Arkusz składa się z 3 zadań. 2. Każde
Kampania FAX. Wybrane funkcjonalności: Definiowanie nagłówka. Personalizacja. Formaty PDF, Office i graficzne. Zapowiedź. Indywidualny numer telefonu
-1- Kampania FAX Kampanie FAX to efektywne i tanie narzędzie, nadal popularne i często wykorzystywane w komunikacji biznesowej. Bez względu na to, czy jest to oferta handlowa, formularz, zaproszenie czy
Word. Korespondencja seryjna
1 (Pobrane z slow7.pl) Korespondencja seryjnajestto taki sposób utworzenia jednolitego dokumentu, który będzie różnił się jedynie zawartością wybranych pól. Pola te będą automatycznie wypełniane przez
Zasady programowania Dokumentacja
Marcin Kędzierski gr. 14 Zasady programowania Dokumentacja Wstęp 1) Temat: Przeszukiwanie pliku za pomocą drzewa. 2) Założenia projektu: a) Program ma pobierać dane z pliku wskazanego przez użytkownika
Ćwiczenie: JavaScript Cookies (3x45 minut)
Ćwiczenie: JavaScript Cookies (3x45 minut) Cookies niewielkie porcje danych tekstowych, które mogą być przesyłane między serwerem a przeglądarką. Przeglądarka przechowuje te dane przez określony czas.
Excel - podstawa teoretyczna do ćwiczeń. 26 lutego 2013
26 lutego 2013 Ćwiczenia 1-2 Częste błędy i problemy: 1 jeżeli użyjemy niewłaściwego znaku dziesiętnego Excel potraktuje liczbę jak tekst - aby uniknać takich sytuacji używaj klawiatury numerycznej, 2
Podstawy informatyki. Informatyka stosowana - studia niestacjonarne. Grzegorz Smyk
Podstawy informatyki Informatyka stosowana - studia niestacjonarne Grzegorz Smyk Wydział Inżynierii Metali i Informatyki Przemysłowej Akademia Górniczo Hutnicza im. Stanisława Staszica w Krakowie, Materiał
Pracownia Informatyczna Instytut Technologii Mechanicznej Wydział Inżynierii Mechanicznej i Mechatroniki. Podstawy Informatyki i algorytmizacji
Pracownia Informatyczna Instytut Technologii Mechanicznej Wydział Inżynierii Mechanicznej i Mechatroniki Podstawy Informatyki i algorytmizacji wykład 1 dr inż. Maria Lachowicz Wprowadzenie Dlaczego arkusz
Analiza wyników egzaminu gimnazjalnego z języka obcego nowożytnego w roku szkolnym 2014/2015
Analiza wyników egzaminu gimnazjalnego z języka obcego nowożytnego w roku szkolnym 2014/2015 Analiza wyników egzaminu gimnazjalnego z języka angielskiego na poziomie podstawowym Arkusz składał się z 40
Transpozer czasowy mowy
Transpozer czasowy mowy Politechnika Gdańska ul. Narutowicza 11/12 80-233 Gdańsk www.pg.gda.pl 1. Wprowadzenie Transpozer czasowy mowy został opracowany w celu wspierania rozumienia mowy przez osoby z
Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne)
Korzystanie z podstawowych rozkładów prawdopodobieństwa (tablice i arkusze kalkulacyjne) Przygotował: Dr inż. Wojciech Artichowicz Katedra Hydrotechniki PG Zima 2014/15 1 TABLICE ROZKŁADÓW... 3 ROZKŁAD
Sprawozdanie z laboratoriów HTK
Inżynieria Akustyczna Technologia Mowy 2013 Jakub Antoniuk Sprawozdanie z laboratoriów HTK 1.Opis gramatyki System był projektowany w celu obsługi inteligentnych instalacji w domach. Istnieją systemy pozwalające
Voicer. SPIKON Aplikacja Voicer V100
Voicer SPIKON Aplikacja Voicer V100 SPIKON Voicer Aplikacja Voicer w platformie SPIKON dedykowana jest przede wszystkim konsultantom kampanii wirtualnego Call Center. Dając łatwy dostęp do najważniejszych
Trochę o plikach wsadowych (Windows)
Trochę o plikach wsadowych (Windows) Zmienne środowiskowe Zmienną środowiskową można ustawić na stałe w systemie (Panel sterowania->system- >Zaawansowane ustawienia systemu->zmienne środowiskowe) lub też
I. Gramatyka. Poniżej prezentowana jest realizowana gramatyka:
I. Gramatyka Celem projektu było opracowanie systemu rozpoznawania mowy korzystając z HTK. Stworzona gramatyka symulowała wizytę w kinie, tym samym więc zawierała informacje na temat rodzaju biletu wraz
Dokumentacja SMS przez FTP
Dokumentacja SMS przez FTP 1 Wprowadzenie... 2 Właściwości plików... 3 Tworzenie konfiguracji w Panelu Klienta... 4 Raporty doręczeń... 5 Historia zmian... 6 2 Wprowadzenie Usługa wysyłki SMS przez FTP
Technologie informacyjne: Arkusz kalkulacyjny
Wrocław, 11.05.2018 Technologie informacyjne: Arkusz kalkulacyjny Wydział Matematyki Politechniki Wrocławskiej Andrzej Giniewicz Dzisiaj na zajęciach... Podstawy korzystania z arkuszy kalkulacyjnych. 1/68
Bioinformatyka. Ocena wiarygodności dopasowania sekwencji.
Bioinformatyka Ocena wiarygodności dopasowania sekwencji www.michalbereta.pl Załóżmy, że mamy dwie sekwencje, które chcemy dopasować i dodatkowo ocenić wiarygodność tego dopasowania. Interesujące nas pytanie
Funkcje wyszukiwania i adresu PODAJ.POZYCJĘ
Funkcje wyszukiwania i adresu PODAJ.POZYCJĘ Mariusz Jankowski autor strony internetowej poświęconej Excelowi i programowaniu w VBA; Bogdan Gilarski właściciel firmy szkoleniowej Perfect And Practical;
Program szkolenia EXCEL W ANALIZACH DANYCH.
Program szkolenia EXCEL W ANALIZACH DANYCH SZKOLENIE JEST DLA OSÓB, KTÓRE: znają podstawy programu Microsoft Excel, w codziennej pracy wykorzystują Excel jako narzędzie analizy danych i chcą zgłębić posiadaną
Forte Zarządzanie Produkcją Instalacja i konfiguracja. Wersja B
Forte Zarządzanie Produkcją Instalacja i konfiguracja Wersja 2013.1.B Forte Zarządzanie Produkcją - Instalacja i konfiguracja Strona 2 z 13 SPIS TREŚCI 1 Instalacja i konfiguracja Forte Zarządzanie Produkcją...
Dla człowieka naturalnym sposobem liczenia jest korzystanie z systemu dziesiętnego, dla komputera natomiast korzystanie z zapisu dwójkowego
Arytmetyka cyfrowa Dla człowieka naturalnym sposobem liczenia jest korzystanie z systemu dziesiętnego, dla komputera natomiast korzystanie z zapisu dwójkowego (binarnego). Zapis binarny - to system liczenia
Łączenie liczb i tekstu.
Łączenie liczb i tekstu. 1 (Pobrane z slow7.pl) Rozpoczynamy od sposobu pierwszego. Mamy arkusz przedstawiony na rysunku poniżej w którym zostały zawarte wypłaty pracowników z wykonanym podsumowaniem.
Rozpoczynamy import Kreator uruchamiamy przyciskiem Z tekstu, znajdującym się na karcie Dane, w grupie Dane zewnętrzne.
2. Zadania praktyczne rozwiązywane z użyciem komputera 91 2. Zadania praktyczne rozwiązywane z użyciem komputera Wczytywanie danych Dane do zadań rozwiązywanych na komputerze zapisane są w plikach tekstowych.
Instrukcja obsługi programu SWWS autorstwa Michała Krzemińskiego
Instrukcja obsługi programu SWWS autorstwa Michała Krzemińskiego Krótkie informacje o programie można znaleźć zarówno w pliku readme.txt zamieszczonym w podkatalogu DANE jak i w zakładce O programie znajdującej
Program szkolenia EXCEL ŚREDNIOZAAWANSOWANY.
Program szkolenia EXCEL ŚREDNIOZAAWANSOWANY SZKOLENIE JEST DLA OSÓB, KTÓRE: znają podstawy programu Microsoft Excel, chcą przyspieszyć i usprawnić pracę oraz poszerzyć posiadaną już wiedzę z zakresu wprowadzania
PROBLEMY TECHNICZNE. Co zrobić, gdy natrafię na problemy związane z użytkowaniem programu DYSONANS
PROBLEMY TECHNICZNE Co zrobić, gdy natrafię na problemy związane z użytkowaniem programu DYSONANS Jeżeli stwierdziłeś występowanie błędów lub problemów podczas pracy z programem DYSONANS możesz skorzystać
Automatyczna klasyfikacja zespołów QRS
Przetwarzanie sygnałów w systemach diagnostycznych Informatyka Stosowana V Automatyczna klasyfikacja zespołów QRS Anna Mleko Tomasz Kotliński AGH EAIiE 9 . Opis zadania Tematem projektu było zaprojektowanie
Arkusz zawiera informacje prawnie chronione do momentu rozpoczęcia egzaminu.
Centralna Komisja Egzaminacyjna Arkusz zawiera informacje prawnie chronione do momentu rozpoczęcia egzaminu. Układ graficzny CKE 2010 KOD WPISUJE ZDAJĄCY PESEL EGZAMIN MATURALNY Z INFORMATYKI POZIOM PODSTAWOWY
Interpretacja Raportu badania pracy w Otwartym Systemie Antyplagiatowym (OSA)
Interpretacja Raportu badania pracy w Otwartym Systemie Antyplagiatowym (OSA) Uwagi ogólne Raport nie wskazuje jednoznacznie plagiatu System antyplagiatowy stanowi jedynie narzędzie wspomagające ocenę
Rozdział ten zawiera informacje o sposobie konfiguracji i działania Modułu OPC.
1 Moduł OPC Moduł OPC pozwala na komunikację z serwerami OPC pracującymi w oparciu o model DA (Data Access). Dzięki niemu można odczytać stan obiektów OPC (zmiennych zdefiniowanych w programie PLC), a
Skanowanie OCR w aplikacji Kancelaria Komornika. Instrukcja dla użytkownika
Skanowanie OCR w aplikacji Kancelaria Komornika Instrukcja dla użytkownika Spis treści 1. Zakładka Wyrażenia... 3 2. Zakładka Grupy wyrażeń... 5 3. Opcje Skanowania / OCR... 7 4. Rozpoznawanie Danych...
AKADEMIA MORSKA W SZCZECINIE WI-ET / IIT / ZTT. Instrukcja do zajęc laboratoryjnych nr 1 AUTOMATYZACJA I ROBOTYZACJA PROCESÓW PRODUKCYJNYCH
AKADEMIA MORSKA W SZCZECINIE WI-ET / IIT / ZTT Instrukcja do zajęc laboratoryjnych nr 1 AUTOMATYZACJA I ROBOTYZACJA PROCESÓW PRODUKCYJNYCH II rok Kierunek Logistyka Temat: Zajęcia wprowadzające. BHP stanowisk
Zadania semestralne. Programowanie obiektowe sem. II, lato 2014/2015
Programowanie obiektowe sem. II, lato 2014/2015 Zadania semestralne Założenia wspólne dla wszystkich tematów W programie muszą być zastosowane następujące techniki i technologie obiektowe: 1. kapsułkowanie,
PROGRAM SZKOLENIA. Excel w Analizach danych.
PROGRAM SZKOLENIA Excel w Analizach danych SZKOLENIE JEST DLA OSÓB, KTÓRE: znają podstawy programu Microsoft Excel, w codziennej pracy wykorzystują Excel jako narzędzie analizy danych i chcą zgłębić posiadaną
Zapisywanie algorytmów w języku programowania
Temat C5 Zapisywanie algorytmów w języku programowania Cele edukacyjne Zrozumienie, na czym polega programowanie. Poznanie sposobu zapisu algorytmu w postaci programu komputerowego. Zrozumienie, na czym
OpenAI Gym. Adam Szczepaniak, Kamil Walkowiak
OpenAI Gym Adam Szczepaniak, Kamil Walkowiak Plan prezentacji Programowanie agentowe Uczenie przez wzmacnianie i problemy związane z rozwojem algorytmów Charakterystyka OpenAI Gym Biblioteka gym Podsumowanie
% sumy wiersza nadrzędnego. % sumy kolumny nadrzędnej. % sumy elementu nadrzędnego. Porządkuj od najmniejszych do największych.
bieżąca w wyświetla wartości w kolejnych wierszach lub kolejnych kolumnach jako wartości skumulowane (w drugim wierszu wyświetla sumę wartości odpowiadających wierszom od do ; w wierszy od wiersza do,
Korpusy i Narzędzia do Analizy Mowy w Clarin-PL
1 / 21 Korpusy i w Clarin-PL Danijel Koržinek i Łukasz Brocki Polsko-Japońska Akademia Technik Komputerowych 3 lutego 2017 r., Łódź 2 / 21 3 / 21 Motywacja Brak darmowych ogólnodostępnych korpusów komercyjne:
Jak ustawić cele kampanii?
Jak ustawić cele kampanii? Czym są cele? Jest to funkcjonalność pozwalająca w łatwy sposób śledzić konwersje wygenerowane na Twojej stronie www poprzez wiadomości email wysłane z systemu GetResponse. Mierzenie
Lokalizacja Oprogramowania
mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji
Słowem wstępu. Część rodziny języków XSL. Standard: W3C XSLT razem XPath 1.0 XSLT Trwają prace nad XSLT 3.0
Słowem wstępu Część rodziny języków XSL Standard: W3C XSLT 1.0-1999 razem XPath 1.0 XSLT 2.0-2007 Trwają prace nad XSLT 3.0 Problem Zakładane przez XML usunięcie danych dotyczących prezentacji pociąga
Systemy multimedialne. Instrukcja 5 Edytor audio Audacity
Systemy multimedialne Instrukcja 5 Edytor audio Audacity Do sprawozdania w formacie pdf należy dołączyc pliki dźwiękowe tylko z podpunktu 17. Sprawdzić poprawność podłączenia słuchawek oraz mikrofonu (Start->Programy->Akcesoria->Rozrywka->Rejestrator
System IVR. Opis elementów systemu
System IVR Opis elementów systemu 1. Wstęp Na system IVR (IVR Pack) składają się następujące usługi: IVR Player, IVR Menu, IVR List, IVR Switch. Cennik usług IVR dostępny jest na stronie www.ipfon.pl.
Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych
dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo
TABLICA (ang. array) pojedyncza zmienna z wieloma komórkami, w których można zapamiętać wiele wartości tego samego typu danych.
Złożone typy danych - TABLICE TABLICA (ang. array) pojedyncza zmienna z wieloma komórkami, w których można zapamiętać wiele wartości tego samego typu danych. * Może przechowywać dowolny typ danych, typ
INŻYNIERIA BEZPIECZEŃSTWA LABORATORIUM NR 2 ALGORYTM XOR ŁAMANIE ALGORYTMU XOR
INŻYNIERIA BEZPIECZEŃSTWA LABORATORIUM NR 2 ALGORYTM XOR ŁAMANIE ALGORYTMU XOR 1. Algorytm XOR Operacja XOR to inaczej alternatywa wykluczająca, oznaczona symbolem ^ w języku C i symbolem w matematyce.
TECHNOLOGIA INFORMACYJNA
KATEDRASYSTEMÓWOBLICZENIOWYCH TECHNOLOGIA INFORMACYJNA 1. Podstawy Zajęcia opierają się na wykorzystaniu dostępnych zasobów sprzętowych (serwery) oraz rozwiązań programowych (platforma uczelniana, systemy
Nowa Netia administrator firmy Nagrywanie połączeń-zarządzanie
RBT API v2.3 Nowa Netia administrator firmy Nagrywanie połączeń-zarządzanie Spis treści I. WPROWADZENIE 2 II. OPIS FUNKCJONALNOŚCI..3 1. LOGOWANIE I ZMIANA HASŁA...3 1.1 LOGOWANIE..3 1.2 WIDOK PO ZALOGOWANIU...4
Skrócona instrukcja obsługi grupowego portalu głosowego
Skrócona instrukcja obsługi grupowego portalu głosowego Konfigurowanie portalu głosowego Do konfigurowania grupowego portalu głosowego służy interfejs internetowy Rysunek 1. Grupa Usługi Portal głosowy
L6.1 Systemy liczenia stosowane w informatyce
L6.1 Systemy liczenia stosowane w informatyce Projekt współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego Publikacja jest dystrybuowana bezpłatnie Program Operacyjny Kapitał
Algorytm. a programowanie -
Algorytm a programowanie - Program komputerowy: Program komputerowy można rozumieć jako: kod źródłowy - program komputerowy zapisany w pewnym języku programowania, zestaw poszczególnych instrukcji, plik
Projektowanie baz danych za pomocą narzędzi CASE
Projektowanie baz danych za pomocą narzędzi CASE Metody tworzenia systemów informatycznych w tym, także rozbudowanych baz danych są komputerowo wspomagane przez narzędzia CASE (ang. Computer Aided Software
SIGMA KWADRAT. Wykorzystanie programu MS Excel do opracowań statystycznych CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY
SIGMA KWADRAT CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY Wykorzystanie programu MS Excel do opracowań statystycznych PROJEKT DOFINANSOWANY ZE ŚRODKÓW NARODOWEGO BANKU POLSKIEGO URZĄD STATYSTYCZNY
Układy VLSI Bramki 1.0
Spis treści: 1. Wstęp... 2 2. Opis edytora schematów... 2 2.1 Dodawanie bramek do schematu:... 3 2.2 Łączenie bramek... 3 2.3 Usuwanie bramek... 3 2.4 Usuwanie pojedynczych połączeń... 4 2.5 Dodawanie
Programowanie w języku Python. Grażyna Koba
Programowanie w języku Python Grażyna Koba Kilka definicji Program komputerowy to ciąg instrukcji języka programowania, realizujący dany algorytm. Język programowania to zbiór określonych instrukcji i
Program szkolenia PODSTAWY VBA (VISUAL BASIC FOR APPLICATIONS) I FORMULARZE.
Program szkolenia PODSTAWY VBA (VISUAL BASIC FOR APPLICATIONS) I FORMULARZE SZKOLENIE JEST DLA OSÓB, KTÓRE: znają program Microsoft Excel na poziomie średniozaawansowanym, chcą poznać ogólne zasady tworzenia
PROGRAM SZKOLENIA. Excel Średniozaawansowany z wprowadzeniem do tabel przestawnych i makr.
PROGRAM SZKOLENIA Excel Średniozaawansowany z wprowadzeniem do tabel przestawnych i makr SZKOLENIE JEST DLA OSÓB, KTÓRE: znają podstawy programu Microsoft Excel, chcą przyspieszyć i usprawnić pracę oraz
Zakład Usług Informatycznych OTAGO
Zakład Usług Informatycznych OTAGO Opis konstrukcji Wirtualnego Numeru Rachunku dotyczący płatności masowych wersja 1.4 autor: Tomasz Rosochacki Gdańsk, 2012-11-27 Spis treści 1. Wprowadzenie.... 3 2.
Przebieg egzaminu oraz ogólna charakterystyka poszczególnych zadań są przedstawione w Tabeli 3.
Część ustna (bez określania poziomu) 11 1.2. Część ustna (bez określania poziomu) Celem części ustnej egzaminu maturalnego z języka obcego nowożytnego jest ocena sprawności mówienia, rozumianej jako kompetencja
5.5. Wybieranie informacji z bazy
5.5. Wybieranie informacji z bazy Baza danych to ogromny zbiór informacji, szczególnie jeśli jest odpowiedzialna za przechowywanie danych ogromnych firm lub korporacji. Posiadając tysiące rekordów trudno
EGZAMIN MATURALNY Z INFORMATYKI
ARKUSZ ZAWIERA INFORMACJE PRAWNIE CHRONIONE DO MOMENTU ROZPOCZĘCIA EGZAMINU! Miejsce na naklejkę EGZAMIN MATURALNY Z INFORMATYKI POZIOM ROZSZERZONY Instrukcja dla zdającego CZĘŚĆ II Czas pracy 50 minut.
Opis metody pracy Komisji podczas Kwalifikacji TestingCup 2017
Opis metody pracy Komisji podczas Kwalifikacji TestingCup 2017 -------------------------MANIFEST------------------------- Komisja w ocenie prac kieruje się następującymi przesłankami: - defekty funkcjonalne
Konfiguracja parametrów pozycjonowania GPS 09.05.2008 1/5
Konfiguracja parametrów pozycjonowania GPS 09.05.2008 1/5 Format złożonego polecenia konfigurującego system pozycjonowania GPS SPY-DOG SAT ProSafe-Flota -KGPS A a B b C c D d E e F f G g H h I i J j K
Metoda Karnaugh. B A BC A
Metoda Karnaugh. Powszechnie uważa się, iż układ o mniejszej liczbie elementów jest tańszy i bardziej niezawodny, a spośród dwóch układów o takiej samej liczbie elementów logicznych lepszy jest ten, który
Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst
Zaawansowany system automatycznego rozpoznawania i przetwarzania mowy polskiej na tekst Mariusz Owsianny, PCSS Dr inż. Ewa Kuśmierek, Kierownik Projektu, PCSS Partnerzy konsorcjum Zaawansowany system automatycznego
PRÓBNY EGZAMIN MATURALNY Z INFORMATYKI
PRÓBNY EGZAMIN MATURALNY Z INFORMATYKI POZIOM PODSTAWOWY Arkusz II Instrukcja dla zdającego 1. Sprawdź, czy arkusz egzaminacyjny zawiera 6 stron (zadania 4 6) i czy dołączony jest do niego nośnik danych
Program szkolenia EXCEL OD PODSTAW POPOŁUDNIOWY (WIECZOROWY)
Program szkolenia EXCEL OD PODSTAW POPOŁUDNIOWY (WIECZOROWY) SZKOLENIE JEST DLA OSÓB, KTÓRE: nie znają programu Microsoft Excel lub znają go w nieznacznym stopniu, chcą nauczyć się podstawowych poleceń
PRZEWODNIK PO PRZEDMIOCIE
Nazwa przedmiotu: Podstawy Informatyki Basic Informatics Kierunek: Zarządzanie i Inżynieria Produkcji Rodzaj przedmiotu: ogólny Poziom studiów: studia I stopnia forma studiów: studia stacjonarne Rodzaj
LeftHand Sp. z o. o.
LeftHand Sp. z o. o. Producent oprogramowania finansowo-księgowe, handlowego i magazynowego na Windows i Linux Instrukcja rejestracji wersji testowej programu LeftHand Ten dokument ma na celu przeprowadzić
3.1. Na dobry początek
Klasa I 3.1. Na dobry początek Regulamin pracowni i przepisy BHP podczas pracy przy komputerze Wykorzystanie komputera we współczesnym świecie Zna regulamin pracowni i przestrzega go. Potrafi poprawnie
Wprowadzenie do programowania w języku Visual Basic. Podstawowe instrukcje języka
Wprowadzenie do programowania w języku Visual Basic. Podstawowe instrukcje języka 1. Kompilacja aplikacji konsolowych w środowisku programistycznym Microsoft Visual Basic. Odszukaj w menu startowym systemu
Techniki multimedialne
Techniki multimedialne Digitalizacja podstawą rozwoju systemów multimedialnych. Digitalizacja czyli obróbka cyfrowa oznacza przetwarzanie wszystkich typów informacji - słów, dźwięków, ilustracji, wideo
AKADEMIA GÓRNICZO-HUTNICZA im. Stanisława Staszica w Krakowie. Wydział Geologii, Geofizyki i Ochrony Środowiska. Bazy danych 2
AKADEMIA GÓRNICZO-HUTNICZA im. Stanisława Staszica w Krakowie Wydział Geologii, Geofizyki i Ochrony Środowiska Wydajnośd w bazach danych Grzegorz Surdyka Informatyka Stosowana Kraków, 9 Spis treści. Wstęp...
Podstawy programowania. Wykład Funkcje. Krzysztof Banaś Podstawy programowania 1
Podstawy programowania. Wykład Funkcje Krzysztof Banaś Podstawy programowania 1 Programowanie proceduralne Pojęcie procedury (funkcji) programowanie proceduralne realizacja określonego zadania specyfikacja
Przedmiotowy System Oceniania z zajęć komputerowych w klasach IV - VI
Przedmiotowy System Oceniania z zajęć komputerowych w klasach IV - VI Obszary aktywności ucznia w zakresie wiedzy, umiejętności i postaw, będące przedmiotem oceny Z uwagi na charakter przedmiotu jedną
Kolumna Zeszyt Komórka Wiersz Tabela arkusza Zakładki arkuszy
1 Podstawowym przeznaczeniem arkusza kalkulacyjnego jest najczęściej opracowanie danych liczbowych i prezentowanie ich formie graficznej. Ale formuła arkusza kalkulacyjnego jest na tyle elastyczna, że
Po uruchomieniu programu nasza litera zostanie wyświetlona na ekranie
Część X C++ Typ znakowy służy do reprezentacji pojedynczych znaków ASCII, czyli liter, cyfr, znaków przestankowych i innych specjalnych znaków widocznych na naszej klawiaturze (oraz wielu innych, których
TRX API opis funkcji interfejsu
TRX Krzysztof Kryński Cyfrowe rejestratory rozmów seria KSRC TRX API opis funkcji interfejsu Kwiecień 2013 Copyright TRX TRX ul. Garibaldiego 4 04-078 Warszawa Tel. 22 871 33 33 Fax 22 871 57 30 www.trx.com.pl
2 Zarówno zanonimizowany zbiór danych ilościowych, jak i opis jego struktury powinny mieć format csv:
Zbiór danych ilościowych: 1 Na każdą "bazę danych" składa się zanonimizowany zbiór danych ilościowych zebranych w badaniu oraz opis jego struktury (codebook). 2 Zarówno zanonimizowany zbiór danych ilościowych,
Makropolecenia w Excelu
Makropolecenia w Excelu Trochę teorii Makropolecenie w skrócie nazywane makro ma za zadanie automatyczne wykonanie powtarzających się po sobie określonych czynności. Na przykładzie arkusza kalkulacyjnego