Modelowanie iloczasu głoskowego na potrzeby syntezy mowy polskiej

Wielkość: px
Rozpocząć pokaz od strony:

Download "Modelowanie iloczasu głoskowego na potrzeby syntezy mowy polskiej"

Transkrypt

1 UNIWERSYTET IM. ADAMA MICKIEWICZA W POZNANIU WYDZIAŁ NEOFILOLOGII Katarzyna Francuzik Modelowanie iloczasu głoskowego na potrzeby syntezy mowy polskiej rozprawa doktorska Promotor: Prof. dr hab. inż. Grażyna Demenko Recenzenci: Prof. dr hab. Irena Sawicka Dr hab. inż. Stefan Grocholewski POZNAŃ 2006

2 Spis treści 1.WPROWADZENIE PRZEGLĄD BADAŃ NAD ILOCZASEM GŁOSKOWYM UWARUNKOWANIA ARTYKULACYJNE I FONETYCZNO-AKUSTYCZNE ILOCZASU PERCEPCJA ILOCZASU BADANIA NAD ILOCZASEM GŁOSKOWYM DLA JĘZYKA POLSKIEGO MODELOWANIE ILOCZASU GŁOSKOWEGO NA POTRZEBY SYNTEZY MOWY. WYBRANE MODELE ILOCZASOWE OPISYWANE W LITERATURZE Model oparty na regułach Klatt a Drzewa analizy i regresji (CART) Sieci neuronowe Inne modele ILOCZASOWA BAZA DANYCH WPROWADZENIE KORPUS TEKSTÓW I NAGRAŃ Zbiór A (główny) Zbiory B i C (dodatkowe) TRANSKRYPCJA I SEGMENTACJA NAGRAŃ Zastosowana transkrypcja Segmentacja i etykietyzacja nagrań OPRACOWANIE BAZY DANYCH STATYSTYCZNY OPIS CZYNNIKÓW WARUNKUJĄCYCH ILOCZAS GŁOSKOWY WPROWADZENIE ROZKŁADY WARTOŚCI ILOCZASU ILOCZAS WŁAŚCIWY SAMOGŁOSEK ILOCZAS WŁAŚCIWY SPÓŁGŁOSEK SĄSIEDZTWO GŁOSKOWE W STRUKTURZE SEGMENTALNEJ WYPOWIEDZI

3 4.5.1.Kontekst następujący Kontekst poprzedzający BUDOWA SYLABY DŁUGOŚĆ WYRAZU AKCENT Akcent wyrazowy Akcent frazowy STOPA RYTMICZNA TEMPO MOWY DRZEWA ANALIZY I REGRESJI (CART) WYKORZYSTANY ZBIÓR CECH WYNIKI ANALIZY UŻYTECZNOŚCI CECH Z ZASTOSOWANIEM FUNKCJI KROKOWEJ KORELACJA INDYWIDUALNA POSZCZEGÓLNYCH CZYNNIKÓW SIECI NEURONOWE UWAGI WSTĘPNE PRZEWIDYWANIE ILOCZASU Z UŻYCIEM SIECI NEURONOWYCH Trening sieci ZASTOSOWANIA WYNIKÓW BADAŃ NAD ILOCZASEM GŁOSKOWYM SYSTEM SYNTEZY MOWY BOSS INNE ZASTOSOWANIA PODSUMOWANIE ZAŁĄCZNIKI MATERIAŁ TEKSTOWY INDEKS TABEL INDEKS ILUSTRACJI BIBLIOGRAFIA

4 1. WPROWADZENIE Przedmiotem rozprawy 1 jest badanie zagadnień związanych z uwarunkowaniami rządzącymi iloczasem głoskowym w polskiej mowie ciągłej. Wcześniejsze badania w tej dziedzinie opierały się głównie na materiale złożonym z izolowanych wyrazów lub logatomów, poniższa praca stanowi zatem w tym względzie próbę uzupełnienia istniejącej luki. Modelowanie iloczasu głoskowego na potrzeby syntezy mowy jest jednym z elementów składowych złożonego procesu modelowania prozodii. Dążenie do uzyskania naturalnego brzmienia mowy syntetycznej wyraża się w próbach jednoczesnego modelowania parametrów dla możliwie największej liczby elementów, wśród których za najważniejsze uznaje się: częstotliwość podstawową, intensywność sygnału, strukturę czasową (będącą głównym przedmiotem zainteresowania obecnej rozprawy) oraz cechy osobnicze głosu mówcy. Cechy prozodyczne podlegają zwykle modelowaniu na kilku poziomach, począwszy od własności poszczególnych głosek, wzajemnego wpływu sąsiedztwa głoskowego w strukturze segmentalnej oraz relacji z jednostkami wyższego poziomu, poprzez zjawiska zachodzące na poziomie sylaby, wyrazu, innych jednostek struktury rytmicznej wypowiedzi (takich jak stopa rytmiczna czy zestrój akcentowy), po cechy związane z rodzajem tekstu, typem dyskursu oraz z osobowością i nastawieniem emocjonalnym mówców. Z tego powodu niniejsza rozprawa, mimo że, jak określono w tytule, dotyczy czasu trwania jednostek najniższego poziomu, czyli segmentów głoskowych, zajmuje się również po części zjawiskami zachodzącymi na wyższych poziomach organizacji wypowiedzi, przy czym niektóre z tych zjawisk okazują się mieć znaczący wpływ na segmentalną charakterystykę czasową mowy. 1 Badania były finansowane przez Komitet Badań Naukowych (Projekt promotorski nr 2 H01D ) 4

5 Nadanie odpowiednich wartości iloczasu głoskowego jest jednym z niezbędnych warunków uzyskania naturalnego brzmienia mowy syntetycznej. W tym celu wymagana jest analiza czynników wpływających na iloczas i ich wykorzystanie w sformalizowanym modelu iloczasowym. Działanie takiego modelu polega na przewidywaniu czasu trwania segmentów mowy na podstawie informacji lingwistycznej uzyskanej ze zwykłego zapisu tekstowego. Jakość danego modelu i, co za tym idzie, jakość syntetyzowanej mowy, zależy od dokładności odzwierciedlenia związków między informacją lingwistyczną z tekstu a rzeczywistym czasem trwania segmentów w naturalnej mowie. Podstawowym zadaniem, z którym należy się zmierzyć w celu przygotowania modelu iloczasowego, jest więc sporządzenie opisu i analiza tych związków. W pracach prowadzonych obecnie nad przygotowaniem informacji lingwistycznych dla potrzeb syntezy mowy, najczęściej stosuje się metody sztucznej inteligencji, wykorzystujące analizę statystyczną dużych zbiorów danych, umożliwiające automatyczną konstrukcję modeli. We wcześniejszych latach opierano się przede wszystkim na drobiazgowej analizie lingwistycznej mniejszych zbiorów materiału akustycznego, przy czym ograniczenie rozmiarów korpusów podyktowane było przede wszystkim ówczesnymi uwarunkowaniami sprzętowymi. Podstawową jednostką wybieraną dla modelowania iloczasu głoskowego jest zazwyczaj fonem (w praktyce - jego realizacje głoskowe), bywa nią też tzw. difon (segment złożony z dwóch sąsiadujących segmentów głoskowych) (Olaszy, 2002) lub trifon (połączenie trójki segmentów głoskowych) (Zeljkovic, Narayanan, 1996; Huang et al., 2002) lub też sylaba czy wyraz (Campbell, 1992; Ramana, V., Gadde, 2000); w niektórych modelach dla systemów syntezy stosuje się kilka rodzajów jednostek. Tezą niniejszej pracy jest stwierdzenie, że iloczas głoskowy podlega modyfikacjom wynikającym z uwarunkowań segmentalnych, jak również suprasegmentalnych. W większości opublikowanych prac dotyczących iloczasu w języku polskim koncentrowano się na roli uwarunkowań tego pierwszego rodzaju. W 5

6 niniejszej rozprawie zwrócono szczególną uwagę na wpływ cech suprasegmentalnych, związanych z intonacyjno-rytmiczną strukturą frazy. Dla języka polskiego całościowa analiza tego zagadnienia nie została do tej pory przeprowadzona, zwłaszcza dla cech mowy ciągłej, w oparciu o obszerny zbiór danych. Praca nie wyczerpuje całości tematu od strony teoretyczno-językoznawczej, ponieważ głównym jej założeniem było opracowanie danych dotyczących iloczasu głoskowego w taki sposób, aby mogły posłużyć jako podstawa do stworzenia algorytmu predykcji iloczasu w konkretnym zastosowaniu w systemie syntezy polskiej mowy ciągłej. Mniej uwagi poświęcono zatem teoretycznej części pracy, koncentrując się na stronie praktycznej. Wyniki opracowano, posługując się nowoczesnymi narzędziami analizy spektrograficznej, oprogramowaniem do automatycznej segmentacji i transkrypcji nagrań oraz statystycznej analizy i eksploracji danych. Wyniki analiz prezentowane w rozprawie posłużyły jako podstawa opracowania algorytmu przewidywania iloczasu dla komponentu prozodycznego w systemie syntezy mowy BOSS adaptowanym dla języka polskiego na Uniwersytecie w Bonn. Dokonano też próby modelowania iloczasu za pomocą sieci neuronowych, uzyskując sieć o dobrej jakości predykcji. Zawartość rozprawy jest następująca: w rozdziale drugim podano w krótkiej formie najważniejsze informacje na temat istniejącego stanu badań nad iloczasem głoskowym na potrzeby syntezy mowy, przedstawiając na przykładach wybranych publikacji opis czynników potencjalnie modyfikujących czas trwania głosek. Niżej w tym samym rozdziale przedstawiono wybrane aspekty związane z percepcją iloczasu, co dla potrzeb syntezy ma znaczenie w tym sensie, że wartości progowe postrzegania powinny być uwzględnione przy określaniu pożądanej dokładności syntezy. Następnie naszkicowano obraz badań nad iloczasem głoskowym prowadzonych dotychczas dla języka polskiego, ze szczególnym uwzględnieniem badań na potrzeby technologii mowy. Zaprezentowano wybrane modele iloczasowe 6

7 formułowane dla różnych języków, przy czym wybrano te, które wywarły największy wpływ na dotychczasowy stan wiedzy w tej dziedzinie, począwszy od badań sięgających lat siedemdziesiątych ubiegłego stulecia czy nawet wcześniejszych, po badania prowadzone obecnie. Rozdział 3 zawiera szczegółowy opis bazy danych, z której zaczerpnięto materiał dla analizy iloczasu głoskowego. Opisano w nim wykorzystany inwentarz tekstów, przedstawiono sposób przygotowania ich do automatycznej segmentacji i transkrypcji oraz przebieg manualnej weryfikacji segmentacji i transkrypcji. W rozdziale 4 zawarto charakterystykę rozkładów zmiennych, podstawowe statystyki i średnie oraz wyniki analizy istotności statystycznej wpływu poszczególnych czynników na iloczas głoskowy. Następnie sformułowano zbiór reguł opisujących czynniki warunkujące zmienność iloczasu głoskowego. W kolejnych dwóch rozdziałach zawarto opis eksperymentów wykorzystujących dwie, często stosowane we współczesnych badaniach metody eksploracji danych: drzewa analizy i regresji (CART) oraz sieci neuronowe. Następnie dokonano porównania uzyskanych wyników, po czym podano przykłady możliwych zastosowań praktycznych dla tego rodzaju analiz (rozdział 7). Rozdział 8 stanowi podsumowanie. Na końcu zamieszczono załączniki, spisy tabel i ilustracji oraz wykaz odnośników bibliograficznych. 7

8 2. PRZEGLĄD BADAŃ NAD ILOCZASEM GŁOSKOWYM Charakterystyka dźwięków mowy w aspekcie ich czasu trwania może dotyczyć mechanizmów fizjologicznych związanych z produkcją mowy, ich reprezentacji akustycznej oraz percepcyjnej, jak również funkcji lingwistycznej zjawisk iloczasowych UWARUNKOWANIA ARTYKULACYJNE I FONETYCZNO-AKUSTYCZNE ILOCZASU W niektórych językach, takich jak koreański, niemiecki czy fiński iloczas występuje w roli dystynktywnej cechy fonologicznej, związanej z opozycją samogłosek długich i krótkich, służąc do różnicowania znaczeń. Na przykład w niemieckich parach wyrazów Bahn - Bann (pociąg - klątwa) czy Saat-satt (ziarno syty, nasycony) jedyne zróżnicowanie w wymowie polega na użyciu długiej bądź krótkiej samogłoski. Z kolei w języku koreańskim, w którym formalnie taka opozycja istnieje, obserwuje się tendencję do coraz rzadszego różnicowania znaczeń za pomocą iloczasu głoskowego. Stosują ten zabieg raczej mówcy starsi (powyżej 50 roku życia), podczas gdy w wymowie młodszych osób iloczas stał się w zasadzie wyłącznie środkiem prozodycznym (Szalkowska, 2005). Dla dawnej polszczyzny (do XVI w.) stwierdza się funkcjonowanie tej cechy i opisuje jej proces zaniku, natomiast we współczesnym języku polskim w zasadzie nie występuje opozycja fonologiczna iloczasu (por. np. Długosz-Kurczabowa, Dubisz, 2001). Poza tym, że czas trwania segmentów mowy pełni niekiedy rolę czynnika mogącego rozróżniać znaczenia, jest on również cechą dźwięków mowy silnie modyfikowaną przez kontekst i w tym znaczeniu stanowi temat niniejszego opracowania. Iloczas uznaje się za jedną z głównych cech prozodii mowy, obok intensywności sygnału oraz wysokości tonu. Dodać należy, iż na cechy prozodyczne wpływają również w określonym stopniu osobnicze cechy głosu mówcy oraz jego stan emocjonalny w momencie mówienia, tempo mowy i styl wypowiedzi. 8

9 Własności iloczasowe i w ogóle prozodyczne mogą być przedmiotem obserwacji na różnych poziomach reprezentacji, co pociąga za sobą równoległe funkcjonowanie różnego rodzaju terminologii. Mówi się zatem o poziomie fonetycznym (iloczas, częstotliwość podstawowa f 0, intensywność sygnału mowy), o poziomie fonologicznym (rytm, melodia, głośność), poziomie lingwistycznym (akcentuacja i struktura frazowa związane z systemem prominencji), a w końcu o poziomie percepcyjnym (długość, wysokość tonu oraz postrzegana głośność) (Lehiste, 1970, str. 1-5, Riedi, 1998, str. 4-5). W obecnym opracowaniu używa się głównie terminów odnoszących się do poziomu fonetycznego, ale także lingwistycznego i fonologicznego, przy okazji analizy uwarunkowań związanych z intonacyjno-rytmiczną strukturą frazy. W związku z tym, że cechy prozodii współwystępują w mowie, nieuniknione jest, iż w pracy dotyczącej jednej z takich cech częściowo zajmować będziemy się także pozostałymi (w aspekcie ich ewentualnych interakcji z cechą badaną). Jednym z czynników wpływających na strukturę czasową wypowiedzi są ograniczenia czasowe ruchów artykulacyjnych towarzyszące ich produkcji. Ograniczenia te nie mają wprawdzie charakteru całkowicie determinującego, nie można jednak tego wpływu pominąć. Szybkość wypowiadanych sekwencji artykulacyjnych ma związek z rozmiarami organów mowy biorących udział w wytwarzaniu konkretnych dźwięków (na przykład sekwencje wypowiadane z użyciem przodu języka są przeciętnie szybsze, niż te z użyciem tylnej części języka, języczka czy warg). W eksperymencie przeprowadzonym przez Lehiste (1970, str. 7, 8) wykazano ponadto, że wpływ na prędkości wypowiadanych sekwencji artykulacyjnych mają komendy nerwowe. Oscylacje języka powstające przy produkcji [r] okazały się ponad trzy razy szybsze aniżeli te, które towarzyszą produkcji [t], mimo że oba dźwięki powstają z użyciem tego samego organu artykulacyjnego (przodu języka). Fizycznym odpowiednikiem uwarunkowań czasowych sekwencji artykulacyjnych jest wymiar czasu sygnału akustycznego powstającego w produkcji mowy. Jako że sygnał akustyczny zmienia się w czasie - 9

10 częstotliwość dźwięków jest funkcją czasu, musi on być analizowany z uwzględnieniem tejże zmienności. Z artykulacyjnymi uwarunkowaniami czasu trwania głosek związane jest pojęcie iloczasu właściwego, czyli specyficznego czasu trwania charakterystycznego dla określonych dźwięków mowy. Czynnikiem mającym znaczący wpływ na iloczas właściwy samogłosek jest położenie języka; często obserwowaną prawidłowością jest krótszy czas trwania samogłosek wysokich w stosunku do samogłosek niskich (w badaniach, gdzie inne potencjalnie modyfikujące czynniki są utrzymane na stałym poziomie). Dla języka polskiego taką tendencję potwierdziła np. Richter (1973), podobną tendencję zauważono również dla innych języków, na przykład dla angielskiego (Lehiste, Peterson, 1960) czy tajskiego (Abramson, 1962; cyt. za Lehiste 1970). Na wyjaśnienie tego zjawiska wysunięto hipotezę, iż samogłoski o większym stopniu otwarcia są zwykle dłuższe z powodu konieczności wykonania większej pracy przez narządy artykulacyjne. Fisher-Jorgensen (1964; cyt. za Lehiste, 1970) wysuwa tezę, że komendy motoryczne co do czasu trwania samogłosek są niezależne od tego, której samogłoski dotyczą, a różnice w wykonaniu tych komend wynikają z opóźnień związanych ruchami artykulacyjnymi koniecznymi do wyartykułowania poszczególnych głosek. Iloczas głoskowy powinien być traktowany jako cecha uwarunkowana segmentalnie oraz suprasegmentalnie. Na poziomie segmentalnym największy wpływ na czas trwania głosek, poza cechami specyficznymi dla samej głoski, przypisywany jest rodzajowi otoczenia głoskowego oraz jego cechom artykulacyjnym. Jeśli chodzi o samogłoski, to często wzmiankowaną relacją jest zależność iloczasu samogłoski od obecności lub braku dźwięczności w spółgłosce postwokalicznej. Wielu badaczy mówi o prawidłowości polegającej na wydłużaniu samogłosek w pozycji przed spółgłoską dźwięczną (np. Klatt, 1976 dla języka angielskiego; Richter, 1973 dla polskich logatomów), choć nie jest to tendencja potwierdzana jednoznacznie we wszystkich badaniach, co stwierdzają na przykład w nowszych badaniach G. Olaszy, 2002 dla języka węgierskiego, czy też N. Campbell, 10

11 1992, który wprawdzie odnotował występowanie tego rodzaju wzdłużenia w niektórych kontekstach w języku angielskim, ale istotność statystyczna tego zjawiska okazała się w jego badaniu niska. Poza tym wystąpienie głoski w pozycji poprzedzającej pauzę powoduje znaczące wzdłużenie tej głoski (ww. autorzy, a także Imiołczyk et al., 1994). Zależność iloczasu samogłosek od miejsca artykulacji następującej po nich spółgłoski jest kolejną często wzmiankowaną prawidłowością. Już w 1954 roku Maack wysunął hipotezę, że im bardziej odległe jest docelowe miejsce artykulacji spółgłoski od miejsca artykulacji poprzedzającej ją samogłoski, tym dłuższy jest czas trwania samogłoski (Maack, 1953, cyt. za Lehiste, 1970). Często stwierdza się, że samogłoski są najkrótsze przed głoskami labialnymi takimi jak [p], [b], [f] czy [v], w produkcji których mały udział ma jeden z najważniejszych dla samogłosek narząd artykulacyjny: język. W związku z powyższym, przy wymawianiu tego rodzaju sekwencji nie występuje tak duża zwłoka wynikająca ze zmiany układu masy języka, jak ma to na przykład miejsce przy wypowiadaniu połączeń samogłosek ze spółgłoskami [d], [t], [S] czy też [Z] (potwierdzają to na przykład wyniki przedstawione w różnych pracach (np. Lehiste, Peterson, 1960 czy Fisher-Jorgensen, 1964)). Cechą suprasegmentalną, dla której w wielu językach stwierdzono współzależność z iloczasem głoskowym jest akcent. Zakłada się, ze akcent obejmuje zwykle całą sylabę, przy czym sylaby akcentowane są z zasady dłuższe od swych nieakcentowanych odpowiedników. Z jednej strony obecność akcentu może powodować zmianę długości segmentów, a z drugiej iloczas może stanowić jeden z wykładników fonetycznych akcentu. W języku angielskim wielkość wzdłużenia stąd wynikającego może sięgać nawet 50%, jak zbadali Parmenter i Trevin io (1935, cyt. za Lehiste, 1970). W języku polskim iloczas wydaje się być uzależniony od akcentu w mniejszym stopniu, i w sposób mniej systematyczny. Głoski akcentowane są przeciętnie o około ¼ dłuższe niż nie akcentowane (Jassem, 1962).Istnieją jednak języki, w których nie obserwuje się korelacji akcentu i iloczasu głoskowego lub korelacja ta jest bardzo słaba, do takich języków należą na przykład języki czeski, 11

12 estoński i fiński (Lehiste, 1970, str. 36), a wykładnikami akcentu są wówczas inne parametry (częstotliwość podstawowa, natężenie dźwięku). Uwarunkowania suprasegmentalne iloczasu głoskowego polegają również na jego zależności od umiejscowienia danej głoski w obrębie jednostek na wyższym poziomie struktury wypowiedzi: sylabie, wyrazie, frazie intonacyjnej. Według niektórych opracowań uwarunkowania tego rodzaju w mowie ciągłej są na tyle silne, że badanie iloczasu głoskowego w ścisłym związku z wyższymi poziomami organizacji wypowiedzi jest niezbędne. Takim założeniem kierował się np. N. Campbell (1992), proponując metodę modelowania iloczasu głoskowego opartą na sylabie, jako jednostce nadrzędnej wobec jej segmentów składowych i warunkującej ich czas trwania (więcej na ten temat napisano niżej, w rozdziale 2.4.3). Z kolei Batusek (2002), w eksperymencie, w którym jako metoda posłużyły drzewa decyzyjne, potwierdza wpływ długości wyrazu (obliczonej w głoskach i w sylabach) na iloczas głoskowy: czas trwania głosek składowych skraca się wraz ze wzrostem długości wyrazu. Wartości iloczasu głoskowego podlegają modyfikacjom także zależnie od rodzaju innych jednostek wyższego rzędu, do których należą. W. Jassem donosi o występowaniu w języku angielskim, a także, w mniejszym nasileniu, w języku polskim, reguły izochronizmu zestrojowego, polegającej na wyrównywaniu czasu trwania zestroju akcentowego bez względu na liczbę sylab lub głosek (np. Jassem et al., 1978; Jassem et al., 1981). Zestrojem akcentowym może być wyraz akcentowany lub kilka wyrazów, z których jeden tylko jest akcentowany. W swoich publikacjach Jassem wyróżnia także tzw. anakruzę, niepełną jednostkę rytmiczną, która poprzedza pierwszą sylabę akcentowaną. Inną kwestią związaną z istnieniem reguły izochronizmu jest podział języków, na takie, w których struktura czasowa oparta jest na akcencie (ang. stresstimed languages) i takie, gdzie podstawowa jednostka rytmu to sylaba (ang. syllable-timed languages) (Pike, 1945, cyt. za: Roach, 1982). W części publikowanych opracowań kwestionuje się jednak czy wręcz zaprzecza 12

13 funkcjonowaniu takiego rozróżnienia lub też przenosi je raczej do sfery percepcyjnej, aniżeli produkcyjnej (Lehiste, 1977; Roach, 1982; Gibbon, Gut, 2001). Dennis Klatt w artykule opublikowanym w 1976 roku podsumował klasyfikację czynników modyfikujących iloczasową strukturę zdania w języku angielskim. Przygotowana przez niego lista stała się podstawą stworzenia jednego z pierwszych i najbardziej wpływowych modeli iloczasowych (temu modelowi więcej miejsca poświęcono w następnym rozdziale). Klasyfikacja ta jest następująca: czynniki fizjologiczne (tzw. nieściśliwość, wartości minimalne iloczasu niezbędne dla wykonania ruchów artykulacyjnych), czynniki fonologiczno-fonetyczne (tzw. iloczas właściwy, akcent językowy, wpływ spółgłoski postwokalicznej, współzależności segmentalne, np. w zbitkach spółgłoskowych), czynniki zależne od umiejscowienia głoski w wyrazie (wydłużenie na końcu wyrazu), syntaktyczne (wydłużenie związane ze strukturą frazy), semantyczne (emfaza, nowość semantyczna), czynniki związane z poziomem dyskursu (pozycja w obrębie paragrafu), czynniki pozajęzykowe (nastawienie mówcy, tempo mowy), Wymieniając listę czynników wpływających na iloczas należałoby dodatkowo podkreślić znaczenie czynników intonacyjno-rytmicznych (m.in. Klatt, 1987). Dla języka polskiego podobną systematyzację przedstawiono w publikacji Imiołczyk et al., 1994 (por. rozdział 2.3). W związku z tym, że dla wielu języków rozwiązano już w zadowalającym stopniu praktyczne problemy związane z strukturą segmentalną wypowiedzi, nowsze badania koncentrują się często na zagadnieniach związanych ze szczegółową analizą ostatnich elementów cytowanej listy, np. tempa mowy i relacji tempa z rytmem mowy (Smith, 2002; Zee, 2002; Dellwo, Wagner, 2003), różnego rodzaju redukcjami obserwowanymi w mowie ciągłej, dotyczącymi np. elizji niektórych głosek (Davidson, L. (w przygotowaniu)). Ponadto bada się czynniki oddziałujące na 13

14 iloczas w mowie spontanicznej, a więc odnoszące się do cech mowy charakteryzujących się raczej nieregularnym charakterem, choć często występujących w sposób powtarzalny (np. Campbell, 2006). W procesie modelowania wartości iloczasu pojawiają się utrudnienia wynikające z jednej strony z dużej liczby czynników mogących modyfikować jego wartość, a z drugiej z wzajemnego oddziaływania czynników, co może utrudniać stwierdzenie, który z nich i w jakim stopniu odpowiada za wydłużenie czy skrócenie czasu trwania segmentu (na przykład wpływ akcentu, padającego na sylabę na iloczas spółgłosek w języku angielskim, uzależniony jest jednocześnie od położenia tej spółgłoski w wyrazie i jej miejsca artykulacji (V. Santen, 1993; V. Son, V. Santen, 1997)). Wielość czynników i przyjmowanych przez nie wartości oraz ich wzajemne oddziaływania pociągają za sobą możliwość występowania w rezultacie bardzo dużej liczby kombinacji tych wartości, w tym również znaczącej grupy kombinacji rzadkich, co może dodatkowo zakłócać statystyki, gdyż mimo że prawdopodobieństwo wystąpienia poszczególnych rzadkich kombinacji może być niskie, to prawdopodobieństwo wystąpienia którejkolwiek tego rodzaju kombinacji w tekstach przeznaczonych do syntezy jest stosunkowo duże, o czym w kilku swoich pracach pisze J.P.H. van Santen (1993). Zadaniem badacza jest więc taki dobór czynników, by z jednej strony nie powstawało nakładanie się informacji wynikające ze zbyt dużej liczby czynników i ich interakcji, a z drugiej strony, aby opis zjawisk iloczasowych był możliwie najpełniejszy. Część elementów listy czynników przytoczonej powyżej doczekała się szczegółowego opisu i weryfikacji praktycznej, o czym napisano w następnych rozdziałach poniższej rozprawy, natomiast niektóre z nich, szczególnie te dotyczące czynników wyższego rzędu (emocji, semantyki), dopiero dzisiaj są przedmiotem szerszych badań. I, zastosowane w systemach syntezy, dla których rozwiązano już bardziej podstawowe problemy, mają stanowić ostateczny szlif w zakresie naturalnego brzmienia uzyskiwanej mowy syntetycznej. 14

15 2.2. PERCEPCJA ILOCZASU Zagadnienie percepcji cech prozodycznych mowy jest ważne dla zastosowań technicznych ze względu na to, że różnice postrzegane przez słuchaczy muszą znaleźć odbicie w jakości mowy syntetycznej. Tak więc najpierw konieczne jest zachowanie odpowiedniej precyzji przy segmentacji nagrań, a potem sporządzenie odpowiednio szczegółowego opisu zjawisk, tak aby obejmował on możliwie dokładnie wszystkie elementy mogące mieć znaczenie dla percepcji. Percepcją iloczasu zajmowano się już wiele lat temu, Lehiste (1970, str ) jako jedną z ważniejszych w tej tematyce przytacza pracę Webera (1933). Rozważano w niej kwestię czy wartości iloczasu minimalne dla percepcji należy definiować jako wartości bezwzględne, czy też jako stosunek zmiany wartości (w tym przypadku czasu oznaczanego T) do określonej wartości odniesienia (w tym przypadku wartości iloczasu odniesienia T). W kilku pracach podjęto się potem obliczeń takich różnic bezwzględnych oraz odpowiadających im stosunków według definicji Webera (np. Henry, 1948 i in., zob. Lehiste, 1970, str ). Okazało się, że w zakresie czasu trwania dźwięków mowy czyli między około 30 a 300 milisekund, wartości minimalne postrzeganych różnic długości głosek mieszczą się w zakresie od dziesięciu do czterdziestu milisekund. Przy czym człowiek potrafi jednak postrzegać dźwięki mowy krótsze aniżeli najmniejsza wartość odniesienia używana we wspomnianych wyżej badaniach (np. [r] jedno-uderzeniowe, poszczególne zwarcia [r] drżącego są również bardzo krótkie, a jednak dyskryminowalne). Ostrość percepcji uzależniona jest z jednej strony od warunków środowiskowych (w obecności zakłóceń i szumów minimalne dostrzegalne różnice będą większe niż np. w warunkach studyjnych). Z drugiej strony o percepcji decydują pozostałe właściwości wymawianych głosek, przede wszystkim ich głośność, zwłaszcza w sytuacji, gdy stosunek poziomu sygnału do zakłócenia jest względnie niski. Na postrzeganie własności iloczasowych głosek wpływa również kolejność ich występowania w obrębie wypowiedzi, przy czym ważniejsza dla percepcji jest głoska wcześniejsza, mowa tutaj o tzw. efekcie pierwszeństwa (Lehiste, 1970, str. 15

16 16-17), chyba że głoska czy głoski późniejsze charakteryzują się większą głośnością (o ponad 15 db). Rodzaj sąsiedztwa głoskowego także w pewnym stopniu determinuje percepcję iloczasu głoskowego. Im bardziej różnorodne są zestawiane dźwięki, tym łatwiej i precyzyjniej dyskryminowane są różnice między nimi, czynnikiem najważniejszym w tym wymiarze jest sposób artykulacji głosek; rola miejsca artykulacji określana jest jako marginalna. Ponadto zaobserwowano zjawisko wyrównywania zmian czasu trwania, które zaszły w jednej z głosek za pomocą zmiany iloczasu głoski sąsiadującej, tak aby rytm wypowiedzi pozostał niezakłócony. Odnotowano różne stopnie nasilenia takiej kompensacji zależnie od położenia sylaby względem granic sylab i wyrazów, co miałoby sugerować, iż specyfika postrzegania rytmu jest silniej związana z pojęciem sylaby, aniżeli segmentu głoskowego (Huggins, 1972), chociaż np. w eksperymencie przeprowadzonym dla języka estońskiego (Krull, Traunmüller, 2000) zauważa się, że słuchacze tego języka nie postrzegają sylaby jako jednostki struktury czasowej BADANIA NAD ILOCZASEM GŁOSKOWYM DLA JĘZYKA POLSKIEGO Pierwsze opracowania dotyczące iloczasu głoskowego w języku polskim sięgają lat trzydziestych ubiegłego stulecia, kiedy powstały prace o charakterze opisowym, oparte o analizę kimogramów (Dłuska, 1933; Koneczna, 1934). Analizy iloczasu samogłosek polskich z użyciem metod statystycznych podjęła się L. Richter (Richter, 1973). Przedmiotem tej pracy był wpływ następujących czynników na czas trwania samogłosek w jedno i dwusylabowych logatomach: artykulacja samogłoski, dźwięczność oraz sposób i miejsce artykulacji spółgłoski post-wokalicznej, a także długość logatomu. W analizie statystycznej autorka zastosowała analizę wariancji z testem F oraz testy Studenta i Duncana. Najsilniejszy okazał się wydłużający wpływ dźwięczności następującej spółgłoski, następnie wpływ jej sposobu artykulacji. Najsłabszy okazał się czynnik: miejsce artykulacji. Zgodnie z przewidywaniami autorki i wynikami opisywanymi wcześniej (Jassem, 1962) długość danego segmentu okazała się maleć ze wzrostem długości jednostki akcentowej zawierającej 16

17 ten segment (w ww. pracy Richter samogłoski w dwusylabowcach były dłuższe niż niż te w jednostkach jednosylabowych). W kolejnej swojej publikacji ta sama autorka (Richter, 1974) dokonała porównania iloczasu samogłosek wymawianych w logatomach i w wyrazach, stwierdzając wysoką korelację między tymi wartościami, na podstawie której wnioskowała o możliwości uogólnienia wyników uzyskanych dla logatomów na wyrazy. W podsumowaniu kolejnej ze swych prac autorka (Richter, 1978) stwierdziła jednak, że niektóre parametry wykazują rozbieżności w zależności od tego czy bada się je w logatomach, czy w jednostkach znaczących, takim parametrem okazała się np. reguła izochronizmu, którą Richter zaobserwowała tylko dla części materiału badawczego obejmującej logatomy, przy czym potwierdzenie istnienia zjawiska izochronizmu przypisała (przynajmniej częściowo) konstrukcji testu, w którym logatomy odczytywane były bezpośrednio jeden po drugim co mogło potęgować rytmiczny sposób ich wymowy. W tej samej publikacji potwierdzono natomiast postulowany wcześniej przez Jassema, Dłuską i Koneczną wpływ akcentu na iloczas głoskowy, wyróżniając trzy grupy długości samogłosek w języku polskim: samogłoska akcentowana (najdłuższa), samogłoska w sylabie wygłosowej (zazwyczaj krótsza), samogłoska w sylabach przedakcentowych oraz poakcentowych niewygłosowych (najkrótsza). Z kolei w pracy prezentującej bardziej szczegółową próbę weryfikacji występowania i matematycznego opisu zjawiska izochronizmu w języku polskim (Richter, 1983), opartej na modelu opracowanym wcześniej dla języka szwedzkiego i później holenderskiego (cyt. za Richter: Lindblom, 1968; Noteboom, 1972), stwierdzono jednak obecność tego zjawiska w polskich wypowiedziach, aczkolwiek w ograniczonym zakresie (tylko dla samogłosek w niektórych pozycjach). Materiał badawczy stanowiły tutaj trzy listy wypowiedzi składających się z dwóch zestrojów akcentowych, ale różniących się liczbą sylab wchodzącą w skład tych zestrojów przy zachowaniu określonej struktury fonetycznej tych zestrojów. Kontynuację tej pracy autorka opublikowała cztery lata później (Richter, 1987). W publikacji tej zaproponowała dwa sposoby modelowania struktury rytmicznej wypowiedzi: pierwszy, taki jak w pracy z

18 roku skonstruowany na podobnym (czy nawet identycznym) materiale model wyrażający za pomocą funkcji potęgowej zależność między iloczasem głoskowym a liczbą sylab w jednostce akcentowej i odległością badanej sylaby od końca jednostki akcentowej (mierzoną w sylabach). Drugi model bazował na zaproponowanym wcześniej dla języka angielskiego (Jassem et al., 1981) modelu regresyjnym zależności czasu trwania głosek od ich liczby w jednostce rytmicznej. Przy czym rozróżniono cztery rodzaje jednostek rytmicznych: stopę (rozumianą tutaj jako odcinek między kolejnymi sylabami akcentowanymi z wyłączeniem nieakcentowanych sylab występujących po pauzie), jednostkę akcentową, przedakcentową część jednostki akcentowej (czyli anakruzę w terminologii izochronizmu postulowanego dla języka angielskiego przez Jassema (1981 oraz Jassem et al., 1984) i zasadniczą część jednostki akcentowej (czyli ścisłą jednostkę rytmiczną w ww. terminologii). W modelu izochronizmu wyrażonego z użyciem funkcji potęgowej odnotowano zależność iloczasu samogłosek akcentowanych i postakcentowych zarówno od długości jednostki akcentowej, jak i położenia badanej samogłoski w jej obrębie. Dla spółgłosek nie zaobserwowano zależności ich iloczasu od liczby sylab, stwierdzono jednak taką zależność od położenia w jednostce akcentowej. Na podstawie analizy regresji najsłabsze oznaki izochronizmu stwierdzono dla przedakcentowej części jednostki akcentowej (anakruzy), a najsilniejszy izochronizm odnotowano dla części obejmującej sylabę akcentowaną i następujące po niej sylaby nieakcentowane, czyli dla ścisłej jednostki rytmicznej. W porównaniu z wynikami analogicznego eksperymentu przeprowadzonego przez Jassema (1981) dla języka angielskiego, stwierdzono, że wprawdzie izochronizm w języku polskim funkcjonuje w mniejszym nasileniu niż w angielskim, jednak na tyle konsekwentnie, że możliwy jest jego opis formalny. Próby takiego formalnego opisu zależności iloczasu głoskowego od różnych czynników na potrzeby syntezy mowy podjęli się autorzy J. Imiołczyk, I. Nowak, G. Demenko w pracy opisującej prace nad systemem syntezy mowy polskiej (Imiołczyk et al., 1994). W pracy tej przedstawiono listę czynników mogących modyfikować iloczas głoskowy oraz 18

19 podano przykładowe reguły iloczasowe dla fonemu /e/ 2 sformułowane na jej podstawie. Lista ta obejmowała cechy badanych głosek oraz ich sąsiedztwa. Wśród tych cech wymieniono cechy związane ze sposobem i miejscem artykulacji oraz z obecnością lub brakiem dźwięczności. Zwrócono uwagę na różne rodzaje sekwencji segmentów (rozróżniając sekwencje dźwięków tego samego lub odmiennego typu) ze szczególnym uwzględnieniem wpływu spółgłoski postwokalicznej na czas trwania samogłoski oraz rodzajów i długości zbitek spółgłoskowych. Zbadano również zależność iloczasu segmentów od ich położenia w obrębie wypowiedzi oraz od obecności lub braku akcentu, a także od długości stopy rytmicznej. Wśród samogłosek najdłuższą okazała się [a], a najkrótszą [È], natomiast wśród spółgłosek najdłuższe były bezdźwięczne afrykaty, których iloczas przekraczał kilkakrotnie czas trwania odnotowany dla najkrótszej ze spółgłosek, czyli [r]. Najdłuższe połączenia międzysegmentalne pojawiały się dla kombinacji [j] i [ ] z samogłoskami tylnymi [a] [o] [u], a najkrótsze dla kombinacji dwuwargowych z [j]. Obecność dźwięczności w kontekście następującym okazała się mieć wydłużający wpływ na samogłoskę, natomiast występowanie zbitki spółgłoskowej nieco skracało samogłoskę poprzedzającą tę zbitkę. Ze względu na sposób artykulacji, przeciętnie, samogłoski były najkrótsze przed zwartymi, a najdłuższe przed [r]. Z kolei stopień skracania spółgłosek w zbitkach okazał się pozytywnie skorelowany z liczbą elementów zbitki oraz z iloczasem właściwym poszczególnych głosek (najbardziej ulegały skracaniu w zbitkach bezdźwięczne afrykaty, a /r/ nie podlegało mu wcale). Wpływ akcentu na czas trwania samogłosek okazał się być podobny jak w badaniach Richter (1978), przy czym stwierdzono, że iloczas samogłoski występującej w sylabie wygłosowej jest najdłuższy, gdy sylaba ta jest otwarta (niezakończona spółgłoską). Stwierdzono też, że iloczas segmentalny jest negatywnie skorelowany z liczbą segmentów w stopie rytmicznej (potwierdzając tym samym występowanie reguły izochronizmu). 2 W pracy używano nawiasów kwadratowych np. [c] dla oznaczenia konkretnych realizacji głoskowych i allofonów, natomiast etykiety fonemów ujmowano w ukośniki /k/ 19

20 2.4. MODELOWANIE ILOCZASU GŁOSKOWEGO NA POTRZEBY SYNTEZY MOWY. WYBRANE MODELE ILOCZASOWE OPISYWANE W LITERATURZE Najbardziej tradycyjne podejście do modelowania iloczasu głoskowego, to podejście oparte na analizie lingwistycznej dającej w rezultacie system reguł, z których każda określa stopień wydłużenia lub skrócenia segmentów zależnie od odpowiadających jej czynników. Najbardziej znaczącym wśród tego rodzaju modeli jest model zaproponowany przez Klatt'a (zob. rozdz. 4.8). W badaniach prowadzonych obecnie, przeważa raczej podejście oparte na analizie statystycznej dużych zbiorów danych dające w efekcie bardziej naturalne brzmienie otrzymywanej mowy (por. Vainio, 2001). Stosuje się w tych badaniach narzędzia bardziej uniwersalne, mogące służyć rozwiązywaniu problemów w wielu dziedzinach wiedzy. Narzędzia te to przede wszystkim: parametryczna analiza regresji, drzewa klasyfikacji i regresji (CART) oraz sieci neuronowe. Trzeba jednak zauważyć, że współcześni badacze nadal wykorzystują elementy modelowania iloczasu z użyciem reguł lingwistycznych. Dla celów niektórych zastosowań ograniczony rozmiar używanej bazy danych jest ważniejszym parametrem systemu syntezy niż naturalność uzyskanej mowy syntetycznej, jeśli tylko mowa ta jest wystarczająco poprawna i zrozumiała. W takich przypadkach często korzysta się z nowoczesnych technik statystycznych celem weryfikacji i usprawniania systemu reguł Model oparty na regułach Klatt a Najbardziej znaczącym wśród modeli iloczasowych opartych na regułach lingwistycznych jest model zaproponowany dla języka angielskiego przez D. H. Klatt a. (Klatt, 1979; por. też Klatt, 1987). Zgodnie z tym modelem każdemu segmentowi fonetycznemu odpowiada tzw. iloczas właściwy (określony jako jedna z jego cech dystynktywnych), który może podlegać skracaniu lub wydłużaniu o określoną wartość procentową pod wpływem każdej ze zdefiniowanych reguł, przy 20

21 dodatkowym założeniu, ze segmenty nie mogą być krótsze od przypisanej im wartości minimalnej. Model ten został opisany poniższym wzorem: DUR = MINDUR + (INHDUR MINDUR x PRCNT) / 100 gdzie: DUR - oznacza iloczas segmentu w milisekundach, INHDUR - iloczas właściwy segmentu MINDUR - minimalny czas trwania segmentu w pozycji akcentowanej PRCNT - procent skrócenia lub wydłużenia określony przez zastosowanie reguł iloczasowych Klatt sformułował dla swojego modelu zbiór reguł, według których zmieniał się parametr PRCNT. Reguły te obejmowały na przykład: wydłużenie na końcu frazy, skrócenie w pozycji niekońcowej, skrócenie spółgłoski niepoczątkowej, skrócenie pod wpływem braku akcentu czy wzdłużenie samogłosek przed spółgłoskami dźwięcznymi. Model ten znalazł później zastosowanie w systemie syntezy mowy nazwanym Klattalk, później w komercyjnym systemie DECtalk (Klatt, 1987) oraz w innych systemach syntezy mowy zarówno dla brytyjskiej, jak i angielskiej odmiany języka angielskiego (zestawienie niektórych z nich zawarto w opracowaniu: Wypych, 1998). Modele iloczasowe oparte na regułach zaprojektowano później również dla innych języków, między innymi dla francuskiego (O'Shaughnessy, 1984), niemieckiego (Portele et al., 1990) czy węgierskiego (Olaszy, 2002). Konstrukcja tego rodzaju modeli wymaga szerokiej wiedzy lingwistycznej, jak również dobrej intuicji w tej dziedzinie, jako że reguły oraz wartości parametrów z nimi związane definiuje się i weryfikuje ręcznie, metodą prób i błędów. W czasach gdy powstawały pierwsze takie modele, czyli w latach siedemdziesiątych, było to zadaniem szczególnie wymagającym, ze względu na niewystarczające wparcie sprzętowe. Przy konstrukcji modeli opartych na dużych zbiorach danych nie jest 21

22 niezbędna tak wnikliwa analiza lingwistyczna (por. następne paragrafy), aczkolwiek jest ona pożądana, zwłaszcza na etapie doboru cech, które mają być przedmiotem analizy statystycznej, co może znacznie usprawnić proces opracowania modelu Drzewa analizy i regresji (CART) Drzewa analizy i regresji są odmianą drzew decyzyjnych, techniki stosowanej w dziedzinie nazywanej uczeniem maszynowym (ang. machine learning). Jest to metoda analizy statystycznej ogólnego przeznaczenia stosowana obecnie w różnych dziedzinach wiedzy. Stała się ona bardzo popularna również w technologii mowy, w tym w modelowaniu prozodii ze względu na to, że umożliwia automatyczną konstrukcję jej modeli. Dostępne w internecie witryny Edinburgh Speech Tools (King et. al., 2003) oferują na przykład propozycje implementacji drzew analizy i regresji (tzw. wagon) dla odpowiednio przygotowanych baz danych. Pierwszym krokiem analizy z zastosowaniem algorytmu CART jest tzw. etap z użyciem funkcji krokowej (stepwise) służącej ocenie przydatności cech w ramach modelu. Uzyskuje się w jego wyniku ranking badanych cech według wartości korelacji danej cechy z wartością iloczasu głoskowego. Korelacja ta ma postać skumulowaną. Termin skumulowana oznacza, iż otrzymuje się informację o czynniku, dla którego algorytm obliczył najwyższy współczynnik korelacji z badaną zmienną. W następnych krokach podawane są następne informacje o procencie, o jaki zwiększała się ta korelacja przy uwzględnianiu kolejnych czynników. W ten sposób uzyskuje się wstępną charakterystykę wpływu włączania poszczególnych czynników na jakość predykcji oraz średnią korelację dla całości zbioru czynników. Metodą drzew decyzyjnych posłużył się na przykład R. Batušek przy budowie modelu iloczasu głoskowego dla języka czeskiego (Batusek, 2002) powstał też tego typu model dla koreańskiego (Chung, Huckvale, 2001) i baskijskiego (Navas et al., 2003). Metoda ta wykorzystywana jest również do predykcji iloczasu w systemie syntezy mowy BOSS (zob. rozdział 7.1). W fazie testowej wersji systemu BOSS dla języka polskiego wykorzystane zostały dane ze zbioru A (opisane w rozdziale 3.2). 22

23 Sieci neuronowe Sieci neuronowe należą, podobnie jak modele oparte na algorytmach drzew decyzyjnych, do technik analitycznych ogólnego przeznaczenia. Wielu autorów podkreśla użyteczność tej metody w modelowaniu iloczasu i innych cech sygnału mowy, ze względu na zakładaną zdolność sieci neuronowych do samodzielnego uczenia się współzależności między czynnikami kontekstowymi (Tadeusiewicz, 1993, Vainio et al., 1999, Cordoba et al., 1999). Różne modele prozodyczne konstruowane z użyciem tej techniki opisuje Vainio, W modelowaniu iloczasu sieciami neuronowymi posłużył się np. Campbell (1992). Opracował on model iloczasowy, gdzie przewidywany jest czas trwania sylaby, do którego następnie dopasowywany jest iloczas składających się na tę sylabę głosek. Campbell opracował wektor cech (j.w., str ), na który składały się informacje na temat: liczba allofonów w sylabie, rodzaju szczytu sylaby (nazywanego przez autora syllabic peak, przy czym wymienia on różne jego rodzaje zależnie od typu samogłoski np. niskie/wysokie, poliftongi/monoftongi), pozycji w grupie akcentowej (położenie sylaby w obrębie fraz intonacyjnych), rodzaju stopy (liczba sylab w stopie), poziomu akcentu (wyrazowy i zdaniowy), klasy wyrazu (wyraz funkcyjny/treściowy). Następnie, uwzględniając wymienione cechy dokonano predykcji czasu trwania sylab z użyciem sieci neuronowej. W kolejnym kroku określono elastyczność dla iloczasu allofonów składających się na sylabę (zasada elastyczności, którą postuluje Campbell zakłada, że wszystkie segmenty składowe danej sylaby ulegają skracaniu lub wydłużaniu o wartości zależne od cech poszczególnych głosek, przy czym jednocześnie wszystkie podlegają tym samym czynnikom modyfikującym wydłużenie na poziomie sylaby). Według autora, w większości przypadków stopień skrócenia lub wydłużenia w obrębie sylaby można wyrazić stałą określoną na podstawie danych, rozwiązując równanie dla k: 23

24 n exp µ i kδ i i=1 W wyniku powyższego równania otrzymuje się iloczas dla sylaby długości n podany w milisekundach. (Funkcja wykładnicza została zastosowana ze względu na to, że iloczas segmentalny wyrażono w cytowanej pracy w formie zlogarytmizowanej) Segmentowi i przypisuje się iloczas według równania exp(µ i + kδ i ), w którym µ i to wartość średnia, a δ i - odchylenie standardowe logarytmu czasu trwania allofonu lub klasy allofonów odpowiadającej i Inne modele J. P. H. van Santen (1993) opracował model iloczasowy, który nazywa modelem opartym na sumie iloczynów (Sums-of-product duration model). Według autora, model ten korzysta zarówno z zalet stosowania technik statystycznych ogólnego przeznaczenia (nacisk na formalne metody analizy danych), jak i bardziej tradycyjnych metod modelowania na podstawie reguł lingwistycznych (użycie sum iloczynów). Zdaniem V. Santena modele oparte na sumach iloczynów dosyć dokładnie opisują zbiory danych dotyczące iloczasu głoskowego, zwłaszcza interakcje zachodzące w obrębie tych zbiorów danych. Jednakże przy konstruowaniu modeli tego typu pojawia się problem związany ze znalezieniem najodpowiedniejszego modelu wśród bardzo dużej liczby możliwych. W związku z tym, ze istniejące modele sformułowane tą metodą pokrywają jedynie niewielki fragment możliwości i tego, że słuszność ich wyboru względem alternatywnych modeli nie została w sposób systematyczny statystycznie przetestowana, V. Santen uznaje, że kwestia poszukiwania lepszych rozwiązań nadal pozostaje otwarta. Z kolei podstawową przewagą modelu iloczasowego V. Santena nad systemami opartymi na technikach statystycznych ogólnego przeznaczenia jest wg autora to, że wykorzystuje się w nim wielostopniowy proces predykcji wspierany różnego rodzaju formami eksploracji danych. Autor dużo uwagi poświęcił w swoich publikacjach problemowi związanymi z nierównolicznym występowaniem w zbiorze różnych rodzajów danych (tzw. data sparsity problem, por. V. Santen, 1993), 24

25 zwracając uwagę na to, że model iloczasowy powinien uwzględniać możliwość predykcji iloczasu również dla wektorów cech występujących bardzo rzadko w zbiorze danych. Autor modelu opartego na sumie iloczynów przyczynił się do powstania tego rodzaju modeli dla kilku języków np. Japońskiego (Venditti, V. Santen, 1990) czy niemieckiego (Möbius, van Santen, 1996). 25

26 3. ILOCZASOWA BAZA DANYCH 3.1. WPROWADZENIE Zastosowany materiał badawczy pochodzi z systematycznie rozbudowywanego zbioru materiałów 3. gromadzonego na potrzeby syntezy (oraz rozpoznawania) mowy polskiej 4 Na potrzeby rozprawy przyjęto do analizy zbiór nagrań tekstów czytanych po części przez mówcę o szkolonym głosie, a po części przez mówców amatorów. Rodzaje tekstów, jak i style ich czytania były zróżnicowane, w przeważającej większości czytano jednak w stylu względnie neutralnym (zob. rozdział 3.2). Wszystkie nagrania poddano procedurze automatycznej segmentacji oraz jej manualnej weryfikacji (opisanej bardziej szczegółowo niżej, w rozdziale 3.3). Uzyskano w ten sposób zbiór plików z segmentacją i transkrypcją, które następnie przeniesiono do bazy danych (rozdział 3.4Błąd: Nie znaleziono źródła odwołania), co umożliwiło wygodne posługiwanie się nimi podczas analiz statystycznych, selekcji i sortowania elementów, przy przygotowywaniu danych na wejście algorytmu CART oraz dla sieci neuronowych. Dodatkową zaletą wykorzystania bazy danych jest możliwość jej dalszego wykorzystania w przyszłości, jak również łatwość jej rozbudowywania. Dane przygotowywano częściowo zgodnie z wytycznymi dla systemu syntezy mowy BOSS (Bonn Open Synthesis System) ze względu na planowaną implementację wyników, co zdeterminowało niektóre wybory, np. wybór formatu plików segmentacji (rozdział 3.3.2). 3 Badania finansowane przez Komitet Badań Naukowych (Numer projektu: 3 T11C ) 4 Jeden z mówców został też poproszony o odczytanie dwóch tekstów, pochodzących ze zbiorów Polskiej Bazy Intonacyjnej PoInt (Karpiński, 2002) 26

27 3.2. KORPUS TEKSTÓW I NAGRAŃ Zbiór A (główny) Pierwszy ze zbiorów nagrań wykorzystanych na potrzeby niniejszej rozprawy, to zbiór tekstów czytanych przez lektora radiowego (głos męski) w sumie obejmujący 45 minut nagrań. Nagrań dokonano podczas kilku sesji, w warunkach studyjnych, wykorzystano do tego celu profesjonalne studio radiowe wraz z dostępną tam aparaturą rejestracyjną. Częstotliwość próbkowania dla wszystkich nagrań wynosiła 16 khz (taka jest częstotliwość wymagana dla programu do automatycznej segmentacji). Mówca czytał następujące teksty: 1. fragmenty prozy a. teksty nagrane w tempie normalnym - fragmenty ośmiu współczesnych tekstów literackich o długości od około dwudziestu do niemal dwustu zdań (18 minut 5 ) b. tekst nagrany w tempie normalnym oraz w tempie szybkim (łącznie 13 minut) 2. teksty prasowe - cztery teksty o charakterze felietonowym (6 minut) 3. teksty przygotowane specjalnie na potrzeby badań językoznawczych (2 minuty) a. tekst przygotowany pod kątem tego, by zawierał realizacje wszystkich fonemów języka polskiego użytych w częstości odpowiadającej przeciętnej częstości każdego z nich (na temat rozkładu częstości występowania polskich fonemów (por. Jassem, 1973, str oraz cytowana tam praca: Steffen, 1957) b. tekst ułożony pod kątem realizacji polskich grafemów ą i ę oraz połączeń samogłosek [a] [e] z [j] [w] 5 Czasy trwania nagrań podano w zaokrągleniu do pełnych minut. 27

28 4. lista wypowiedzi izolowanych wypowiedzi zawierające komunikaty informacji kolejowej oraz pytania dotyczące rozkładu jazdy pociągów (7 minut). Tę część korpusu nagrań traktowano w obecnej bazie danych jako główną, jako że zawiera ona dużą liczbę nagrań różnego rodzaju tekstów, w tym teksty odczytane w różnych tempach mowy i teksty zawierające elementy dialogu, a więc oferujące różne wzorce prozodyczne i najbardziej zbliżone do mowy spontanicznej, korpus ten jest nagrany z bardzo dobrą jakością techniczną i znalazł zastosowanie w polskiej wersji systemu syntezy BOSS (zob. rozdział 7.1) Zbiory B i C (dodatkowe) Drugi zbiór, to nagrania wykonane dla czterdziestu mówców (dwudziestu kobiet i dwudziestu mężczyzn w wieku lat), czytających ten sam krótki tekst, 6 mający formę wywiadu. Tekst składał się z dwudziestu pięciu zdań, w sumie czas trwania nagrań dla wszystkich mówców łącznie wyniósł ok. 25 minut. Wykorzystane tutaj nagrania pochodzą z większego zbioru (dla 132 głosów i różnego typu tekstów) przygotowanej wcześniej na potrzeby rozpoznawania mowy. W związku z takim pierwotnym przeznaczeniem bazy, jakość nagrań nie jest w tym przypadku studyjna, występują w nich szumy. Zdecydowano się mimo tej wady na ich użycie dla celów niniejszego badania ze względu na dobre zrównoważenie fonemowe czytanego tekstu i różnorodność głosów, która jest przydatna w przypadku analizy z użyciem techniki sieci neuronowych. Dokonując selekcji nagrań z tej bazy dla celów obecnego opracowania, autorka kierowała się przede wszystkim kryterium jakości nagrań, starając się wybrać te o najmniejszej zawartości zakłóceń, 6 Jest to ten sam tekst, z niewielkimi zmianami (zamieniono kilka wyrazów), który odczytał też mówca profesjonalny (rozdział tekst 3.a) 28

29 przy tym jednak postanowiono zachować równowagę w kwestii zrównoważenia badanej grupy mówców ze względu na płeć. 7 Trzeci podzbiór korpusu danych stanowią nagrania listy osiemdziesięciu sześciu komunikatów informacji kolejowej odczytanych przez dziewiętnastu mówców (siedem głosów kobiecych i dwanaście męskich). Listę tę dołączono jako zbiór pomocniczy dla celów porównawczych między cechami mowy czytanej w krótszych wypowiedziach izolowanych i w dłuższych tekstach. Autorka korzystała z tej części bazy jako zbioru odniesienia, nie wszystkie więc analizy znalazły miejsce w obecnej rozprawie. Niemniej jednak, będą one z pewnością użyteczne w przyszłości (np. do celów analizy z zastosowaniem sieci neuronowych, gdzie raczej wskazane jest zróżnicowanie podawanych sygnałów, aniżeli ich jednorodność i znormalizowanie (Masters, 1996) TRANSKRYPCJA I SEGMENTACJA NAGRAŃ Zastosowana transkrypcja Zbiór znaków transkrypcji użytych w obecnych badaniach przedstawia pierwsza kolumna tabeli 3.1; jest to zmodyfikowana wersja transkrypcji SAMPA dla języka polskiego (Wells, 1996), ujętej w trzeciej kolumnie tabeli. Zaletą transkrypcji SAMPA jest jej łatwość użycia w różnego rodzaju oprogramowaniu komputerowym. Nie zawiera ona specjalnych symboli fonetycznych, występują w niej litery alfabetu i ich kombinacje oraz kilka dodatkowych znaków, dzięki czemu można stosować ją w różnego rodzaju oprogramowaniu komputerowym. Zmian w stosunku do pierwotnej wersji tej transkrypcji dokonano, kierując się przede wszystkim perspektywą zastosowania wyników pracy w systemie syntezy mowy. Pierwszą poczynioną zmianą było dodanie etykiet [c] oraz [J] na oznaczenie spalatalizowanych odpowiedników fonemów /k/ i /g/ (podobnie jak we wcześniejszych badaniach (Demenko et al., 2003, Breuer et al. (w przygotowaniu)). 7 Podstawowe statystki dotyczące tego zbioru zamieszczono w publikacji przyjętej na konferencję Speech Analysis Synthesis and Recognition 2005, w Krakowie (Francuzik, 2005) 29

Korpusy mowy i narzędzia do ich przetwarzania

Korpusy mowy i narzędzia do ich przetwarzania Korpusy mowy i narzędzia do ich przetwarzania Danijel Korzinek, Krzysztof Marasek Polsko-Japońska Akademia Technik Komputerowych Katedra Multimediów kmarasek@pjwstk.edu.pl danijel@pjwstk.edu.pl 2015-05-18

Bardziej szczegółowo

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, 2011 Spis treści Przedmowa 11 Rozdział 1. WPROWADZENIE 13 1.1. Czym jest automatyczne rozpoznawanie mowy 13 1.2. Poziomy

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Interpretacja Raportu badania pracy w Otwartym Systemie Antyplagiatowym (OSA)

Interpretacja Raportu badania pracy w Otwartym Systemie Antyplagiatowym (OSA) Interpretacja Raportu badania pracy w Otwartym Systemie Antyplagiatowym (OSA) Uwagi ogólne Raport nie wskazuje jednoznacznie plagiatu System antyplagiatowy stanowi jedynie narzędzie wspomagające ocenę

Bardziej szczegółowo

Zjawisko dopasowania w sytuacji komunikacyjnej. Patrycja Świeczkowska Michał Woźny

Zjawisko dopasowania w sytuacji komunikacyjnej. Patrycja Świeczkowska Michał Woźny Zjawisko dopasowania w sytuacji komunikacyjnej Patrycja Świeczkowska Michał Woźny 0.0.0 pomiar nastroju Przeprowadzone badania miały na celu ustalenie, w jaki sposób rozmówcy dopasowują się do siebie nawzajem.

Bardziej szczegółowo

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl

Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności. dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka w pracy badawczej nauczyciela Wykład 4: Analiza współzależności dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyczna teoria korelacji i regresji (1) Jest to dział statystyki zajmujący

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA

Wykład 4: Wnioskowanie statystyczne. Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Wykład 4: Wnioskowanie statystyczne Podstawowe informacje oraz implementacja przykładowego testu w programie STATISTICA Idea wnioskowania statystycznego Celem analizy statystycznej nie jest zwykle tylko

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych

Bardziej szczegółowo

Wprowadzenie do analizy korelacji i regresji

Wprowadzenie do analizy korelacji i regresji Statystyka dla jakości produktów i usług Six sigma i inne strategie Wprowadzenie do analizy korelacji i regresji StatSoft Polska Wybrane zagadnienia analizy korelacji Przy analizie zjawisk i procesów stanowiących

Bardziej szczegółowo

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 1

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 1 Uniwersytet Śląski w Katowicach str. Program kształcenia, załącznik nr. nazwa kierunku FILOLOGIA ANGIELSKA. poziom kształcenia pierwszy 3. profil kształcenia ogólnoakademicki 4. forma prowadzenia stacjonarne

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne.

STRESZCZENIE. rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. STRESZCZENIE rozprawy doktorskiej pt. Zmienne jakościowe w procesie wyceny wartości rynkowej nieruchomości. Ujęcie statystyczne. Zasadniczym czynnikiem stanowiącym motywację dla podjętych w pracy rozważań

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

EDUKACJA MATEMATYCZNA. uczniów I A 20 91% 19 86% 88,5% I B % 16 94% 97% RAZEM 37 95,5% 35 90% 92,7%

EDUKACJA MATEMATYCZNA. uczniów I A 20 91% 19 86% 88,5% I B % 16 94% 97% RAZEM 37 95,5% 35 90% 92,7% Szkoła Podstawowa z Oddziałami Integracyjnymi nr10 im. Polonii w Słupsku RAPORT PO ROCZNYM SPRAWDZIANIE Z EDUKACJI POLONISTYCZNEJ I MATEMATYCZNEJ KLAS PIERWSZYCH W ROKU SZKOLNYM 2016/2017 FREKWENCJA NA

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. TESTOWANIE HIPOTEZ Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych

Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zadania ze statystyki, cz.7 - hipotezy statystyczne, błąd standardowy, testowanie hipotez statystycznych Zad. 1 Średnia ocen z semestru letniego w populacji studentów socjologii w roku akademickim 2011/2012

Bardziej szczegółowo

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd.

Statystyki: miary opisujące rozkład! np. : średnia, frakcja (procent), odchylenie standardowe, wariancja, mediana itd. Wnioskowanie statystyczne obejmujące metody pozwalające na uogólnianie wyników z próby na nieznane wartości parametrów oraz szacowanie błędów tego uogólnienia. Przewidujemy nieznaną wartości parametru

Bardziej szczegółowo

Dopasowywanie modelu do danych

Dopasowywanie modelu do danych Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;

Bardziej szczegółowo

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja)

weryfikacja hipotez dotyczących parametrów populacji (średnia, wariancja) PODSTAWY STATYSTYKI. Teoria prawdopodobieństwa i elementy kombinatoryki. Zmienne losowe i ich rozkłady 3. Populacje i próby danych, estymacja parametrów 4. Testowanie hipotez 5. Testy parametryczne (na

Bardziej szczegółowo

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15 VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady

Bardziej szczegółowo

Wymagania edukacyjne dla ucznia klasy siódmej SP z orzeczeniem PPP

Wymagania edukacyjne dla ucznia klasy siódmej SP z orzeczeniem PPP Wymagania edukacyjne dla ucznia klasy siódmej SP z orzeczeniem PPP 3445.208.2017 KSZTAŁCENIE LITERACKIE I KULTUROWE Ocena dopuszczająca: Ocena dostateczna: Ocena dobra: Ocena bardzo dobra: klasyfikuje

Bardziej szczegółowo

LABORATORIUM Z FIZYKI

LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI LABORATORIUM Z FIZYKI I PRACOWNIA FIZYCZNA C w Gliwicach Gliwice, ul. Konarskiego 22, pokoje 52-54 Regulamin pracowni i organizacja zajęć Sprawozdanie (strona tytułowa, karta pomiarowa)

Bardziej szczegółowo

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas TESTOWANIE HIPOTEZ STATYSTYCZNYCH Przez hipotezę statystyczną rozumiemy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne.

Bardziej szczegółowo

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy.

TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. TESTOWANIE HIPOTEZ STATYSTYCZNYCH Hipotezą statystyczną nazywamy, najogólniej mówiąc, pewną wypowiedź na temat rozkładu interesującej nas cechy. Hipotezy dzielimy na parametryczne i nieparametryczne. Zajmiemy

Bardziej szczegółowo

2. Metody podejmowania decyzji w warunkach pewności... 37

2. Metody podejmowania decyzji w warunkach pewności... 37 Spis treści Wstęp... 7 1. Problemy i procesy decyzyjne w organizacji... 11 1.1. Istota decyzji menedżerskich w organizacji... 11 1.2. Sytuacje decyzyjne, problemy decyzyjne i decyzje w organizacji.. 15

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe.

Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Lingwistyczny system definicyjny wykorzystujący korpusy tekstów oraz zasoby internetowe. Autor: Mariusz Sasko Promotor: dr Adrian Horzyk Plan prezentacji 1. Wstęp 2. Cele pracy 3. Rozwiązanie 3.1. Robot

Bardziej szczegółowo

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka

Modelowanie jako sposób opisu rzeczywistości. Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka Modelowanie jako sposób opisu rzeczywistości Katedra Mikroelektroniki i Technik Informatycznych Politechnika Łódzka 2015 Wprowadzenie: Modelowanie i symulacja PROBLEM: Podstawowy problem z opisem otaczającej

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1.

Zadania ze statystyki cz. 8 I rok socjologii. Zadanie 1. Zadania ze statystyki cz. 8 I rok socjologii Zadanie 1. W potocznej opinii pokutuje przekonanie, że lepsi z matematyki są chłopcy niż dziewczęta. Chcąc zweryfikować tę opinię, przeprowadzono badanie w

Bardziej szczegółowo

Streszczenie rozprawy doktorskiej MODEL FUNKCJONOWANIA GOSPODARKI KREATYWNEJ W PROCESIE WZROSTU GOSPODARCZEGO

Streszczenie rozprawy doktorskiej MODEL FUNKCJONOWANIA GOSPODARKI KREATYWNEJ W PROCESIE WZROSTU GOSPODARCZEGO Wyższa Szkoła Bankowa we Wrocławiu Wydział Finansów i Zarządzania Streszczenie rozprawy doktorskiej mgr Magdalena Krawiec MODEL FUNKCJONOWANIA GOSPODARKI KREATYWNEJ W PROCESIE WZROSTU GOSPODARCZEGO Praca

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

Sposoby prezentacji problemów w statystyce

Sposoby prezentacji problemów w statystyce S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki

Bardziej szczegółowo

Żródło:

Żródło: Testy t-studenta są testami różnic pomiędzy średnimi czyli służą do porównania ze sobą dwóch średnich Zmienne muszą być zmiennymi ilościowym (liczymy i porównujemy średnie!) Są to testy parametryczne Test

Bardziej szczegółowo

Priorytetyzacja przypadków testowych za pomocą macierzy

Priorytetyzacja przypadków testowych za pomocą macierzy Priorytetyzacja przypadków testowych za pomocą macierzy W niniejszym artykule przedstawiony został problem przyporządkowania priorytetów do przypadków testowych przed rozpoczęciem testów oprogramowania.

Bardziej szczegółowo

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI

LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI LABORATORIUM 8 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI WERYFIKACJA HIPOTEZ Hipoteza statystyczna jakiekolwiek przypuszczenie dotyczące populacji generalnej- jej poszczególnych

Bardziej szczegółowo

Usprawnianie percepcji słuchowej. Jolanta Hysz Konsultant ds. informatyki i edukacji początkowej WODN w Skierniewicach

Usprawnianie percepcji słuchowej. Jolanta Hysz Konsultant ds. informatyki i edukacji początkowej WODN w Skierniewicach Usprawnianie percepcji słuchowej Jolanta Hysz Konsultant ds. informatyki i edukacji początkowej WODN w Skierniewicach Percepcja słuchowa - pojęcie Organizm człowieka przystosowany jest do odbioru bodźców:

Bardziej szczegółowo

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka

Synteza mowy. opracowanie: mgr inż. Kuba Łopatka Synteza mowy opracowanie: mgr inż. Kuba Łopatka Synteza mowy (ang. TTS - Text-To-Speech ) zamiana tekstu w formie pisanej na sygnał akustyczny, którego brzmienie naśladuje brzmienie ludzkiej mowy. Podstawowe

Bardziej szczegółowo

Instrukcja interpretacji Raportu podobieństwa systemu Antyplagiat

Instrukcja interpretacji Raportu podobieństwa systemu Antyplagiat Instrukcja interpretacji Raportu podobieństwa systemu Antyplagiat Użytkownik Indywidualny Raport podobieństwa: ułatwia ocenę samodzielności badanego tekstu, wskazuje liczbę zapożyczonych fragmentów i podaje

Bardziej szczegółowo

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Analiza korelacji i regresji KORELACJA zależność liniowa Obserwujemy parę cech ilościowych (X,Y). Doświadczenie jest tak pomyślane, aby obserwowane pary cech X i Y (tzn i ta para x i i y i dla różnych

Bardziej szczegółowo

Recenzja rozprawy doktorskiej mgr Bartosza Rymkiewicza pt. Społeczna odpowiedzialność biznesu a dokonania przedsiębiorstwa

Recenzja rozprawy doktorskiej mgr Bartosza Rymkiewicza pt. Społeczna odpowiedzialność biznesu a dokonania przedsiębiorstwa Prof. dr hab. Edward Nowak Uniwersytet Ekonomiczny we Wrocławiu Katedra Rachunku Kosztów, Rachunkowości Zarządczej i Controllingu Recenzja rozprawy doktorskiej mgr Bartosza Rymkiewicza pt. Społeczna odpowiedzialność

Bardziej szczegółowo

Technologia mowy i języka Speech and Language Technology, Vol. 3

Technologia mowy i języka Speech and Language Technology, Vol. 3 Fonetyczna struktura materiału testowego stosowanego w subiektywnych pomiarach jakości mowy Phonetic structure of test material used in subjective measurements of speech quality Stefan Brachmański, Piotr

Bardziej szczegółowo

Wynagrodzenia w sektorze publicznym w 2011 roku

Wynagrodzenia w sektorze publicznym w 2011 roku Wynagrodzenia w sektorze publicznym w 2011 roku Już po raz dziewiąty mamy przyjemność przedstawić Państwu podsumowanie Ogólnopolskiego Badania Wynagrodzeń (OBW). W 2011 roku uczestniczyło w nim ponad sto

Bardziej szczegółowo

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H

P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H W O J S K O W A A K A D E M I A T E C H N I C Z N A W Y D Z I A Ł E L E K T R O N I K I Drukować dwustronnie P R Z E T W A R Z A N I E S Y G N A Ł Ó W B I O M E T R Y C Z N Y C H Grupa... Data wykonania

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska DRZEWO REGRESYJNE Sposób konstrukcji i przycinania

Bardziej szczegółowo

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności:

Zad. 4 Należy określić rodzaj testu (jedno czy dwustronny) oraz wartości krytyczne z lub t dla określonych hipotez i ich poziomów istotności: Zadania ze statystyki cz. 7. Zad.1 Z populacji wyłoniono próbę wielkości 64 jednostek. Średnia arytmetyczna wartość cechy wyniosła 110, zaś odchylenie standardowe 16. Należy wyznaczyć przedział ufności

Bardziej szczegółowo

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 3

MODUŁ KSZTAŁCENIA: Praktyczna nauka języka angielskiego: moduł 3 Uniwersytet Śląski w Katowicach str. 1 Program kształcenia, załącznik nr 1. nazwa kierunku FILOLOGIA ANGIELSKA. poziom kształcenia pierwszy. profil kształcenia ogólnoakademicki 4. forma prowadzenia stacjonarne

Bardziej szczegółowo

Instrukcja interpretacji Raportu podobieństwa systemu Antyplagiat

Instrukcja interpretacji Raportu podobieństwa systemu Antyplagiat Instrukcja interpretacji Raportu podobieństwa systemu Antyplagiat Raport podobieństwa: ułatwia ocenę samodzielności badanego tekstu, wskazuje liczbę zapożyczonych fragmentów i podaje ich źródła. I. Współczynniki

Bardziej szczegółowo

Pobieranie prób i rozkład z próby

Pobieranie prób i rozkład z próby Pobieranie prób i rozkład z próby Marcin Zajenkowski Marcin Zajenkowski () Pobieranie prób i rozkład z próby 1 / 15 Populacja i próba Populacja dowolnie określony zespół przedmiotów, obserwacji, osób itp.

Bardziej szczegółowo

3. Modele tendencji czasowej w prognozowaniu

3. Modele tendencji czasowej w prognozowaniu II Modele tendencji czasowej w prognozowaniu 1 Składniki szeregu czasowego W teorii szeregów czasowych wyróżnia się zwykle następujące składowe szeregu czasowego: a) składowa systematyczna; b) składowa

Bardziej szczegółowo

Lokalizacja Oprogramowania

Lokalizacja Oprogramowania mgr inż. Anton Smoliński anton.smolinski@zut.edu.pl Lokalizacja Oprogramowania 16/12/2016 Wykład 6 Internacjonalizacja, Testowanie, Tłumaczenie Maszynowe Agenda Internacjonalizacja Testowanie lokalizacji

Bardziej szczegółowo

STANDARDY I KRYTERIA OCENY JAKOŚCI PROGRAMÓW PROMOCJI ZDROWIA I PROFILAKTYKI W RAMACH SYSTEMU REKOMENDACJI

STANDARDY I KRYTERIA OCENY JAKOŚCI PROGRAMÓW PROMOCJI ZDROWIA I PROFILAKTYKI W RAMACH SYSTEMU REKOMENDACJI STANDARDY I KRYTERIA OCENY JAKOŚCI PROGRAMÓW PROMOCJI ZDROWIA I PROFILAKTYKI W RAMACH SYSTEMU REKOMENDACJI 1. Ogólne dane o programie Nazwa własna Autorzy programu Organizacja/ instytucja odpowiedzialna

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH

WERYFIKACJA HIPOTEZ STATYSTYCZNYCH WERYFIKACJA HIPOTEZ STATYSTYCZNYCH I. TESTY PARAMETRYCZNE II. III. WERYFIKACJA HIPOTEZ O WARTOŚCIACH ŚREDNICH DWÓCH POPULACJI TESTY ZGODNOŚCI Rozwiązania zadań wykonywanych w Statistice przedstaw w pliku

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

r. rok szkolny 2012/2013

r. rok szkolny 2012/2013 04.04.2013r. rok szkolny 2012/2013 Do sprawdzianu po szkole podstawowej przystąpiło 71 uczniów. Wszyscy uczniowie pisali sprawdzian w wersji standardowej. Struktura arkusza sprawdzającego umiejętności

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo

Metodologia badań psychologicznych

Metodologia badań psychologicznych Metodologia badań psychologicznych Lucyna Golińska SPOŁECZNA AKADEMIA NAUK Psychologia jako nauka empiryczna Wprowadzenie pojęć Wykład 5 Cele badań naukowych 1. Opis- (funkcja deskryptywna) procedura definiowania

Bardziej szczegółowo

a) Szczegółowe efekty kształcenia i ich odniesienie do opisu efektów

a) Szczegółowe efekty kształcenia i ich odniesienie do opisu efektów 1. PROGRAM KSZTAŁCENIA 1) OPIS EFEKTÓW KSZTAŁCENIA a) Szczegółowe efekty kształcenia i ich odniesienie do opisu efektów kształcenia dla obszaru nauk społecznych i technicznych Objaśnienie oznaczeń: I efekty

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Analiza praktyk zarządczych i ich efektów w zakładach opieki zdrowotnej Województwa Opolskiego ROK 2008 STRESZCZENIE.

Analiza praktyk zarządczych i ich efektów w zakładach opieki zdrowotnej Województwa Opolskiego ROK 2008 STRESZCZENIE. Analiza praktyk zarządczych i ich efektów w zakładach opieki zdrowotnej Województwa Opolskiego ROK 2008 STRESZCZENIE Marcin Kautsch Opracowanie dla Urzędu Marszałkowskiego Województwa Opolskiego Kraków,

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Kolokwium ze statystyki matematycznej

Kolokwium ze statystyki matematycznej Kolokwium ze statystyki matematycznej 28.05.2011 Zadanie 1 Niech X będzie zmienną losową z rozkładu o gęstości dla, gdzie 0 jest nieznanym parametrem. Na podstawie pojedynczej obserwacji weryfikujemy hipotezę

Bardziej szczegółowo

Statystyka Matematyczna Anna Janicka

Statystyka Matematyczna Anna Janicka Statystyka Matematyczna Anna Janicka wykład IX, 25.04.2016 TESTOWANIE HIPOTEZ STATYSTYCZNYCH Plan na dzisiaj 1. Hipoteza statystyczna 2. Test statystyczny 3. Błędy I-go i II-go rodzaju 4. Poziom istotności,

Bardziej szczegółowo

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X.

STATYSTYKA MATEMATYCZNA WYKŁAD 4. WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. STATYSTYKA MATEMATYCZNA WYKŁAD 4 WERYFIKACJA HIPOTEZ PARAMETRYCZNYCH X - cecha populacji, θ parametr rozkładu cechy X. Wysuwamy hipotezy: zerową (podstawową H ( θ = θ i alternatywną H, która ma jedną z

Bardziej szczegółowo

Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08

Spis treści. Analiza i modelowanie_nowicki, Chomiak_Księga1.indb :03:08 Spis treści Wstęp.............................................................. 7 Część I Podstawy analizy i modelowania systemów 1. Charakterystyka systemów informacyjnych....................... 13 1.1.

Bardziej szczegółowo

Wykład 4: Statystyki opisowe (część 1)

Wykład 4: Statystyki opisowe (część 1) Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można

Bardziej szczegółowo

Zastosowanie rozmytych map kognitywnych do badania scenariuszy rozwoju jednostek naukowo-dydaktycznych

Zastosowanie rozmytych map kognitywnych do badania scenariuszy rozwoju jednostek naukowo-dydaktycznych Konferencja Systemy Czasu Rzeczywistego 2012 Kraków, 10-12 września 2012 Zastosowanie rozmytych map kognitywnych do badania scenariuszy rozwoju jednostek naukowo-dydaktycznych Piotr Szwed AGH University

Bardziej szczegółowo

OPIS MODUŁU (PRZEDMIOTU), PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A OPIS MODUŁU (PRZEDMIOTU) studia pierwszego stopnia

OPIS MODUŁU (PRZEDMIOTU), PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A OPIS MODUŁU (PRZEDMIOTU) studia pierwszego stopnia Załącznik Nr 1.11 pieczątka jednostki organizacyjnej OPIS MODUŁU (PRZEDMIOTU), PROGRAMU NAUCZANIA ORAZ SPOSOBÓW WERYFIKACJI EFEKTÓW KSZTAŁCENIA CZEŚĆ A OPIS MODUŁU (PRZEDMIOTU) Nazwa modułu (przedmiotu)

Bardziej szczegółowo

Opinia o pracy doktorskiej pt. On active disturbance rejection in robotic motion control autorstwa mgr inż. Rafała Madońskiego

Opinia o pracy doktorskiej pt. On active disturbance rejection in robotic motion control autorstwa mgr inż. Rafała Madońskiego Prof. dr hab. inż. Tadeusz Uhl Katedra Robotyki i Mechatroniki Akademia Górniczo Hutnicza Al. Mickiewicza 30 30-059 Kraków Kraków 09.06.2016 Opinia o pracy doktorskiej pt. On active disturbance rejection

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

Streszczenie pracy doktorskiej Autor: mgr Wojciech Wojaczek Tytuł: Czynniki poznawcze a kryteria oceny przedsiębiorczych szans Wstęp W ciągu

Streszczenie pracy doktorskiej Autor: mgr Wojciech Wojaczek Tytuł: Czynniki poznawcze a kryteria oceny przedsiębiorczych szans Wstęp W ciągu Streszczenie pracy doktorskiej Autor: mgr Wojciech Wojaczek Tytuł: Czynniki poznawcze a kryteria oceny przedsiębiorczych szans Wstęp W ciągu ostatnich kilku dekad diametralnie zmienił się charakter prowadzonej

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu

Bardziej szczegółowo

Statystyka i Analiza Danych

Statystyka i Analiza Danych Warsztaty Statystyka i Analiza Danych Gdańsk, 20-22 lutego 2014 Zastosowania analizy wariancji w opracowywaniu wyników badań empirycznych Janusz Wątroba StatSoft Polska Centrum Zastosowań Matematyki -

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wprowadzenie

Testowanie hipotez statystycznych. Wprowadzenie Wrocław University of Technology Testowanie hipotez statystycznych. Wprowadzenie Jakub Tomczak Politechnika Wrocławska jakub.tomczak@pwr.edu.pl 10.04.2014 Pojęcia wstępne Populacja (statystyczna) zbiór,

Bardziej szczegółowo

Program Logopedia. - opis szczegółowy. Szereg ciszący.

Program Logopedia. - opis szczegółowy. Szereg ciszący. Program Logopedia - opis szczegółowy Pakiet LOGOPEDIA daje możliwość ciągłego monitorowania terapii, pozwala na bieżącą analizę stopnia zaburzenia płynności mowy i zindywidualizowanie procesu terapeutycznego.

Bardziej szczegółowo

Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego

Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego Ewaluacja biegłości językowej Od pomiaru do sztuki pomiaru Liczba zadań a rzetelność testu na przykładzie testów biegłości językowej z języka angielskiego Tomasz Żółtak Instytut Badań Edukacyjnych oraz

Bardziej szczegółowo

Analiza wyników egzaminu gimnazjalnego z języka obcego nowożytnego w roku szkolnym 2014/2015

Analiza wyników egzaminu gimnazjalnego z języka obcego nowożytnego w roku szkolnym 2014/2015 Analiza wyników egzaminu gimnazjalnego z języka obcego nowożytnego w roku szkolnym 2014/2015 Analiza wyników egzaminu gimnazjalnego z języka angielskiego na poziomie podstawowym Arkusz składał się z 40

Bardziej szczegółowo

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych

Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych Uniwersytet Zielonogórski Wydział Elektrotechniki, Informatyki i Telekomunikacji Instytut Sterowania i Systemów Informatycznych ELEMENTY SZTUCZNEJ INTELIGENCJI Laboratorium nr 6 SYSTEMY ROZMYTE TYPU MAMDANIEGO

Bardziej szczegółowo

METODY STATYSTYCZNE W BIOLOGII

METODY STATYSTYCZNE W BIOLOGII METODY STATYSTYCZNE W BIOLOGII 1. Wykład wstępny 2. Populacje i próby danych 3. Testowanie hipotez i estymacja parametrów 4. Planowanie eksperymentów biologicznych 5. Najczęściej wykorzystywane testy statystyczne

Bardziej szczegółowo

Recenzja pracy doktorskiej mgr Tomasza Świsłockiego pt. Wpływ oddziaływań dipolowych na własności spinorowego kondensatu rubidowego

Recenzja pracy doktorskiej mgr Tomasza Świsłockiego pt. Wpływ oddziaływań dipolowych na własności spinorowego kondensatu rubidowego Prof. dr hab. Jan Mostowski Instytut Fizyki PAN Warszawa Warszawa, 15 listopada 2010 r. Recenzja pracy doktorskiej mgr Tomasza Świsłockiego pt. Wpływ oddziaływań dipolowych na własności spinorowego kondensatu

Bardziej szczegółowo

Publiczna Szkoła Podstawowa nr 14 w Opolu. Edukacyjna Wartość Dodana

Publiczna Szkoła Podstawowa nr 14 w Opolu. Edukacyjna Wartość Dodana Publiczna Szkoła Podstawowa nr 14 w Opolu Edukacyjna Wartość Dodana rok szkolny 2014/2015 Edukacyjna Wartość Dodana (EWD) jest miarą efektywności nauczania dla szkoły i uczniów, którzy do danej placówki

Bardziej szczegółowo

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych

zna metody matematyczne w zakresie niezbędnym do formalnego i ilościowego opisu, zrozumienia i modelowania problemów z różnych Grupa efektów kierunkowych: Matematyka stosowana I stopnia - profil praktyczny (od 17 października 2014) Matematyka Stosowana I stopień spec. Matematyka nowoczesnych technologii stacjonarne 2015/2016Z

Bardziej szczegółowo

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II

METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II METODOLOGIA BADAŃ HUMANISTYCZNYCH METODYKA NAUCZANIA JĘZYKA OBCEGO CZ.II Podział zmiennych Zmienne zależne zmienne, które są przedmiotem badania, których związki z innymi zmiennymi chcemy określić Zmienne

Bardziej szczegółowo

Rozwój mowy dziecka OKRES ZDANIA - OD 2 DO 3 ROKU ŻYCIA.

Rozwój mowy dziecka OKRES ZDANIA - OD 2 DO 3 ROKU ŻYCIA. Rozwój mowy dziecka OKRES ZDANIA - OD 2 DO 3 ROKU ŻYCIA. Między 2 a 3 rokiem życia następuje rozkwit mowy dziecka. Dziecko zaczyna budować zdania, początkowo są to zdania proste, które są złożone z dwóch,

Bardziej szczegółowo

Badania biegłości laboratorium poprzez porównania międzylaboratoryjne

Badania biegłości laboratorium poprzez porównania międzylaboratoryjne Badania biegłości laboratorium poprzez porównania międzylaboratoryjne Dr inż. Maciej Wojtczak, Politechnika Łódzka Badanie biegłości (ang. Proficienty testing) laboratorium jest to określenie, za pomocą

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo