Lokalne klasyfikatory jako narzędzie analizy i klasyfikacji sygnałów

Wielkość: px
Rozpocząć pokaz od strony:

Download "Lokalne klasyfikatory jako narzędzie analizy i klasyfikacji sygnałów"

Transkrypt

1 Instytut Podstaw Informatyki Polska Akademia Nauk Lokalne klasyfikatory jako narzędzie analizy i klasyfikacji sygnałów Rozprawa Doktorska Autor: mgr Wit Jakuczun Promotor: dr hab. Jerzy Cytowski Warszawa, 2006 r.

2 ii Strzeszczenie Niniejsza rozprawa została poświęcona problemowi analizy i klasyfikacji sygnałów cyfrowych, rozumianych jako ciąg liczb powstałych w wyniku pomiarów jakiegoś fizycznego zjawiska, na przykład sygnał EEG czy sygnał mowy. Metoda oparta jest na nowym podejściu konstruowania biortogonalnych baz falkowych drugiej generacji, będących uogólnieniem falek klasycznych. Przy konstrukcji bazy korzystam ze znanego i jednego z najlepszych algorytmów konstrukcji klasyfikatorów zwanego maszyną wektorów wspierających(ang. Support Vector Machines- SVM). Konstruowana baza ma dwie cechy, które moim zdaniem wyróżniają ją na tle innych tego typu metod:(a) Lokalność Elementy bazy są lokalne w czasie. Dzięki temu mogę opisywać analizowane sygnały korzystając jedynie z częściowej informacji.(b) Dyskryminacja Elementy bazy są tak konstruowane, aby współczynniki rozwinięcia dla sygnałów z dwu różnych klas decyzyjnych były jak najbardziej różne. Metoda została dokładnie przetestowana na szerokim spektrum danych, tak sztucznych jak i rzeczywistych. Oprócz testów praktycznych praca zawiera też prostą analizę metody z punktu widzenia statystycznej teorii uczenia się, polegającej na oszacowaniu wymiaru Vapnika-Czerwonenkisa. Słowa kluczowe system uczący się, maszyna wektorów wspierających, lifting scheme, lokalny klasyfikator, zespoły klasyfikatorów, wymiar Vapnika-Czerwonenkisa, statystyczna teoria uczenia się

3 iii Podziękowania Pragnę wyrazić swoją wdzięczność mojemu promotorowi dr hab. Jerzemu Cytowskiemu za chęć zajęcia się moją skromną osobą w czasie, gdy powstawała ta praca. Bardzo chciałem podziękować moim współpracownikom z Instytutu Biologii Doświadczalnej im. Marcelego Nenckiego za wielogodzinne rozmowy, które umożliwiły mi lepsze zrozumienie i przez to udoskonalenie tworzonej przeze mnie metody. W szczególności chciałbym złożyć podziękowania profesorowi Andrzejowi Wróblowi, dr Ewie Kublik oraz dr Danielowi Wójcikowi. Ten,ktoniepisałrozprawydoktorskiejniewiejakciężkaipełnawyrzeczeń jest to praca. Szczególnie dotkliwie odczuły to osoby mi najbliższe, rodzina i przyjaciele. Bardzo jestem im wdzięczny za wytrzymanie tego ciężkiego dla nas wszystkich okresu.

4 iv

5 Spis treści Wstęp I 1 Systemy uczące się Definicjeinotacja Statystycznateoriauczeniasię Spójność Oszacowanianaszybkośćzbieżności WymiarVapnika-Czerwonenkisa Kontrola procesu uczenia się. Zasada minimalizacji ryzykastrukturalnego Oszacowanie górne na wymiar Vapnika-Czerwonenkisa dlasumyprzestrzenihipotez Metoda lokalnych klasyfikatorów Notacja liftingschemeijegowariant Wariantupdatefirst Opismetody Definicje v

6 vi SPIS TREŚCI ProximalSuppportVectorMachines Operator PREDICT w postaci iloczynu skalarnego Pełnaregularyzacja Bazyfalkopodobne Lokalneklasyfikatory Przykład Uwagiimplementacyjne Obliczeniarozproszone Efektywny algorytm rozwiązywania pewnych układów równań Oszacowanie górne na wymiar Vapnika-Czerwonenkisa dla przestrzeni hipotez generowanej przez metodę Lokalnychklasyfikatorów Schematy konstrukcji klasyfikatorów AlgorytmArcingkonstrukcjizespołuklasyfikatorów RozszerzeniaalgorytmuArcing Binarne słabe klasyfikatory a problemy wieloklasowe Lokalne klasyfikatory w roli słabych klasyfikatorów Arcingjakoalgorytmkonstrukcjicech Wyniki eksperymentów Opisdanych Danesztuczne Danerzeczywiste Metody weryfikacji i porównywania jakości klasyfikatorów... 85

7 SPIS TREŚCI vii 4.3 Wyniki Pogłębiona analiza danych na przykładzie Gunx Analizapotencjałówwywołanych Wprowadzenie Opiseksperymentu Opismetodyanalizydanych Uzyskanewynikiwrazzkomentarzem Wnioski końcowe Podsumowaniemetodyiuzyskanychrezultatów Sugerowanekierunkirozszerzeń...114

8 viii SPIS TREŚCI

9 Spis rysunków 1.1 Wykresfunkcjig(t) Porównanie oszacowania na wymiar VC dla jednowarstwowej siecineuronowejoograniczonejliczbieatrybutów Diagram obrazujący jedną iterację schematu update first IdeadziałaniaProximalSupportVectorMachine Jednaiteracjaupdatefirst(przykład) Przykładydlaklas1(góra)i2(dół) Zgrubna aproksymacja oraz błąd uzyskany na zbiorze testowym Najlepszeelementybazy WykresoszacowaniawymiaruVCdlan=2 1,...,2 30,d=4 dlawariantuzpełnąregularyzacją WykresoszacowaniawymiaruVCdlan=2 1,...,2 30,dlanieliniowych klasyfikatorów o wielomianowej funkcji jądra o potęgach1,..., PrzykładowepróbkidanychdlazbioruWaveform Przykładowe próbki danych dla zbioru Cylinder-Bell-Funel PrzykładowepróbkidanychdlazbioruControlCharts ix

10 x SPIS RYSUNKÓW 4.4 Przykładowepróbkidanychdlazbioru2-Patterns PrzykładowepróbkidanychdlazbioruTrace PrzykładowepróbkidanychdlazbioruGunx PrzykładowepróbkidanychdlazbioruPendigits PrzykładowepróbkidanychdlazbioruECG PrzykładowepróbkidanychdlazbioruWafer PrzykładowepróbkidanychdlazbioruUSPS Gunx- udział poszczególnych poziomów dekompozycji przy budowiezespołu1000klasyfikatorów Gunx - udział poszczególnych elementów bazy z poziomu 2 dekompozycji przy budowie zespołu 1000 klasyfikatorów Drzewo decyzyjne dla schematu DT+Arcing dla zestawu Gunx Poziom 4 z zaznaczonymi próbkami, które zostały wykorzystane do konstrukcji elementu bazy wybranego przez algorytm indukcjidrzewdecyzyjnych (A) Schemat pokazujący powiązanie między wibrysami, a korą baryłkową(b) Schemat eksperymentu.(c) Przykładowa sesja Elementybazywybieranedlaróżnychszczurów Wybrane elementy bazy wraz ze średnimi z grup KONTROL- NA oraz WARUNKOWANA dla analizowanych szczurów Wynik klasyfikacji poszczególnych potencjałów dla grupy pięciuszczurów Uśrednione potencjały z klas AKTYWNA i NIEAKTYWNA dlagrupyanalizowanychszczurów

11 Spis tabel 2 Podziałsygnałówzewzględunawymiar.... II 4.1 Metody weryfikacji jakości klasyfikacji dla użytych zestawów danych ParametrymetodydlaschematuArcing ParametrymetodydlaschematuSVM+Arcing ParametrymetodydlaschematuDT+Arcing Błąd metody w procentach(± odchylenie standardowe) dla danychsztucznych Błąd metody w procentach(± odchylenie standardowe) dla danychrzeczywistych Porównanie najlepszego wyniku uzyskanego proponowaną metodąznajlepszymwynikiemzliteratury SchematArcing.Porównaniezmetodąopisanąw[23] Schemat SVM+Arcing. Porównanie z metodą opisaną w[23] Schemat DT+Arcing. Porównanie z metodą opisaną w[23]. 101 xi

12 xii SPIS TABEL

13 Spis Algorytmów 1 LiftingScheme(x R n,numoflevels N) InverseLifingScheme(d 1,...,d numoflevels,c numoflevels ) UpdateFirst(x R n,numoflevels N) LinearLocalClassifiers(X,numOfLevels) ParallelUpdateFirst(X,P) Arcing(X,T,L) Arc-xh(X,T,h,L) Arc-xh.OC(X,T,h,L) StackingArcing(X,T,h,L) WybierzLokalneKlasyfikatory(K,p,ǫ) xiii

14 xiv SPIS ALGORYTMÓW

15 Ważniejsze oznaczenia i skróty moczbioru X R n Y={1,...,C} Z = X Y Ω (x,y) X Y zbiórwektorówopisującychwszystkieprzykłady zbióretykietek zbiór wszystkich przykładów z etykietkami rozkład prawdopodobieństwa na Z Przykładzetykietką X={(x i,y i ):i=1,...,l} Z Próbka x i y i A wektoropisującyi-typrzykładzx etykietkai-tegoprzykładuzx macierza,którejwierszetworząwektoryx i ze zbioru X Y macierz diagonalna utworzona z etykietek przykładówzezbiorux I e e 1 macierz jednostkowa wektor złożony z samych jedynek wektor,któregopierwszawspółrzędnajestrówna 1aresztajestrówna0 Θ zbiór parametrów maszyny uczącej się xv

16 xvi WAŻNIEJSZE OZNACZENIA I SKRÓTY R( ) R emp ( ) dim VC ( ) wymiar VC x x(k) x(j) funkcjonał ryzyka empirycznyfunkcjonałryzyka wymiarvapnika-czerwonenkisa skrót od wymiar Vapnika-Czerwonenkisa wektor x k-ta współrzędna wektora x wektor utworzony ze współrzędnych wektora x o indeksach ze zbioru J x o wektorutworzonyznieparzystychwspółrzędnych wektora x x e wektor utworzony z parzystych współrzędnych wektora x d c PREDICT k wektor współczynników falkowych dla wektora x zgrubna aproksymacja dla wektora x UPDATE k operatorpredictdlak-tejwspółrzędnejwektorad operatorupdatedlak-tejwspółrzędnejwektorac level d level poziom dekompozycji metody wektorwspółczynnikówfalkowychdlawektorax dla poziomu dekompozycji level c level zgrubnaaproksymacjadlawektoraxdlapoziomu dekompozycji level

17 WAŻNIEJSZE OZNACZENIA I SKRÓTY xvii d level i c level i L k,level wektorwspółczynnikówfalkowychdlawektorax i dla poziomu dekompozycji level zgrubnaaproksymacjadlawektorax i dlapoziomu dekompozycji level liczbawspółrzędnychwektorac level użytychdo wyliczeniawartościd level (k) c k,level podwektorwektorac level długościl k,level służący dowyliczeniawartościd level (k) PREDICT k,level operatorpredictdlak-tejwspółrzędnejwektorad level UPDATE k,level PREDICT k,level operatorupdatedlak-tejwspółrzędnejwektorac level operatorpredictdlak-tejwspółrzędnejwektorad level dlaschematuupdatefirst w k,level wektorwagsłużacychdowyliczeniak-tegowspółczynnika falkowego na poziomie dekompozycji level ν k,level parametrkontrolującynailealgorytmpsvmdopasowuje się do danych treningowych przy wyznaczaniuwektoraw k,level k(x, y) K D t funkcja jądrowa macierz jądra rozkładprawdopodobieństwanaelementachzbioru X w t-tej iteracji algorytmu typu Arcing

18 xviii WAŻNIEJSZE OZNACZENIA I SKRÓTY h t klasyfikatorkonstruowanyt-tejiteracjialgorytmu typu Arcing T β t VC SVM DT DTW CV-K liczba iteracji w algorytmie typu Arcing wagadlaklasyfikatorah t skrót od Vapnik-Czerwonenkis skrót od Support Vector Machines skrót od Decision Tree skrót od Dynamic Time Warping walidacja krzyżowa z podziałem zbioru X na K części

19 Wstęp Niniejsza rozprawa poświęcona jest problemowi analizy i klasyfikacji sygnałów. Pojęcie sygnału pojawia się w wielu dziedzinach nauki. Systemy magazynowania danych stają się coraz bardziej wydajne, przez co mamy do czynienia z lawinowo rosnącą ilością danych, w postaci cyfrowej, które wymagają dogłębnej analizy. Metoda opisywana przeze mnie w tej pracy należy do metod z pogranicza klasycznych metod analizy sygnałów, takich jak analiza Fouriera czy falki [62],[13] oraz metod klasyfikacji danych[9],[32]. Z założenia jest to metoda, która ma wspomagać badacza w procesie odkrywania wiedzy zawartej w danych. Przezsygnałbędęrozumiałdowolnąfunkcjęf:T X,gdzieT jest zbiorem indeksów określających czas(ewentualnie przestrzeń), a X jest przestrzenią wartości jakie może przyjmować funkcja f. Ze względu na wymiary przestrzeni w których zawarte są zbiory T oraz X, można dokonać podziału takiego,jakwtabeli2. Bardzo często zamiast terminu sygnał używany jest termin szereg czasowy. Jest to szczególnie widoczne w literaturze anglojęzycznej(termin time series). Z tego powodu także w tej pracy będę używał tych terminów zamiennie, cały czas mając na myśli ciąg obserwacji uporządkowanych w czasie(lub I

20 II WSTĘP Jednowymiarowe T R WielowymiaroweT R k dlak>1 Jednokanałowe X R WielokanałoweX R k dlak>1 Jednokanałowe X R WielokanałoweX R k dlak>1 Tabela 2: Podział sygnałów ze względu na wymiar. przestrzeni). Co więcej, będę zakładał, że mam do czynienia z czasem dyskretnym, a długość trwania sygnału jest skończona. Przegląd istniejących metod klasyfikacji sygnałów Większość uniwersalnych metod klasyfikacji, takich jak drzewa decyzyjne[5], sztuczne sieci neuronowe[40] czy też maszyny wektorów wspierających[57], nie uwzględnia tego, że analizowane dane posiadają strukturę czasową albo przestrzenną. Szereg czasowy traktowany jest jak wektor liczb i przetwarzany w całości. Takie podejście nie zawsze prowadzi do optymalnych wyników, a już na pewno z tak otrzymanych klasyfikatorów trudno jest uzyskać informację na temat tego, dlaczego grupa dwóch sygnałów się różni. Z tego powodu badacze bardzo często dokonują wstępnej transformacji sygnałów przed zastosowaniem klasyfikatora. Przetwarzanie danych przed podaniem ich na wejście algorytmu klasyfikującego nazywane jest ekstrakcją cech. Celem takiego wstępnego przetwarzania jest nie tylko wydobycie informacji zawartej w danych, ale także redukcja ich wymiaru. Stosowane są różne metody parametryzacji prowadzące do bardziej zwartego opisu sygna-

21 WSTĘP III łu. Można podzielić je na dwie grupy: metody statystyczne i przetwarzanie sygnałów. Metody statystyczne Metody z tej grupy opierają się na założeniu, że analizowany sygnał jest pewnym procesem stochastycznym. Konstruowanie zwartego opisu sygnału polega na konstrukcji odpowiedniego modelu, a następnie dopasowaniu parametrów tego modelu do analizowanego sygnału. Tak więc różnice między grupami sygnałów sprowadzane są do różnic między modelami odpowiadającymi tym grupom. Najbardziej znanymi metodami tego typu są AR, MA oraz ARMA. Głównym zarzutem wobec powyższych metod jest to, że wymagają, aby analizowany sygnał był stacjonarny, oraz to, że sygnał jest traktowany jako całość. Mimo wspomnianych mankamentów metody te są z powodzeniem stosowane w analizie głosu ludzkiego[27],[12]. Innymi metodami mającymi swoje podłoże w statystyce są PCA(metoda składowych głównych) oraz ICA(metoda składowych niezależnych)[32]. Są to metody, które, chociaż mają swoje źródło w statystyce bardziej pasują do metod z dziedziny przetwarzania sygnałów, gdyż wynikiem ich działanie jest rozkład analizowanych sygnałów w bazie przestrzeni R n. Nie sposób w tym miejscu nie wspomnieć również o łańcuchach Markowa[16].Jesttometoda,wktórejnasygnałpatrzysięjaknasekwencję następujących po sobie zdarzeń, przy czym przejście z jednego zdarzenia do drugiego następuje z pewnym prawdopodobieństwem. Przetwarzanie sygnałów U podłoża metod z tej grupy leży inna filozofia analizy sygnałów. Bardzo ogólnie, można powiedzieć, że analiza pole-

22 IV WSTĘP ga na przedstawieniu analizowanych sygnałów w bardziej przydatnej postaci za pomocą bazy przestrzeni, do której te sygnały należą. Dobrym przykładem metody z tej grupy jest transformata Fouriera[54], w wyniku działania której, otrzymuje się opis sygnału w postaci sumy sinusów i kosinusów o różnych amplitudach i częstotliwościach. Takie przedstawienie jest bardziej odpowiednie w stosunku do zwykłej dziedziny czasowej, jeśli chcemy się czegoś dowiedzieć na temat struktury częstotliwościowej sygnału. Inną ważną metodą analizy sygnałów są falki[13],[59]. Jest to ciągle nowa metoda analizy sygnałów, bardzo dynamicznie rozwijająca się. Bardzo interesujące jest zupełnie nowe podejście do konstrukcji falek zaproponowane przez Wima Sweldensa[53]. Podejście to jest wykorzystywane w niniejszej pracy. Proponowaną przeze mnie metodę lokalnych klasyfikatorów można zaliczyć do drugiej grupy opisywanych metod. Używam tutaj słowa raczej, gdyż nie we wszystkich wariantach metody można mówić, że sygnał jest rozpisywany w bazie przestrzeni liniowej. Metodą najbardziej podobną do prezentowanej w niniejszej pracy jest metoda lokalnych baz dyskryminacyjnych[47]. Jest to metoda oparta na konstrukcji bazy dyskryminacyjnej, a więc podkreślającej przynależność analizowanych sygnałów do różnych klas decyzyjnych, poprzez dobieranie elementów bazy z tak zwanego słownika. Niestety brakuje rzetelnych testów, które wskazywałyby na przydatność tej metody do problemu klasyfikacji sygnałów. Kolejną metodą, która jest podobna w duchu do metody prezentowanej w tej pracy jest metoda oparta na tzw. literałach przedziałowych[23]. Lite-

23 WSTĘP V rał przedziałowy jest funkcją logiczną zwracającą wartość prawda lub fałsz, jeżeli analizowany przedział sygnału spełnia jakiś określony warunek(np. średniajestwiększaod5,albożesygnałjestrosnący).jakwynikaztestów, metoda ta jest bardzo skuteczna[23]. Co więcej, wykorzystanie jej w roli metody ekstrakcji cech prowadzi do jednych z najlepszych wyników na szeroko dostępnych zestawach danych[45]. Połączenie tej metody z algorytmem konstrukcji drzew decyzyjnych prowadzi do klasyfikatorów generujących łatwe w interpretacji reguły przy dobrej jakości klasyfikacji[44]. Metoda ta, jako bardzo podobna do mojej i jednocześnie dająca bardzo dobre wyniki, posłużyła mi za punkt odniesienia. Mówiąc o klasyfikacji sygnałów nie sposób nie wspomnieć o metodzie opisanej w pracy[28]. W pracy tej opisany jest system TClass konstrukcji klasyfikatorów opartych na cechach zmiennych w czasie. Podobnie jak metoda literałów przedziałowych klasyfikator TClass generuje łatwe w interpretacji reguły klasyfikacji. Orócz ciekawej metody klasyfikacji, autor stworzył także bardzo interesujący zestaw danych Auslan(rozdział 4.1.2). Innym wartym uwagi podejściem do problemu klasyfikacji sygnałów są metody oparte na metryce. W metodach tych klasyfikację przeprowadza się sprawdzając, na ile dany sygnał jest podobny do sygnałów o znanej przynależności do klasy decyzyjnej. Metody te różnią się między sobą użytą metryką. Okazuje się, że dla wielu danych zwykła metryka euklidesowa jest bardzo dobrą metodą klasyfikacji[29]. Jedną z ciekawszych metod tego typu jest metoda zwana Dynamic Time Warping(w skrócie DTW)[4]. Głównym zarzutem wobec DTW jest to, że jest to metoda dość kosztowna, chociaż ostatnio pojawiły się prace zawierające modyfikacje metody, zwiększając jej

24 VI WSTĘP efektywność[30]. Motywacja dla stosowania nowej metody Metoda lokalnych klasyfikatorów generuje zestaw cech, które w zależności od użytego schematu mogą być: liniowe lub nieliniowe. Liniowe W tym przypadku metoda generuje współczynniki rozwinięcia analizowanych sygnałów w bazie biortogonalnej. Generowane współczynniki są różne dla sygnałów z różnych klas decyzyjnych. Nieliniowe W tym przypadku metoda generuje zestaw cech wyliczanych przy pomocy nieliniowej funkcji(generowanej przez algorytm SVM [57]). Cechy te są różne dla sygnałów należących do różnych klas decyzyjnych. W obu przypadkach generowane cechy są(1) dyskryminacyjne, czyli przyjmują różne wartości dla sygnałów z różnych klas, oraz(2) lokalne, czyli są wyliczane na podstawie fragmentu sygnału. Proponowana metoda jest przykładem zastosowania schematu lifting-scheme do konstrukcji dyskryminacyjnych baz falkowych. Zastosowanie tego schematu, a dokładniej jego wariantu update-first[41], umożliwiło mi zaproponowanie wydajnego algorytmu konstrukcji dyskryminacyjnych i lokalnych cech. Główną motywacją dla skonstruowania metody była chęć konstrukcji biortogonalnych baz, które umożliwiłyby analizę sygnałów. Z tego względu proponowana metoda nie generuje reguł klasyfikacyjnych, które opisują lokalne zachowanie sygnału tak jak w[23]. Generowane reguły są typu Jeśli współczynnik rozwinięcia(cecha) jest większy od jakiegoś progu to....

25 WSTĘP VII Informacje, jakie daje taka reguła to: fragment sygnału, jaki był użyty do wyliczenia danej cechy poziom dekompozycji z uwzględnieniem tego, że cechy z niższych poziomów korzystają z coraz bardziej uśrednionej wersji sygnału w przypadku, gdy metoda generuje bazę biortogonalną, można badać własności samej bazy(np. transformatę Fouriera). Wszystkie te informacje mogą służyć do uzyskania nieznanej dotychczas wiedzy na temat analizowanych sygnałów. Cel pracy Głównym celem niniejszej pracy jest skonstruowanie nowej metody klasyfikacji sygnałów. Realizacja tego zamierzenia doprowadziła do opisania i rozwiązania w niniejszej pracy następujących zagadnień: Bazy dyksryminacyjne i lokalne klasyfikatory Pierwszym etapem konstrukcji metody było zadaptowanie schematu lifiting-scheme[53] tak, aby można było konstruować bazy o własności dyskryminacyjnej. Własność ta oznacza, że współczynniki rozwinięcia w bazie są różne dla sygnałów z różnych klas decyzyjnych. Drugą własnością bazy jest to, że współczynniki rozwinięcia wyliczane są na podstawie fragmentu sygnału. Sposób konstrukcji metody dał możliwość rozszerzenia metody i wyliczania współczynników dyskryminacyjnych przy pomocy nielinowych funkcji. Rozszerzenie to zostało nazwane metodą lokalnych klasyfikatorów.

26 VIII WSTĘP Klasyfikacja Uznałem, że oprócz metody konstrukcji dyskryminacyjnych baz biortogonalnych(ew. lokalnych klasyfikatorów), należy zaproponować ogólny schemat łączenia uzyskanych klasyfikatorów w celu uzyskania dobrej metody klasyfikacji sygnałów. W tym celu dokonałem adaptacjimetodyarcing[6]tak,abymożnabyłoużyćjejdoklasyfikacji sygnałów należących do więcej niż jednej klasy decyzyjnej, przy jednoczesnym wykorzystaniu binarnych klasyfikatorów jako tzw. słabych klasyfikatorów. Dodatkowo postanowiłem zbadać, czy zastąpienie większościowego głosowania w algorytmie Arcing dodatkowym klasyfikatorem zwiększy jakość klasyfikacji. Wymiar Vapnika-Czerwonenkisa Aby opis metody był możliwie pełny, postanowiłem przeanalizować ją z punktu widzenia statystycznej teorii uczenia się[57]. Skupiłem się na wymiarze Vapnika-Czerwonenkisa, gdyż jest to podstawowy element analizy klasyfikatorów. Łatwość implementacji Przez cały okres konstruowania metody, ważne byłodlamnie,abymetodabyłaprostawimplementacjiiłatwawużyciu. Jest to moja skromna odpowiedź na apel Leo Breimana wyrażony wartykule[8]. Układ pracy Praca składa się z pięciu rozdziałów. Można w niej wydzielić trzy części: część pierwszą teoretyczną, na którą składa się rozdział pierwszy, część drugą, złożoną z rozdziałów drugiego i trzeciego, w której opisuję metodę, część trzecią, którą stanowią rozdział czwarty poświęcony opisowi eksperymentów

27 WSTĘP IX oraz rozdział piąty zawierający podsumowanie oraz najważniejsze kierunki dalszego rozwoju. Rozdział I W rozdziale tym przedstawiam statystyczną teorię uczenia się. Opis jest w dużej mierze oparty na treści książki[57]. Przedstawiam w nim matematyczny model problemu uczenia się oraz przytaczam najważniejsze twierdzenia. Na końcu tego rozdziału zamieściłem oszacowania na wymiar VC dla klasyfikatorów opartych na schemacie dekompozycji, do których należy metoda opisana przeze mnie w tej pracy. Rozdział II Na rozdział ten składa się opis metody lokalnych klasyfikatorów, będącej głównym wynikiem niniejszej rozprawy. Na początku krótko opisuję metodę lifting-scheme, wraz z wykorzystywanym przeze mnie wariantem tej metody update-first. Następnie opisuję metodę lokalnych klasyfikatorów zaczynając od przypadku hierarchicznych baz dyskryminacyjnych, a kończąc na nieliniowej ich wersji, czyli lokalnych klasyfikatorach. W dalszej części opisuję, jak powinna wyglądać implementacja metody. Wspominam też o tym, jak wykorzystać wiele komputerów do zwiększenia efektywności obliczeniowej metody. Rozdział kończę podając oszacowanie na wymiar VC metody dla szczególnych przypadków, wraz z krótkim komentarzem. Rozdział III W rozdziale tym opisuję zmodyfikowany algorytm Arcing, który wykorzystałem do konstrukcji klasyfikatorów wysokiej jakości. Przedstawiam też sposób wykorzystania algorytmu Arcing jako metody konstrukcji cech. Rozdział IV Rozdział ten zawiera opis eksperymentów. Zawarłem w nim,

28 X WSTĘP oprócz samych wyników, opis wszystkich użytych zestawów danych oraz krótki opis metod weryfikacji i porównywania klasyfikatorów. Na końcu tego rozdziału przedstawiam wynik mojej współpracy z Instytutem Biologii Doświadczalnej PAN im. Marcelego Nenckiego. Rozdział V Rozdział ten jest ostatnim rozdziałem niniejszej rozprawy. Zawarłem w nim krótkie podsumowanie opisywanej metody oraz uzyskanych rezultatów, a także najważniejsze kierunki przyszłych rozszerzeń.

29 Rozdział 1 Systemy uczące się Niniejszy rozdział jest poświęcony systemom uczącym się[9],[32]. Przez system uczący się rozumiem pewien program komputerowy, który na podstawie dostarczonych danych jest w stanie znaleźć(wyuczyć się) w nich jakieś reguły, związki. Rozdział jest podzielony na trzy podrozdziały. W pierwszym przytaczam szereg definicji oraz notacji, z których będę korzystać w całej rozprawie. W drugim przedstawiam jedną z matematycznych teorii uczenia się 1,wrazzwłasnymiwynikamibadań.Wostatnimpodrozdzialedokonam przeglądu różnych metod wyboru i walidacji klasyfikatora. 1.1 Definicje i notacja Zacznę od zdefiniowania problemu uczenia się. Będę rozważał następujący zbiórwpostaciiloczynukartezjańskiegoz=x Y,gdzieX R N ayjest pewnym skończonym zbiorem. Dodatkowo będę zakładał, że na X Y jest zadany pewien(nieznany) rozkład prawdopodobieństwa Ω. 1 Napodstawie[56]. 1

30 2 ROZDZIAŁ 1. SYSTEMY UCZĄCE SIĘ Definicja Elementami zbioru X są N-wymiarowe wektory rzeczywiste. Współrzędne każdego wektora x X będę nazywać atrybutami i/lub cechami. Elementy zbioru Y będę nazywać etykietami. Definicja1.1.2Każdąparęz=(x,y) X Ybędęnazywał przykładem lub obiektem. Wektor x zawiera numeryczny opis obiektu a etykietka y identyfikuje klasę decyzyjną do jakiej należy ten obiekt. Definicja Próbką będę nazywał każdy skończony zbiór X={(x i,y i ):i=1,...,l}, gdzie(x i,y i )dlai=1,...,lsąwylosowanezezbiorux Yzgodniezpewnym (być może nieznanym) rozkładem prawdopodobieństwa Ω. Próbkę X, która jest używana do tworzenia klasyfikatora, będę nazywał próbką(zbiorem) treningową, a próbkę, która jest wykorzystywana do testowania klasyfikatora(próbka ta nie jest brana pod uwagę podczas konstrukcji klasyfikatora), próbką testową. Definicja Przez maszynę uczącą się(w skrócie MU) będę rozumiał algorytm implementujący rodzinę funkcji f:x Θ Y, gdzie Θ jest zbiorem parametrów. Tak więc każda maszyna ucząca się definiuje rodzinę funkcji, która jest obliczalna za jej pomocą. Funkcję f(x, θ) dla θ Θ będę też nazywał klasyfikatorem.

31 1.1. DEFINICJE I NOTACJA 3 Definicja Funkcją straty dla problemu klasyfikacji będę nazywał funkcjęl:y Y {0,1}postaci 1 dlay 1 y 2 L(y 1,y 2 )= 0 w przeciwnym przypadku. (1.1) Definicja1.1.6FunkcjonałemryzykadlaMUbędęoznaczałfunkcjęR:Θ [0, 1] zdefiniowaną wzorem R(θ)= L(y,f(x,θ))dΩ(x,y). (1.2) Wartość R(θ) jest też nazywana błędem rzeczywistym dla klasyfikatora f(, θ). Definicja Problem uczenia się dla zadanej maszyny uczącej się jest zdefiniowany jako następujący problem optymalizacyjny: Znaleźćoptymalnyzestawparametrówθ opt Θdlaktórego R(θ opt ) R(θ) θ Θ, (1.3) dysponując jedynie skończonym zbiorem treningowym X przy braku jakichkolwiek informacji(poza istnieniem) na temat rozkładu Ω. WartośćR(θ opt )będęnazywałryzykiemrzeczywistym. Ponieważ do dyspozycji mamy jedynie skończony zbiór przykładów X (zwany zbiorem treningowym), zamiast szukać optymalnego zestawu parametrówθ opt dlafunkcjonałuryzyka,będęszukałoptymalnegozestawuparametrówθ opt X dla próbkowego funkcjonału ryzyka. Definicja Funkcjonałem ryzyka empirycznego(próbkowego) dla pewnejpróbkix={(x i,y i ):i=1,...,l}będęnazywałfunkcjęr emp :Θ [0,1]

32 4 ROZDZIAŁ 1. SYSTEMY UCZĄCE SIĘ postaci R emp (θ)= 1 X (x,y) X L(y,f(x,θ)). (1.4) WartośćR emp (θ)jestteżnazywana błędempróbkowymdlaklasyfikatora f(,θ). Tak więc, zamiast rozwiązywać problem(1.3) będę szukał rozwiązania następującego problemu optymalizacyjnego Znaleźćoptymalnyzestawparametrówθ opt X Θdlaktóregozachodziwarunek R emp (θ opt X ) R emp(θ) θ Θ. (1.5) Tak postawiony problem nosi nazwę indukcyjnej zasady Minimalizacji RyzykaEmpirycznego(wskrócieMRE).WartośćR emp (θ opt X )będęnazywał ryzykiem empirycznym. 1.2 Statystyczna teoria uczenia się Chciałbym teraz przedstawić główne problemy dotyczące problemu uczenia się: Spójność Czy proces uczenia się oparty na zasadzie MRE asymptotycznie (ze względu na liczność zbioru treningowego) prowadzi do minimalizacji funkcjonału ryzyka(1.2)? Szybkość zbieżności Jak szybko, wraz ze wzrostem liczności zbioru treningowego, następuje zbieżność ryzyka empirycznego do ryzyka rzeczy-

33 1.2. STATYSTYCZNA TEORIA UCZENIA SIĘ 5 wistego? Matematycznie chodzi o pokazanie, że zachodzi oszacowanie { } P dla pewnej funkcji Φ(l). sup R(θ) R emp (θ) >ǫ θ Θ Φ(l), Kontrola procesu uczenia się Jakie własności maszyny uczącej się wpływają na zbieżność procesu uczenia się dla małego zbioru uczącego się? Matematycznie można ten problem przedstawić w postaci nierówności R(θ opt ) R emp (θ opt X)+Ψ( X,MU), gdzie funkcja Ψ( X, MU) zależy od wielkości zbioru treningowego oraz od maszyny uczącej się. Powyższe pytania wchodzą w spektrum zainteresowań dziedziny statystyki nazwanej przez jej twórcę, Vladimira Vapnika, Statystyczną Teorią Uczenia Się([57],[56]). Zanim przejdę do dalszego przedstawiania statystycznej teorii uczenia się, chciałbym wprowadzić następujące oznaczenia: Zamiastrozpatrywaćzbiórfunkcjif(,θ)dlaθ Θwrazzfunkcją straty(1.1)zdefiniujęfunkcjęq:z Θ [0,1]następująco gdziez=(x,y). Q(z,θ)=L(y,f(x,θ)), MajączbiórfunkcjiQ(,θ)dlaθ Θmogęzdefiniowaćfunkcjonał ryzyka(1.2) oraz funkcjonał ryzyka empirycznego(1.4) następująco R(θ) = R emp (θ) = 1 X Q(z, θ)dω(z), z=(x,y) X Q(z,θ),

34 6 ROZDZIAŁ 1. SYSTEMY UCZĄCE SIĘ gdziex={(x i,y i ):i=1,...,l}. DlazbiorutreningowegoXtakiego,że X =ldlapewnejliczbynaturalnejl,optymalnyparametrθ opt X,zdefiniowanynierównością(1.5), będęoznaczałsymbolemθ l Spójność Spójność zasady MRE jest najbardziej podstawowym wymaganiem, jakie moglibyśmy jej postawić. Własność ta powoduje, że zastąpienie problemu (1.3) jego próbkową wersją(1.5) ma sens. Definicja Będę mówił, że zasada MRE jest spójna dla zbioru funkcji Q(,θ)dlaθ ΘirozkładuprawdodobieństwaΩzadanegonaZ,jeślidla dowolnej liczby c R zachodzi zbieżność inf R P emp(θ) inf R(θ), θ Θ(c) l θ Θ(c) gdzie zbiór Θ(c) jest zdefiniowany następująco Θ(c)= { θ: } Q(z,θ)dΩ(z)>c,θ Θ. Zanim podam główny wynik dotyczący własności spójności, zdefiniuję pewne pomocnicze funkcje. Definicja1.2.2DlaX={z i =(x i,y i )} l i=1orazzbiorufunkcjiq(,θ)dla θ Θ liczbę wszystkich podziałów zbioru X będą oznaczał przez N Θ (X)= {(Q(z 1,θ),...,Q(z l,θ)):θ Θ}.

35 1.2. STATYSTYCZNA TEORIA UCZENIA SIĘ 7 Definicja1.2.3EntropiąVCdlazbiorufunkcjiQ(,θ)dlaθ Θbędęnazywał funkcję H Θ (l)=elnn Θ (X), gdzie wartość średnia jest liczona po wszystkich l elementowych zbiorach X. Można udowodnić następujące twierdzenie[57] Twierdzenie 1.2.1(Podstawowe twierdzenie teorii uczenia się) Warunkiem koniecznym i dostatecznym na to, aby zasada MRE była spójna jest istnienie granicy lim P l { sup(r(θ) R emp (θ))>ǫ θ Θ } =0 ǫ>0. Widać zatem, że problem spójności zasady MRE można sprowadzić do problemu jednostajnej jednostronnej zbieżności ryzyka empirycznego do ryzyka rzeczywistego. Następne twierdzenie podaje warunek konieczny i dostateczny na jednostajną dwustronną zbieżność ryzyka empirycznego do ryzyka rzeczywistego. Twierdzenie Warunkiem koniecznym i dostatecznym na istnienie granicy lim P l jest istnienie granicy { sup R(θ) R emp (θ) >ǫ θ Θ H Θ (l) lim l l } =0 ǫ>0, =0. (1.6) Ostatnie twierdzenie, które zamierzam zaprezentować w części poświęconej spójności zasady MRE, zostało nazwane przez Vapnika Pierwszym Krokiem Milowym statystycznej teorii uczenia się.

36 8 ROZDZIAŁ 1. SYSTEMY UCZĄCE SIĘ Stwierdzenie 1.2.1(Pierwszy krok milowy) Warunkiem dostatecznym naspójnośćzasadymredlazbiorufunkcjiq(,θ)dlaθ Θjestistnienie granicy H Θ (l) lim =0. (1.7) l l Dowód: Na podstawie twierdzenie wiadomo, że zachodzi zbieżność dwustronna lim P l Zachodzi następujące oszacowanie { sup R(θ) R emp (θ) >ǫ θ Θ } =0 ǫ>0. P{sup θ Θ R(θ) R emp (θ) >ǫ} = P{[sup θ Θ (R(θ) R emp (θ))>ǫ]lub[sup θ Θ (R emp (θ) R((θ))>ǫ]} P{sup θ Θ (R(θ) R emp (θ))>ǫ}. Zatem, zbieżność dwustronna pociąga za sobą zbieżność jednostronną, czyli lim l P{sup θ Θ R(θ) R emp (θ) >ǫ}=0 lim l P{sup θ Θ (R(θ) R emp (θ))>ǫ}=0 ǫ>0. Na podstawie twierdzenia otrzymuję tezę Oszacowania na szybkość zbieżności Oszacowania na szybkość zbieżności można podzielić na dwie części:

37 1.2. STATYSTYCZNA TEORIA UCZENIA SIĘ 9 oszacowania na szybkość zbieżności zależne od rozkładu prawdopodobieństwa Ω oszacowania niezależne od rozkładu prawdopodobieństwa. Oszacowania zależne od rozkładu prawdopodobieństwa Wprowadzę kolejną funkcję, będącą zmienną losową, która odgrywa główną rolę w oszacowaniach na szybkość zbieżności. Definicja1.2.4EntropiąwyżarzonąVCdlazbiorufunkcjiQ(,θ)dlaθ Θ będę nazywał funkcję H Θ ann (l)=lnenθ (X), gdzie średnia jest podobnie jak w przypadku entropii VC po wszystkich l elementowych zbiorach X. Uwaga Na mocy nierówności Jensena ( J(f(x))dΩ(x) J ) f(x)dω(x), gdzie J jest funkcją wypukłą. Przyjmując J(u) = ln(u) otrzymuję nierówność H Θ (l) H Θ ann(l). Można pokazać następujące twierdzenie[57]: Twierdzenie1.2.3DlazbiorufunkcjiQ(,θ)dlaθ ΘorazpewnegorozkładuprawdopodobieństwaΩnaZ=X Yzachodzinierówność { } {( ) } H Θ P sup R(θ) R emp (θ) >ǫ 4exp ann (2l) ǫ 2 l. (1.8) θ Θ l

38 10 ROZDZIAŁ 1. SYSTEMY UCZĄCE SIĘ Stwierdzenie 1.2.2(Drugi krok milowy) Prawa strona nierówności(1.8) zbiega do zera jeśli H Θ ann lim (l) l l =0. (1.9) Zatem zasada MRE jest wykładniczo zbieżna(o ile zachodzi stwierdzenie 1.2.2) wraz ze wzrostem liczności próbki treningowej. Oszacowania niezależne od rozkładu prawdopodobieństwa Należyzauważyć,żefunkcjaH Θ ann ( )jestzmiennąlosowąiprzeztoprzytoczone oszacowania są zależne od konkretnego rozkładu prawdopodobieństwa Ω 2. Bardziej pożądane byłoby oszacowanie niezależne od rozkładu prawdopodobieństwa, a więc poprawne dla wszystkich możliwych problemów uczenia się. Definicja1.2.5FunkcjąwzrostudlazbiorufunkcjiQ(,θ)dlaθ Θ,będę nazywał funkcję postaci G Θ (l)=ln sup N Θ (X). {X: X =l} Funkcja wzrostu nie zależy od rozkładu prawdopodobieństwa. Co więcej, zachodzi następujące oszacowanie H Θ ann G Θ (l). Dzięki powyższej nierówności twierdzenie można sformułować następująco: 2 Awięcodkonkretnegoproblemuuczeniasię!

39 1.2. STATYSTYCZNA TEORIA UCZENIA SIĘ 11 Twierdzenie1.2.4DlazbiorufunkcjiQ(,θ)dlaθ Θorazdlakażdego rozkładu prawdopodobieństwa Ω na Z = X Y zachodzi nierówność { } {( G Θ ) } (2l) P sup R(θ) R emp (θ) >ǫ 4exp ǫ 2 l. (1.10) θ Θ l Stwierdzenie 1.2.3(Trzeci krok milowy) Prawa strona nierówności(1.8) zbiegadozerawtedyitylkowtedy,gdy G Θ (l) lim l l =0. (1.11) Aby móc w praktyce korzystać z twierdzenia należy wiedzieć, jak wyliczaćwartościfunkcjiwzrostug Θ (l).wnastępnymrozdzialeprzytoczętwierdzenie,któreumożliwiefektywneoszacowaniewartościg Θ (l)przywykorzystaniu pojęcia wymiaru Vapnika-Czerwonenkisa maszyny uczącej się WymiarVapnika-Czerwonenkisa Wymiar Vapnika-Czerwonenkisa(wymiar VC) jest podstawowym narzędziem stosowanym w statystycznej teorii uczenia się. W skrócie można powiedzieć, że jest to parametr charakteryzujący pojemność rozważanego zbioru funkcji generowanego przez pewną maszynę uczącą się, gdzie przez pojemność rozumiem potencjalną zdolność do dopasowania się do zbioru treningowego o określonej liczności. Zanim zdefiniuję wymiar VC, przytoczę twierdzenie[57], które charakteryzuje własność funkcji wzrostu.

40 12 ROZDZIAŁ 1. SYSTEMY UCZĄCE SIĘ Twierdzenie 1.2.5(Struktura Funkcji Wzrostu) Dowolna funkcja wzrostu albo spełnia równość G Θ (l)=lln2, albo jest ograniczona z góry i spełnia nierówność G Θ (l) h (ln lh +1 ), gdzie h jest taką liczbą całkowitą dla której G Θ (l) = hln2 (1.12) G Θ (h+1) (h+1)ln2. (1.13) Definicja Wymiarem Vapnika-Czerwonenkisa dla zbioru funkcji Q(, θ) dlaθ Θbędęnazywałliczbęnaturalnąhztwierdzenia1.2.5ioznaczał symbolemdim VC.Jeślifunkcjawzrostujestliniowa(1.13)tobędęmówił,że wymiar VC jest nieskończony. W przeciwnym przypadku(1.13) będę mówił, że wymiar VC jest skończony. Ze względu na to, że powyższa definicja jest mało przydatna w praktyce, poniżej zamieszczam definicję równoważną, która jest dużo wygodniejsza w zastosowaniach. Definicja1.2.7WymiaremVCdlazbiorufunkcjiQ(,θ),gdzieθ Θbędę nazywałmaksymalnąliczbęhwektorówz 1,...,z h takich,żemogąonezostać rozdzielonedodwuklasnawszystkiemożliwesposoby(=2 h ).Takwięc dim VC ({Q(,θ):θ Θ})=max { l:π Θ (l)=2 l},

41 1.2. STATYSTYCZNA TEORIA UCZENIA SIĘ 13 gdzie Π Θ (l)= sup N Θ (X)=2 log 2 (e)gθ(l). X X Y, X =l FnkcjęΠ Θ ( )będęnazywałpróbkowąfunkcjąwzrostu. Powyższa definicja wymiaru Vapnika-Czerwonenkisa jest dużo bardziej praktyczna w zastosowaniach. W szczególności, z definicji tej wynika, że, aby oszacować wymiar Vapnika-Czerwonenkisa z góry, wystarczy wykazać, że dla pewnej liczby v(będącej owym oszacowaniem) zachodzi warunek Π(v)<2 v. Na koniec zamieszczam lemat z trzema własnościami funkcji wzrostu. Własności te wykorzystałem przy oszacowaniu wymiaru Vapnika-Czerwnonenkisa dla przestrzeni hipotez generowanych przez metodę opisywaną w niniejszej pracy. Lemat 1.2.1(Własności próbkowej funkcji wzrostu) Próbkowa funkcja wzrostu posiada następujące własności Π Θ (l) 2 l, JeśliΘ=Θ 1 Θ 2,to Π Θ 1 Θ 2 (l) Π Θ 1 (l)+π Θ 2 (l), Jeślidim VC (H)=h<,todlal>h Π Θ (l) ( ) h el, h

42 14 ROZDZIAŁ 1. SYSTEMY UCZĄCE SIĘ Dowód: Pierwsza własność wynika od razu z definicji funkcji wzrostu i z faktu, że liczba wszystkich podzbiorów zbioru l elementowego jest równa 2 l. zatem Aby dowieść drugiej własności zauważmy, że Π Θ 1 Θ 2 (l) = sup N Θ 1 Θ 2 (X)=N Θ 1 (X) N Θ 2 (X), X X Y, X =l N Θ 1 Θ 2 (X) ( sup N Θ 1 (X)+N Θ 2 (X) ) =Π Θ 1 (l)+π Θ 2 (l). X X Y, X =l Trzecia własność wynika z twierdzenia Mianowicie (ln lh ) +1 G Θ (l) h = hln = ( ) el =ln h ( ) h el. h Kontrola procesu uczenia się. Zasada minimalizacji ryzyka strukturalnego. W poprzednim podrozdziale pokazałem, że zasada MRE jest zbieżna wykładniczo, dla maszyny uczącej, dla której G Θ (l) lim l l =0, ale ciągle te oszacowania nie są konstruktywne. Pokażę, że można, korzystając z pojęcia wymiaru VC, stworzyć oszacowania, które dają informację o tym, jak kontrolować proces uczenia się.

43 1.2. STATYSTYCZNA TEORIA UCZENIA SIĘ 15 Niech η będzie równa prawej stronie nierówności(1.10), czyli {( G Θ ) } (2l) η=4exp ǫ 2 l. l Wyznaczając ǫ względem η otrzymuję, że ǫ= GΘ (2l) ln η 4 l. Korzystając z powyższego wzoru na ǫ i twierdzenia 1.2.4, otrzymuję następującą nierówność, która jest prawdziwa dla każdego θ Θ z prawdopodobieństwemwiększymlubrównym1 η R(θ) R emp (θ) R(θ) R emp (θ) ǫ= GΘ (2l) ln η 4 l, czyli R(θ) R emp (θ)+ GΘ (2l) ln η 4 l. (1.14) Bazując na twierdzeniu 1.2.5, powyższe oszacowanie można zapisać, korzystając z pojęcia wymiaru VC R(θ) R emp (θ)+ hln 2el h lnη 4 l. (1.15) Nierówność ta wskazuje, że aby zminimalizować ryzyko rzeczywiste R(θ) należynietylkozminimalizowaćryzykoempiryczner emp (θ),alerównieżdrugi składniksumy,zależnyodwymiaruvczbiorufunkcji{q(,θ):θ Θ}generowanych przez pewną maszynę uczącą się. Analiza drugiego członu prawej strony powyższej nierówności, czyli wyrażenia sugeruje, że: hln 2el h lnη 4 l,

44 16 ROZDZIAŁ 1. SYSTEMY UCZĄCE SIĘ wyrażenietomalejewrazzewzrosteml, dla małych l, pozostaje manipulacja wymiarem VC. Załóżmy,żezbiórfunkcjiH={Q(,θ):θ Θ}posiadanastępującą strukturę H 1 H 2... H n...h, gdzieh k ={Q(,θ):θ Θ k }orazzachodząnastępującenierówności dim VC (H 1 ) dim VC (H 2 )... dim VC (H n )... Dysponując taką strukturą, możemy minimalizować prawą stronę(1.15) poprzez następujące postępowanie 1. Dla każdego k zminimalizować ryzyko empiryczne wybierając odpowiedniąfunkcjęq(,θl k) H k 2.Optymalnyzestawparametrówθ l jestrównyθ k l dla ktakiego,że gdzieh k =dim VC (H k ). k=argmin k=1,2,... R emp (θ k l )+ h k ln 2el h k ln η 4 l, Powyższa zasada indukcji została nazwana zasadą minimalizacji ryzyka strukturalnego Oszacowanie górne na wymiar Vapnika-Czerwonenkisa dla sumy przestrzeni hipotez Coraz bardziej popularne stają się metody konstrukcji klasyfikatorów oparte na schemacie dekompozycji. Przykładem może być metoda opisana w niniejszej rozprawie, na którą można patrzeć jak na metodę konstrukcji wielu klasyfikatorów, z których każdy korzysta z innego opisu danych. Innym

45 1.2. STATYSTYCZNA TEORIA UCZENIA SIĘ 17 problemem, który można rozwiązywać stosując dekompozycję, jest sytuacja, w której dane są wybrakowane[36]. Kolejnym przykładem jest ograniczanie liczby atrybutów do konstrukcji klasyfikatora[25], w celu zredukowania kosztów obliczeniowych. Będę zakładał, że zbiór parametrów Θ jest postaci r Θ= Θ k, k=1 gdziedlawszystichk 1,k 2 {1,...,r}takich,żek 1 k 2 niezachodziżadna zdwóchzależności:θ k1 Θ k2 lubθ k2 Θ 3 k1.niech H k ={Q(,θ):θ Θ k }. Dodatkowo będę zakładał, że dim VC (H k ) d k=1,...,r, dlapewnejliczbyd N. Niech funkcje g(t) oraz h(t) będą zdefiniowane następująco g(t) = log 2(et), t 1 b(t) = 1 g(t) = 1 1 log 2 (et) t. Łatwo pokazać, że g(t)=1dlatrównegom orazm , Dlat>m 1 funkcjeg(t)orazb(t)sąmalejąceorazg(t)<1,ab(t)>1. Można wykazać, że zachodzi następujące twierdzenie: 3 Zakładamtutaj,żejeśliΘ k1 Θ k2 to{q(,θ):θ Θ k1 } {Q(,θ):θ Θ k2 }

46 18 ROZDZIAŁ 1. SYSTEMY UCZĄCE SIĘ 1.5 y=1 g(t) Rysunek 1.1: Wykres funkcji g(t) Twierdzenie1.2.6NiechΘ= K k=1 Θ k,dim VC (H k ) d.wtedydla H= {Q(, θ): θ Θ} zachodzi następująca nierówność dim VC (H) v(α), dla v(α)=αd+β(α)log 2 (K), gdzieβ(α)=b ( α+ log 2 (K) ) orazα>max{m1 log 2 K,0}. d d Dowód: Z lematu wynika, że Π Θ (v(α)) K ( ) d ev(α). Wystarczy zatem pokazać, że zachodzi nierówność 2 v(α) K d ( ) d ev(α). (1.16) d

47 1.2. STATYSTYCZNA TEORIA UCZENIA SIĘ 19 Pomysł dowodu jest oparty na następującej zależności 2 v(α) =2 1 β(α) v(α) 2 ( 1 1 β(α))v(α). (1.17) Ztego,żev(α)>β(α)log 2 (K),możnawywnioskowaćnierówność 2 1 β(α) v(α) >K (1.18) Dodatkowo, jak to udowadniam w dalszej części dowodu, zachodzi nierówność 2 (1 1 β(α))v(α) > Z równań(1.17) oraz(1.16) wynika, że ( ) d ( ) d ev(α) ev(α) 2 v(α) K K. d d Powyższa nierówność jest równoważna z tym, że ( ) d ev(α). (1.19) d dim VC (H) v(α). Przejdę teraz do dowodu nierówności(1.19). Łatwo wykazać, że nierówność 2 st >et, zachodzidlas>g(t)= log 2 (et) t. Nierówność(1.19) może zostać przepisana następująco 2 (1 β(α)) 1 v(α) d >e v(α) d Ztego,że2 st >etdlas>g(t)wynikawaruneknaβ(α) 1 1 β(α) >g Z definicji funkcji β(α) wynika, że ( ) ( v(α) =g d. α+β(α) log 2(K) d 1 1 ( β(α) =g α+ log ) 2(K) d. ).

48 20 ROZDZIAŁ 1. SYSTEMY UCZĄCE SIĘ Oznacza to, że warunek na β(α) jest równoważny następującej nierówności g ( α+ log 2(K) d ) >g ( α+β(α) log 2(K) d Dlaα>m 1 log 2 (K) powyższa nierówność zachodzi, ponieważ β(α) > 1 oraz d g ( α+β(α) log 2 (K) ) d jestfunkcjąmalejącą. Pokazaneoszacowaniezachodzidlawszystkichα>max{m 1 log 2 K d,0}. Powstajepytanie,czydasięwyznaczyćtakieα,żetooszacowaniebędzie minimalne α =arg min v(α). α>max{m 1 log 2 K,0} d Niestety nie istnieje proste rozwiązanie powyższego problemu optymalizacyjnegoidlategowyznaczanieoptymalnegoα przeprowadziłemjedyniepoprzez obliczenia na komputerze. ). Przykład Załóżmy, że dysponujemy maszyną uczącą się obliczającą funkcje postaci f(x,θ)= x,θ, dlaθ Θ=R n.łatwopokazać[56],żedim VC ({Q(,θ):θ Θ})=n. Rozważmysytuację,wktórejwektorθ R n jestróżnyodzerajedyniedlas< n współrzędnych. Takie ograniczenie jest szczególnie korzystne, ze względu nakosztwyliczeniaf(,θ).zdrugiejstronyponieważfunkcjaf(,θ)działa de facto w przestrzeni s, wymiarowej trywialne oszacowanie na wymiar VC (czyli n) wydaje się mocno nieostre. Będę rozważał następujący schemat dekompozycji zbioru parametrów Θ Θ= ( n s) k=1 Θ k,

49 1.2. STATYSTYCZNA TEORIA UCZENIA SIĘ 21 gdzieθ k jestzbioremparametrów,któresąniezerowejedyniedlasargumentównależącychdok-tegopodzbiorus elementowegozbioru{1,2,...,n}. Takwięczbiór H k zawierafunkcje,którezależąjedynieodsargumentów, zatemdim VC (H k )=s.napodstawietwierdzenia1.2.6zachodzinastępujące oszacowanie dim VC (H) αs+β(α)log 2 ( n s ). Powyższą nierówność można dalej oszacować korzystając z wariantu nierówności Stirlinga[25] ( ) ( n en s s ) s, otrzymując oszacowanie na wymiar VC postaci dim VC (H) αs+β(α)log 2 ( en s ) s. Problem wymiaru VC dla jednowarstwowej sieci neuronowej o ograniczonej liczbie atrybutów był poruszany w pracy[25]. Uzyskane tam oszacowanie jest postaci ( ) en dim VC (H) 2.71(s+1)log 2 s+1 Na rysunku 1.2 widać wykresy oszacowania zaprezentowanego w tej pracy oraz w pracy[25]. Na podstawie tego rysunku można wnioskować, że obydwa oszacowania są istotnym polepszeniem w stosunku do oszacowania trywialnegodlasistotniemniejszegoodn..

50 22 ROZDZIAŁ 1. SYSTEMY UCZĄCE SIĘ Oszacowanie trywialne Van Horn i Martinez Nowe oszacowanie Rysunek 1.2: Porównanie oszacowania na wymiar VC dla jednowarstwowej sieci neuronowej o ograniczonej liczbie atrybutów. Kolorem czerwonym jest zaznaczone oszacowanie zaprezentowane przeze mnie. Kolorem zielonym, oszacowanie zaprezentowane w pracy[25]. Przyjąłem n = 1000 oraz s=1,...,100.

51 Rozdział 2 Metoda lokalnych klasyfikatorów W niniejszym rozdziale zawarłem opis opracowanej przeze mnie metody analizy i klasyfikacji sygnałów. Metoda jest połączeniem dwóch metod pochodzących z różnych dziedzin: lifting scheme i SVM. Lifting scheme Jest to metoda konstrukcji baz falkowych zaproponowana przez Wima Sweldensa[53]. Główną jej zaletą jest to, że cała konstrukcja jest przeprowadzana w dziedzinie czasu(przestrzeni dla falek wielowymiarowych) bez potrzeby używania transformaty Fouriera. Oparcie się jedynie na dziedzinie czasu powoduje, że metoda ta jest bardzo łatwa w implementacji[17]. Co więcej nie ma problemów w przypadku, gdy mamy do czynienia z dziedzinami zwartymi(np. z odcinkiem). Mimo tych wszystkich zalet, postanowiłem zastosować troszkę zmienioną wersję oryginalnej metody lifting scheme. Modyfikacja ta znana jest w literaturze pod nazwą update first i jest dokładnie opisana w[41]. W 23

52 24 ROZDZIAŁ 2. METODA LOKALNYCH KLASYFIKATORÓW dalszej części pracy będę używał nazwy lifting scheme mając na myśli wersję update first. Maszyna wektorów wspierających Algorytm SVM został opracowany w dużej mierze przez Vladimira Vapnika[57]. Jest to moim zdaniem jeden z najpiękniejszych przykładów, w którym nastąpiło przejście od czystej teorii(w tym przypadku statystycznej teorii uczenia sią) do praktyki. Dzisiaj istnieje bardzo dużo odmian i wariantów oryginalnej metody SVM, a sama metoda okazała się jedną z najlepszych metod indukcji klasyfikatorów. W dużym skrócie można powiedzieć, że metoda ta poszukuje hiperpłaszczyzny w wielowymiarowej przestrzeni(wymiar tej przestrzeni jest ogromny, a nawet może to być przestrzeń nieskończenie wymiarowa), która rozdziela przykłady ze zbioru treningowego, zrzutowane do tej przestrzeni przez odpowiednią funkcję zwaną jądrem. W wyniku połączenia technik związanych z cyfrowym przetwarzaniem sygnałów oraz metod klasyfikacji, uzyskałem narzędzie, które może być wykorzystywane przez grono badaczy łączących w swojej działalności oba nurty analizy danych. Jak już wspominałem, główną motywacją przy tworzeniu nowej metody analizy sygnałów była chęć uzyskania narzędzia, które będzie łatwe w użyciu, zarówno ze względu na kwestie implementacyjne, jak również możliwości zrozumienia procesów, które są ukryte w analizowanych danych. 2.1 Notacja Zanim przejdę do opisywania metody, chciałbym najpierw wprowadzić oznaczenia. Tak jak wcześniej, będę zakładał, że jest dany l elementowy zbiór

53 2.2. LIFTING SCHEME I JEGO WARIANT 25 treningowyx = {(x i,y i ) X Y : i = 1,...,l}dlaX R n oraz Y={ 1,+1}.Tymrazemn wymiarowewektoryx i sąpoprostudyskretnymisygnałami[12].oznaczato,żek-tawspółrzędnawektorax i czylix i (k) jestk-tąpróbkąsygnałux i. DladowolnegozbioruindeksówJ {1,...,n}idowolnegon wymiarowego wektorax,zapisemx(j)będęoznaczałwektorpostaci(x(j)) j J.DlaJskładającegosięjedyniezindeksówparzystychbędęużywałoznaczeniax e zamiast x(j). Podobnie dla J składającego się jedynie z indeksów nieparzystych będęużywałoznaczeniax o zamiastx(j). 2.2 Algorytm Lifting Scheme oraz jego wariant update first Schemat lifting scheme został wprowadzony przez Wima Sweldensa[53]. Jest to algorytm konstrukcji baz falkowych, w którym w przeciwieństwie do metod klasycznych([13],[59]) nie korzysta się z transformaty Fouriera. Cała konstrukcja jest przeprowadzana w dziedzinie czasu(przestrzeni dla sygnałów wielowymiarowych). Uwolnienie się od transformaty Fouriera umożliwiło twórcy metody Sweldensowi zaproponowanie ogólnego schematu konstrukcji tzw. falek drugiej generacji. Nazwa ta, chociaż dość pretensjonalna, wydaje się być w pełni uzasadniona, gdyż zaproponowany schemat umożliwia tworzenie bardzo nietypowych baz falkowych[52],[51]. Zanim przedstawię szkic algorytmu lifting scheme muszę zdefiniować trzy kroki, które stanowią trzon metody: SPLIT, PREDICT oraz UPDATE. W dalszej części rozdziału będę zakładał, że mam do czynienia z przestrzenią

54 26 ROZDZIAŁ 2. METODA LOKALNYCH KLASYFIKATORÓW R n,gdzien=2 s dlapewnejliczbynaturalnejs,ax R n. SPLITWektorxjestrozdzielanynadwawektoryopołowękrótsze:x o oraz x e. PREDICTZwektorówx o orazx e wyliczanyjestnowywektord R n/2 w sposób następujący d(k)=x e (k) PREDICT k (x o ). OperatorPREDICT k : R n/2 Rworyginalnymsformułowaniu jest funkcjonałem, a wartość d(k) jest błędem predykcji k-tej parzystejpróbkizapomocąliniowejkombinacjipróbeknieparzystychx o. UPDATEMającwyliczonywektord,wyliczamywektorc R n/2,zwany zgrubną aproksymacją(ang. coarse approximation) sygnału x. Podobnie jak w przypadku poprzedniego kroku, wartości współrzędnych wektora c wyliczamy korzystając z następującej formuły c(k)=x o (k)+update k (d). gdzieupdate k : R n/2 Rjestfunkcjonałem.Kroktenpełnirolę uśredniania i decymacji. Rozumiem przez to, że c jest uśrednioną i skróconą wersją wektora x. W oryginalnym sformułowaniu operator UPDATE był dobierany tak, aby momenty(do pewnego rzędu) dla wektora c były równe momentom dla wektora x. W najprostszej wersji jest to warunek na równość średnich. Procedurę LiftingScheme przedstawiłem w postaci Algorytmu 1. Wartozwrócićuwagę,żeoperatoryPREDICT, orazupdate, sąindeksowane zarówno poziomem level jak i numerem współrzędnej k. Oznacza

55 2.2. LIFTING SCHEME I JEGO WARIANT 27 to,żesąonewpełniniezależneodsiebienawzajem.wartozauważyćuwagę,żealgorytmtenwyliczawspółczynnikirozwinięciad 1,...,d numoflevels w pewnej bazie falkowej bez bezpośredniego konstruowania elementów tej bazy. Odpowiednio dobierając owe operatory można uzyskać bazy o różnych własnościach. W[53] od operatora PREDICT żąda się, aby współczynniki d( ) były równe zero, jeśli lokalnie sygnał jest wielomianem stopnia co najwyżej p dla pewnego ustalonego p. Co więcej, operator UPDATE jest wyznaczany w zależności od operatora PREDICT. Dzięki takim warunkom uzyskane bazy falkowe mają odpowiednią gładkość oraz, co jest może ważniejsze z punktu widzeniazastosowań,większośćwspółczynnikówd jestrówna0,oilesygnał x jest gładki. Dzięki temu do opisu tego typu sygnałów potrzeba dużo mniej informacji w stosunku do liczby próbek. Własność ta nazywana jest własnością kompresji. Ważną własnością algorytmu LiftingScheme jest to, że dla dowolnych operatorówpredic, orazupdate, możnapodaćalgorytminverse- LiftingScheme(Algorytm 2) odwrotny do LifitingScheme i to niezależnie od tego, na jakie operatory się zdecydujemy. Dzięki własności odwracalności wystarczy, że operatory PREDICT oraz UPDATE są liniowe, aby otrzymać całkowicie ogólny schemat wyliczania współczynników rozwinięcia sygnału x w biortogonalnej bazie, definiowanej poprzez dobór tych operatorów Wariant update first Po opisaniu ogólnego schematu lifting scheme chciałbym przejść do opisu wariantu UpdateFirst, który wykorzystałem w mojej metodzie. Modyfi-

Lokalne klasyfikatory jako narzędzie analizy i

Lokalne klasyfikatory jako narzędzie analizy i Lokalne klasyfikatory jako narzędzie analizy i klasyfikacji sygnałów 25 listopada 2005 Lokalne klasyfikatory... 2 Część I Hierarchiczne biortogonalne bazy dyskryminacyjne Lokalne klasyfikatory... 3 Sformułowanie

Bardziej szczegółowo

Lokalne klasyfikatory jako narzędzie analizy i klasyfikacji sygnałów. Wit Jakuczun

Lokalne klasyfikatory jako narzędzie analizy i klasyfikacji sygnałów. Wit Jakuczun Lokalne klasyfikatory jako narzędzie analizy i klasyfikacji sygnałów Lokalne klasyfikatory... 2 Plan Referatu Część I- Lokalne Klasyfikatory Schemat Liftingu Proximal Support Vector Machines(PSVM) Przykład

Bardziej szczegółowo

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun

Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów. Wit Jakuczun Konstrukcja biortogonalnych baz dyskryminacyjnych dla problemu klasyfikacji sygnałów Politechnika Warszawska Strona 1 Podstawowe definicje Politechnika Warszawska Strona 2 Podstawowe definicje Zbiór treningowy

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

komputery? Andrzej Skowron, Hung Son Nguyen Instytut Matematyki, Wydział MIM, UW

komputery? Andrzej Skowron, Hung Son Nguyen  Instytut Matematyki, Wydział MIM, UW Czego moga się nauczyć komputery? Andrzej Skowron, Hung Son Nguyen son@mimuw.edu.pl; skowron@mimuw.edu.pl Instytut Matematyki, Wydział MIM, UW colt.tex Czego mogą się nauczyć komputery? Andrzej Skowron,

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory

Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Statystyka i opracowanie danych Podstawy wnioskowania statystycznego. Prawo wielkich liczb. Centralne twierdzenie graniczne. Estymacja i estymatory Dr Anna ADRIAN Paw B5, pok 407 adrian@tempus.metal.agh.edu.pl

Bardziej szczegółowo

Znaleźć wzór ogólny i zbadać istnienie granicy ciągu określonego rekurencyjnie:

Znaleźć wzór ogólny i zbadać istnienie granicy ciągu określonego rekurencyjnie: Ciągi rekurencyjne Zadanie 1 Znaleźć wzór ogólny i zbadać istnienie granicy ciągu określonego rekurencyjnie: w dwóch przypadkach: dla i, oraz dla i. Wskazówka Należy poszukiwać rozwiązania w postaci, gdzie

Bardziej szczegółowo

Przekształcenia widmowe Transformata Fouriera. Adam Wojciechowski

Przekształcenia widmowe Transformata Fouriera. Adam Wojciechowski Przekształcenia widmowe Transformata Fouriera Adam Wojciechowski Przekształcenia widmowe Odmiana przekształceń kontekstowych, w których kontekstem jest w zasadzie cały obraz. Za pomocą transformaty Fouriera

Bardziej szczegółowo

Dystrybucje, wiadomości wstępne (I)

Dystrybucje, wiadomości wstępne (I) Temat 8 Dystrybucje, wiadomości wstępne (I) Wielkości fizyczne opisujemy najczęściej przyporządkowując im funkcje (np. zależne od czasu). Inną drogą opisu tych wielkości jest przyporządkowanie im funkcjonałów

Bardziej szczegółowo

Układy równań i nierówności liniowych

Układy równań i nierówności liniowych Układy równań i nierówności liniowych Wiesław Krakowiak 1 grudnia 2010 1 Układy równań liniowych DEFINICJA 11 Układem równań m liniowych o n niewiadomych X 1,, X n, nazywamy układ postaci: a 11 X 1 + +

Bardziej szczegółowo

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k. Funkcje wymierne Jerzy Rutkowski Teoria Przypomnijmy, że przez R[x] oznaczamy zbiór wszystkich wielomianów zmiennej x i o współczynnikach rzeczywistych Definicja Funkcją wymierną jednej zmiennej nazywamy

Bardziej szczegółowo

SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa

SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa SIMR 06/07, Analiza, wykład, 07-0- Przestrzeń wektorowa Przestrzeń wektorowa (liniowa) - przestrzeń (zbiór) w której określone są działania (funkcje) dodawania elementów i mnożenia elementów przez liczbę

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

Testowanie hipotez statystycznych.

Testowanie hipotez statystycznych. Statystyka Wykład 10 Wrocław, 22 grudnia 2011 Testowanie hipotez statystycznych Definicja. Hipotezą statystyczną nazywamy stwierdzenie dotyczące parametrów populacji. Definicja. Dwie komplementarne w problemie

Bardziej szczegółowo

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18 Eksploracja Danych wykład 4 Sebastian Zając WMP.SNŚ UKSW 10 maja 2017 Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja 2017 1 / 18 Klasyfikacja danych Klasyfikacja Najczęściej stosowana (najstarsza)

Bardziej szczegółowo

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ.

ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ. ROZKŁAD MATERIAŁU DO II KLASY LICEUM (ZAKRES ROZSZERZONY) A WYMAGANIA PODSTAWY PROGRAMOWEJ. LICZBA TEMAT GODZIN LEKCYJNYCH Potęgi, pierwiastki i logarytmy (8 h) Potęgi 3 Pierwiastki 3 Potęgi o wykładnikach

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

LOGIKA I TEORIA ZBIORÓW

LOGIKA I TEORIA ZBIORÓW LOGIKA I TEORIA ZBIORÓW Logika Logika jest nauką zajmującą się zdaniami Z punktu widzenia logiki istotne jest, czy dane zdanie jest prawdziwe, czy nie Nie jest natomiast istotne o czym to zdanie mówi Definicja

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Statystyka matematyczna dla leśników

Statystyka matematyczna dla leśników Statystyka matematyczna dla leśników Wydział Leśny Kierunek leśnictwo Studia Stacjonarne I Stopnia Rok akademicki 03/04 Wykład 5 Testy statystyczne Ogólne zasady testowania hipotez statystycznych, rodzaje

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Cyfrowe przetwarzanie i kompresja danych

Cyfrowe przetwarzanie i kompresja danych Cyfrowe przetwarzanie i kompresja danych dr inż.. Wojciech Zając Wykład 5. Dyskretna transformata falkowa Schemat systemu transmisji danych wizyjnych Źródło danych Przetwarzanie Przesył Przetwarzanie Prezentacja

Bardziej szczegółowo

Zajęcia nr. 3 notatki

Zajęcia nr. 3 notatki Zajęcia nr. 3 notatki 22 kwietnia 2005 1 Funkcje liczbowe wprowadzenie Istnieje nieskończenie wiele funkcji w matematyce. W dodaktu nie wszystkie są liczbowe. Rozpatruje się funkcje które pobierają argumenty

Bardziej szczegółowo

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU

Analiza danych. http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Analiza danych Wstęp Jakub Wróblewski jakubw@pjwstk.edu.pl http://zajecia.jakubw.pl/ TEMATYKA PRZEDMIOTU Różne aspekty analizy danych Reprezentacja graficzna danych Metody statystyczne: estymacja parametrów

Bardziej szczegółowo

Układy równań liniowych

Układy równań liniowych Układy równań liniowych Niech K będzie ciałem. Niech n, m N. Równanie liniowe nad ciałem K z niewiadomymi (lub zmiennymi) x 1, x 2,..., x n K definiujemy jako formę zdaniową zmiennej (x 1,..., x n ) K

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Informacja o przestrzeniach Hilberta

Informacja o przestrzeniach Hilberta Temat 10 Informacja o przestrzeniach Hilberta 10.1 Przestrzenie unitarne, iloczyn skalarny Niech dana będzie przestrzeń liniowa X. Załóżmy, że każdej parze elementów x, y X została przyporządkowana liczba

Bardziej szczegółowo

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań

Opis efektów kształcenia dla programu kształcenia (kierunkowe efekty kształcenia) WIEDZA. rozumie cywilizacyjne znaczenie matematyki i jej zastosowań TABELA ODNIESIEŃ EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA PROGRAMU KSZTAŁCENIA DO EFEKTÓW KSZTAŁCENIA OKREŚLONYCH DLA OBSZARU KSZTAŁCENIA I PROFILU STUDIÓW PROGRAM KSZTAŁCENIA: POZIOM KSZTAŁCENIA: PROFIL KSZTAŁCENIA:

Bardziej szczegółowo

WYMAGANIA Z WIEDZY I UMIEJĘTNOŚCI NA POSZCZEGÓLNE STOPNIE SZKOLNE DLA KLASY CZWARTEJ H. zakres rozszerzony. Wiadomości i umiejętności

WYMAGANIA Z WIEDZY I UMIEJĘTNOŚCI NA POSZCZEGÓLNE STOPNIE SZKOLNE DLA KLASY CZWARTEJ H. zakres rozszerzony. Wiadomości i umiejętności WYMAGANIA Z WIEDZY I UMIEJĘTNOŚCI NA POSZCZEGÓLNE STOPNIE SZKOLNE DLA KLASY CZWARTEJ H. zakres rozszerzony Funkcja wykładnicza i funkcja logarytmiczna. Stopień Wiadomości i umiejętności -definiować potęgę

Bardziej szczegółowo

Programowanie celowe #1

Programowanie celowe #1 Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem

Bardziej szczegółowo

Definicje i przykłady

Definicje i przykłady Rozdział 1 Definicje i przykłady 1.1 Definicja równania różniczkowego 1.1 DEFINICJA. Równaniem różniczkowym zwyczajnym rzędu n nazywamy równanie F (t, x, ẋ, ẍ,..., x (n) ) = 0. (1.1) W równaniu tym t jest

Bardziej szczegółowo

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać układu równań liniowych Układ liniowych równań algebraicznych

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

Teoretyczne podstawy programowania liniowego

Teoretyczne podstawy programowania liniowego Teoretyczne podstawy programowania liniowego Elementy algebry liniowej Plan Kombinacja liniowa Definicja Kombinacja liniowa wektorów (punktów) x 1, x 2,, x k R n to wektor x R n k taki, że x = i=1 λ i

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych:

W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: W rachunku prawdopodobieństwa wyróżniamy dwie zasadnicze grupy rozkładów zmiennych losowych: Zmienne losowe skokowe (dyskretne) przyjmujące co najwyżej przeliczalnie wiele wartości Zmienne losowe ciągłe

Bardziej szczegółowo

3a. Wstęp: Elementarne równania i nierówności

3a. Wstęp: Elementarne równania i nierówności 3a. Wstęp: Elementarne równania i nierówności Grzegorz Kosiorowski Uniwersytet Ekonomiczny w Krakowie zima 2017/2018 Grzegorz Kosiorowski (Uniwersytet Ekonomiczny 3a. Wstęp: w Krakowie) Elementarne równania

Bardziej szczegółowo

Programowanie liniowe

Programowanie liniowe Programowanie liniowe Maciej Drwal maciej.drwal@pwr.wroc.pl 1 Problem programowania liniowego min x c T x (1) Ax b, (2) x 0. (3) gdzie A R m n, c R n, b R m. Oznaczmy przez x rozwiązanie optymalne, tzn.

Bardziej szczegółowo

Klasyfikator liniowy Wstęp Klasyfikator liniowy jest najprostszym możliwym klasyfikatorem. Zakłada on liniową separację liniowy podział dwóch klas między sobą. Przedstawia to poniższy rysunek: 5 4 3 2

Bardziej szczegółowo

Pochodne cząstkowe i ich zastosowanie. Ekstrema lokalne funkcji

Pochodne cząstkowe i ich zastosowanie. Ekstrema lokalne funkcji Pochodne cząstkowe i ich zastosowanie. Ekstrema lokalne funkcji Adam Kiersztyn Lublin 2014 Adam Kiersztyn () Pochodne cząstkowe i ich zastosowanie. Ekstrema lokalne funkcji maj 2014 1 / 24 Zanim przejdziemy

Bardziej szczegółowo

Klasyfikacja LDA + walidacja

Klasyfikacja LDA + walidacja Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja

Bardziej szczegółowo

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu

1 Metody rozwiązywania równań nieliniowych. Postawienie problemu 1 Metody rozwiązywania równań nieliniowych. Postawienie problemu Dla danej funkcji ciągłej f znaleźć wartości x, dla których f(x) = 0. (1) 2 Przedział izolacji pierwiastka Będziemy zakładać, że równanie

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

13. Równania różniczkowe - portrety fazowe

13. Równania różniczkowe - portrety fazowe 13. Równania różniczkowe - portrety fazowe Grzegorz Kosiorowski Uniwersytet Ekonomiczny w Krakowie rzegorz Kosiorowski (Uniwersytet Ekonomiczny 13. wrównania Krakowie) różniczkowe - portrety fazowe 1 /

Bardziej szczegółowo

przetworzonego sygnału

przetworzonego sygnału Synteza falek ortogonalnych na podstawie oceny przetworzonego sygnału Instytut Informatyki Politechnika Łódzka 28 lutego 2012 Plan prezentacji 1 Sformułowanie problemu 2 3 4 Historia przekształcenia falkowego

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

domykanie relacji, relacja równoważności, rozkłady zbiorów

domykanie relacji, relacja równoważności, rozkłady zbiorów 1 of 8 2012-03-28 17:45 Logika i teoria mnogości/wykład 5: Para uporządkowana iloczyn kartezjański relacje domykanie relacji relacja równoważności rozkłady zbiorów From Studia Informatyczne < Logika i

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Rozdział 6. Ciągłość. 6.1 Granica funkcji

Rozdział 6. Ciągłość. 6.1 Granica funkcji Rozdział 6 Ciągłość 6.1 Granica funkcji Podamy najpierw dwie definicje granicy funkcji w punkcie i pokażemy ich równoważność. Definicja Cauchy ego granicy funkcji w punkcie. Niech f : X R, gdzie X R oraz

Bardziej szczegółowo

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2)

Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2) Zastosowanie sztucznych sieci neuronowych w prognozowaniu szeregów czasowych (prezentacja 2) Ewa Wołoszko Praca pisana pod kierunkiem Pani dr hab. Małgorzaty Doman Plan tego wystąpienia Teoria Narzędzia

Bardziej szczegółowo

WYKŁAD 9 METODY ZMIENNEJ METRYKI

WYKŁAD 9 METODY ZMIENNEJ METRYKI WYKŁAD 9 METODY ZMIENNEJ METRYKI Kierunki sprzężone. Metoda Newtona Raphsona daje dobre przybliżenie najlepszego kierunku poszukiwań, lecz jest to okupione znacznym kosztem obliczeniowym zwykle postać

Bardziej szczegółowo

Informacja w perspektywie obliczeniowej. Informacje, liczby i obliczenia

Informacja w perspektywie obliczeniowej. Informacje, liczby i obliczenia Informacja w perspektywie obliczeniowej Informacje, liczby i obliczenia Cztery punkty odniesienia (dla pojęcia informacji) ŚWIAT ontologia fizyka UMYSŁ psychologia epistemologia JĘZYK lingwistyka nauki

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych Agenda Instytut Matematyki Politechniki Łódzkiej 2 stycznia 2012 Agenda Agenda 1 Wprowadzenie Agenda 2 Hipoteza oraz błędy I i II rodzaju Hipoteza alternatywna Statystyka testowa Zbiór krytyczny Poziom

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium MATLAB Zadanie nr 1 Regresja liniowa autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z liniowym zadaniem najmniejszych

Bardziej szczegółowo

Układy stochastyczne

Układy stochastyczne Instytut Informatyki Uniwersytetu Śląskiego 21 stycznia 2009 Definicja Definicja Proces stochastyczny to funkcja losowa, czyli funkcja matematyczna, której wartości leżą w przestrzeni zdarzeń losowych.

Bardziej szczegółowo

0 + 0 = 0, = 1, = 1, = 0.

0 + 0 = 0, = 1, = 1, = 0. 5 Kody liniowe Jak już wiemy, w celu przesłania zakodowanego tekstu dzielimy go na bloki i do każdego z bloków dodajemy tak zwane bity sprawdzające. Bity te są w ścisłej zależności z bitami informacyjnymi,

Bardziej szczegółowo

Indukcja. Materiały pomocnicze do wykładu. wykładowca: dr Magdalena Kacprzak

Indukcja. Materiały pomocnicze do wykładu. wykładowca: dr Magdalena Kacprzak Indukcja Materiały pomocnicze do wykładu wykładowca: dr Magdalena Kacprzak Charakteryzacja zbioru liczb naturalnych Arytmetyka liczb naturalnych Jedną z najważniejszych teorii matematycznych jest arytmetyka

Bardziej szczegółowo

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne. Funkcja homograficzna. Definicja. Funkcja homograficzna jest to funkcja określona wzorem f() = a + b c + d, () gdzie współczynniki

Bardziej szczegółowo

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne)

Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Klasyfikacja obiektów Drzewa decyzyjne (drzewa klasyfikacyjne) Tadeusz Pankowski www.put.poznan.pl/~tadeusz.pankowski Klasyfikacja i predykcja. Odkrywaniem reguł klasyfikacji nazywamy proces znajdowania

Bardziej szczegółowo

1 Relacje i odwzorowania

1 Relacje i odwzorowania Relacje i odwzorowania Relacje Jacek Kłopotowski Zadania z analizy matematycznej I Wykazać, że jeśli relacja ρ X X jest przeciwzwrotna i przechodnia, to jest przeciwsymetryczna Zbadać czy relacja ρ X X

Bardziej szczegółowo

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH

UKŁADY ALGEBRAICZNYCH RÓWNAŃ LINIOWYCH Transport, studia I stopnia rok akademicki 2011/2012 Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Uwagi wstępne Układ liniowych równań algebraicznych można

Bardziej szczegółowo

Algebra Boole a i jej zastosowania

Algebra Boole a i jej zastosowania lgebra oole a i jej zastosowania Wprowadzenie Niech dany będzie zbiór dwuelementowy, którego elementy oznaczymy symbolami 0 oraz 1, tj. {0, 1}. W zbiorze tym określamy działania sumy :, iloczynu : _ oraz

Bardziej szczegółowo

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych

Bardziej szczegółowo

Spis treści 3 SPIS TREŚCI

Spis treści 3 SPIS TREŚCI Spis treści 3 SPIS TREŚCI PRZEDMOWA... 1. WNIOSKOWANIE STATYSTYCZNE JAKO DYSCYPLINA MATEMATYCZNA... Metody statystyczne w analizie i prognozowaniu zjawisk ekonomicznych... Badania statystyczne podstawowe

Bardziej szczegółowo

9.9 Algorytmy przeglądu

9.9 Algorytmy przeglądu 14 9. PODSTAWOWE PROBLEMY JEDNOMASZYNOWE 9.9 Algorytmy przeglądu Metody przeglądu dla problemu 1 r j,q j C max były analizowane między innymi w pracach 25, 51, 129, 238. Jak dotychczas najbardziej elegancka

Bardziej szczegółowo

Metody klasyfikacji danych - część 1 p.1/24

Metody klasyfikacji danych - część 1 p.1/24 Metody klasyfikacji danych - część 1 Inteligentne Usługi Informacyjne Jerzy Dembski Metody klasyfikacji danych - część 1 p.1/24 Plan wykładu - Zadanie klasyfikacji danych - Przeglad problemów klasyfikacji

Bardziej szczegółowo

Matematyka dyskretna dla informatyków

Matematyka dyskretna dla informatyków Matematyka dyskretna dla informatyków Część I: Elementy kombinatoryki Jerzy Jaworski Zbigniew Palka Jerzy Szymański Uniwersytet im. Adama Mickiewicza Poznań 2007 4 Zależności rekurencyjne Wiele zależności

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Autoreferat do rozprawy doktorskiej OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Michał Mazur Gliwice 2016 1 2 Montaż samochodów na linii w

Bardziej szczegółowo

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport Michał Krzemiński Streszczenie Projekt dotyczy metod generowania oraz badania własności statystycznych ciągów liczb pseudolosowych.

Bardziej szczegółowo

2. Definicja pochodnej w R n

2. Definicja pochodnej w R n 2. Definicja pochodnej w R n Niech będzie dana funkcja f : U R określona na zbiorze otwartym U R n. Pochodną kierunkową w punkcie a U w kierunku wektora u R n nazywamy granicę u f(a) = lim t 0 f(a + tu)

Bardziej szczegółowo

B jest liniowo niezależny V = lin (B) 1. Układ pusty jest bazą przestrzeni trywialnej {θ}. a i v i = i I. b i v i, (a i b i ) v i = θ.

B jest liniowo niezależny V = lin (B) 1. Układ pusty jest bazą przestrzeni trywialnej {θ}. a i v i = i I. b i v i, (a i b i ) v i = θ. 8 Baza i wymiar Definicja 8.1. Bazą przestrzeni liniowej nazywamy liniowo niezależny układ jej wektorów, który generuję tę przestrzeń. Innymi słowy, układ B = (v i ) i I wektorów z przestrzeni V jest bazą

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Podstawy Sztucznej Inteligencji (PSZT)

Podstawy Sztucznej Inteligencji (PSZT) Podstawy Sztucznej Inteligencji (PSZT) Paweł Wawrzyński Uczenie maszynowe Sztuczne sieci neuronowe Plan na dziś Uczenie maszynowe Problem aproksymacji funkcji Sieci neuronowe PSZT, zima 2013, wykład 12

Bardziej szczegółowo

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15 VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady

Bardziej szczegółowo

Wokół Problemu Steinhausa z teorii liczb

Wokół Problemu Steinhausa z teorii liczb Wokół Problemu Steinhausa z teorii liczb Konferencja MathPAD 0 Piotr Jędrzejewicz Wydział Matematyki i Informatyki Uniwersytetu Mikołaja Kopernika w Toruniu Celem referatu jest przedstawienie sposobu wykorzystania

Bardziej szczegółowo

n=0 (n + r)a n x n+r 1 (n + r)(n + r 1)a n x n+r 2. Wykorzystując te obliczenia otrzymujemy, że lewa strona równania (1) jest równa

n=0 (n + r)a n x n+r 1 (n + r)(n + r 1)a n x n+r 2. Wykorzystując te obliczenia otrzymujemy, że lewa strona równania (1) jest równa Równanie Bessela Będziemy rozważać następujące równanie Bessela x y xy x ν )y 0 ) gdzie ν 0 jest pewnym parametrem Rozwiązania równania ) nazywamy funkcjami Bessela rzędu ν Sprawdzamy, że x 0 jest regularnym

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Spacery losowe generowanie realizacji procesu losowego

Spacery losowe generowanie realizacji procesu losowego Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z

Bardziej szczegółowo

KLASYFIKACJA. Słownik języka polskiego

KLASYFIKACJA. Słownik języka polskiego KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu

Bardziej szczegółowo

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott

Struktury danych i złożoność obliczeniowa Wykład 5. Prof. dr hab. inż. Jan Magott Struktury danych i złożoność obliczeniowa Wykład 5 Prof. dr hab. inż. Jan Magott DMT rozwiązuje problem decyzyjny π przy kodowaniu e w co najwyżej wielomianowym czasie, jeśli dla wszystkich łańcuchów wejściowych

Bardziej szczegółowo

Indukcja matematyczna

Indukcja matematyczna Indukcja matematyczna 1 Zasada indukcji Rozpatrzmy najpierw następujący przykład. Przykład 1 Oblicz sumę 1 + + 5 +... + (n 1). Dyskusja. Widzimy że dla n = 1 ostatnim składnikiem powyższej sumy jest n

Bardziej szczegółowo

Wykład Matematyka A, I rok, egzamin ustny w sem. letnim r. ak. 2002/2003. Każdy zdający losuje jedno pytanie teoretyczne i jedno praktyczne.

Wykład Matematyka A, I rok, egzamin ustny w sem. letnim r. ak. 2002/2003. Każdy zdający losuje jedno pytanie teoretyczne i jedno praktyczne. Wykład Matematyka A, I rok, egzamin ustny w sem. letnim r. ak. 2002/2003. Każdy zdający losuje jedno pytanie teoretyczne i jedno praktyczne. pytania teoretyczne:. Co to znaczy, że wektory v, v 2 i v 3

Bardziej szczegółowo

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( )

Statystyka. Rozkład prawdopodobieństwa Testowanie hipotez. Wykład III ( ) Statystyka Rozkład prawdopodobieństwa Testowanie hipotez Wykład III (04.01.2016) Rozkład t-studenta Rozkład T jest rozkładem pomocniczym we wnioskowaniu statystycznym; stosuje się go wyznaczenia przedziału

Bardziej szczegółowo

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora.

W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora. 1. Podstawy matematyki 1.1. Geometria analityczna W naukach technicznych większość rozpatrywanych wielkości możemy zapisać w jednej z trzech postaci: skalara, wektora oraz tensora. Skalarem w fizyce nazywamy

Bardziej szczegółowo

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy

istocie dziedzina zajmująca się poszukiwaniem zależności na podstawie prowadzenia doświadczeń jest o wiele starsza: tak na przykład matematycy MODEL REGRESJI LINIOWEJ. METODA NAJMNIEJSZYCH KWADRATÓW Analiza regresji zajmuje się badaniem zależności pomiędzy interesującymi nas wielkościami (zmiennymi), mające na celu konstrukcję modelu, który dobrze

Bardziej szczegółowo

Wykład 4 Przebieg zmienności funkcji. Badanie dziedziny oraz wyznaczanie granic funkcji poznaliśmy na poprzednich wykładach.

Wykład 4 Przebieg zmienności funkcji. Badanie dziedziny oraz wyznaczanie granic funkcji poznaliśmy na poprzednich wykładach. Wykład Przebieg zmienności funkcji. Celem badania przebiegu zmienności funkcji y = f() jest poznanie ważnych własności tej funkcji na podstawie jej wzoru. Efekty badania pozwalają naszkicować wykres badanej

Bardziej szczegółowo

Zaawansowane algorytmy i struktury danych

Zaawansowane algorytmy i struktury danych Zaawansowane algorytmy i struktury danych u dr Barbary Marszał-Paszek Opracowanie pytań teoretycznych z egzaminów. Strona 1 z 12 Pytania teoretyczne z egzaminu pisemnego z 25 czerwca 2014 (studia dzienne)

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH

ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH Transport, studia I stopnia Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Postać ogólna równania nieliniowego Często występującym, ważnym problemem obliczeniowym

Bardziej szczegółowo

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania

Prognozowanie i Symulacje. Wykład I. Matematyczne metody prognozowania Prognozowanie i Symulacje. Wykład I. e-mail:e.kozlovski@pollub.pl Spis treści Szeregi czasowe 1 Szeregi czasowe 2 3 Szeregi czasowe Definicja 1 Szereg czasowy jest to proces stochastyczny z czasem dyskretnym

Bardziej szczegółowo

Przykładami ciągów, które Czytelnik dobrze zna (a jeśli nie, to niniejszym poznaje), jest ciąg arytmetyczny:

Przykładami ciągów, które Czytelnik dobrze zna (a jeśli nie, to niniejszym poznaje), jest ciąg arytmetyczny: Podstawowe definicje Definicja ciągu Ciągiem nazywamy funkcję na zbiorze liczb naturalnych, tzn. przyporządkowanie każdej liczbie naturalnej jakiejś liczby rzeczywistej. (Mówimy wtedy o ciągu o wyrazach

Bardziej szczegółowo

ZALICZENIE WYKŁADU: 30.I.2019

ZALICZENIE WYKŁADU: 30.I.2019 MATEMATYCZNE PODSTAWY KOGNITYWISTYKI ZALICZENIE WYKŁADU: 30.I.2019 KOGNITYWISTYKA UAM, 2018 2019 Imię i nazwisko:.......... POGROMCY PTAKÓW STYMFALIJSKICH 1. [2 punkty] Podaj definicję warunku łączności

Bardziej szczegółowo

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane

Bardziej szczegółowo