Kryteria selekcji modelu w eksperymentalnym rozpoznawaniu sygnałów zdekomponowanych w bazach falkowych

Podobne dokumenty
Własności estymatorów regresji porządkowej z karą LASSO

Estymatory regresji rangowej oparte na metodzie LASSO

10. Redukcja wymiaru - metoda PCA

2. Empiryczna wersja klasyfikatora bayesowskiego

5. Analiza dyskryminacyjna: FLD, LDA, QDA

Wykład 4 Wybór najlepszej procedury. Estymacja parametrów re

7. Maszyny wektorów podpierajacych SVMs

Metody systemowe i decyzyjne w informatyce

Rozpoznawanie obrazów

Stosowana Analiza Regresji

TRANSFORMATA FALKOWA WYBRANYCH SYGNAŁÓW SYMULACYJNYCH

Sposoby opisu i modelowania zakłóceń kanałowych

PRZYKŁAD ZASTOSOWANIA DOKŁADNEGO NIEPARAMETRYCZNEGO PRZEDZIAŁU UFNOŚCI DLA VaR. Wojciech Zieliński

PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM

Metody systemowe i decyzyjne w informatyce

Regresja liniowa w R Piotr J. Sobczyk

Stosowana Analiza Regresji

LABORATORIUM PODSTAW TELEKOMUNIKACJI

Spis treści Wstęp Estymacja Testowanie. Efekty losowe. Bogumiła Koprowska, Elżbieta Kukla

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Wykład 5 Teoria eksperymentu

LABORATORIUM AKUSTYKI MUZYCZNEJ. Ćw. nr 12. Analiza falkowa dźwięków instrumentów muzycznych. 1. PODSTAWY TEORETYCZNE ANALIZY FALKOWEJ.

Model regresji wielokrotnej Wykład 14 ( ) Przykład ceny domów w Chicago

O ŚREDNIEJ STATYSTYCZNEJ

Laboratorium Przetwarzania Sygnałów

Przetwarzanie Sygnałów. Zastosowanie Transformaty Falkowej w nadzorowaniu

Porównanie modeli regresji. klasycznymi modelami regresji liniowej i logistycznej

Porównanie błędu predykcji dla różnych metod estymacji współczynników w modelu liniowym, scenariusz p bliskie lub większe od n

Wybór modelu i ocena jakości klasyfikatora

Szacowanie optymalnego systemu Bonus-Malus przy pomocy Pseudo-MLE. Joanna Sawicka

Systemy pomiarowo-diagnostyczne. Metody uczenia maszynowego wykład II 2017/2018

Metody Ekonometryczne

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Wstęp do Metod Systemowych i Decyzyjnych Opracowanie: Jakub Tomczak

WSTĘP DO REGRESJI LOGISTYCZNEJ. Dr Wioleta Drobik-Czwarno

CYFROWE PRZETWARZANIE SYGNAŁÓW

Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska

KORELACJA 1. Wykres rozrzutu ocena związku między zmiennymi X i Y. 2. Współczynnik korelacji Pearsona

Eksploracja Danych. wykład 4. Sebastian Zając. 10 maja 2017 WMP.SNŚ UKSW. Sebastian Zając (WMP.SNŚ UKSW) Eksploracja Danych 10 maja / 18

Komputerowa Analiza Danych Doświadczalnych

ESTYMACJA BŁĘDU PREDYKCJI I JEJ ZASTOSOWANIA

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - zastosowanie na sztucznym zbiorze danych

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Adrian Horzyk

Wojciech Skwirz

Testowanie hipotez. Hipoteza prosta zawiera jeden element, np. H 0 : θ = 2, hipoteza złożona zawiera więcej niż jeden element, np. H 0 : θ > 4.

I jest narzędziem służącym do porównywania rozproszenia dwóch zmiennych. Używamy go tylko, gdy pomiędzy zmiennymi istnieje logiczny związek

Konferencja Statystyka Matematyczna Wisła 2013

DRZEWA REGRESYJNE I LASY LOSOWE JAKO

Ważne rozkłady i twierdzenia c.d.

WYKŁAD 6. Witold Bednorz, Paweł Wolff. Rachunek Prawdopodobieństwa, WNE, Uniwersytet Warszawski. 1 Instytut Matematyki

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Inteligentna analiza danych

Ekonometria. Wprowadzenie do modelowania ekonometrycznego Estymator KMNK. Jakub Mućk. Katedra Ekonomii Ilościowej

Selekcja modelu liniowego i predykcja metodami losowych podprzestrzeni

Funkcje charakterystyczne zmiennych losowych, linie regresji 1-go i 2-go rodzaju

9. Praktyczna ocena jakości klasyfikacji

Propensity score matching (PSM)

Stacjonarność Integracja. Integracja. Integracja

Zastosowania sieci neuronowych

Ekonometria. Weryfikacja liniowego modelu jednorównaniowego. Jakub Mućk. Katedra Ekonomii Ilościowej

Detekcja punktów zainteresowania

Monte Carlo, bootstrap, jacknife

Laboratorium Przetwarzania Sygnałów Biomedycznych

Automatyczne rozpoznawanie mowy - wybrane zagadnienia / Ryszard Makowski. Wrocław, Spis treści

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

Cyfrowe przetwarzanie obrazów i sygnałów Wykład 8 AiR III

Maszyny wektorów podpierajacych w regresji rangowej

Analiza szeregów czasowych: 6. Liniowe modele niestacjonarne

Testowanie hipotez statystycznych

Prawdopodobieństwo i rozkład normalny cd.

Badania eksperymentalne

Klasyfikacja naiwny Bayes

Statystyczna analiza danych 1

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

estymacja wskaźnika bardzo niskiej intensywności pracy z wykorzystaniem modelu faya-herriota i jego rozszerzeń

Opis wykonanych badań naukowych oraz uzyskanych wyników

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version

Rozkład Gaussa i test χ2

Wykład 7 Teoria eksperymentu

SZTUCZNA INTELIGENCJA

Analiza danych. TEMATYKA PRZEDMIOTU

Zrównoleglona optymalizacja stochastyczna na dużych zbiorach danych

Techniki Optymalizacji: Metody regresji

Najprostsze modele sieci z rekurencją. sieci Hopfielda; sieci uczone regułą Hebba; sieć Hamminga;

Zmiany fazy/okresu oscylacji Chandlera i rocznej we współrzędnych bieguna ziemskiego.

ZASTOSOWANIE SPLOTU FUNKCJI DO OPISU WŁASNOŚCI NIEZAWODNOŚCIOWYCH UKŁADÓW Z REZERWOWANIEM

Estymacja parametrów w modelu normalnym

Wykład 1 Próba i populacja. Estymacja parametrów z wykorzystaniem metody bootstrap

(LMP-Liniowy model prawdopodobieństwa)

Implementacja filtru Canny ego

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 7 i 8 - Efektywność estymatorów, przedziały ufności

Kombinacja jądrowych estymatorów gęstości w klasyfikacji - testy na sztucznych danych

Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Elektroniki

O ŚREDNIEJ STATYSTYCZNEJ

Metoda najmniejszych kwadratów

Transkrypt:

Kryteria selekcji modelu w eksperymentalnym rozpoznawaniu sygnałów zdekomponowanych w bazach falkowych Urszula Libal 1 Streszczenie: Artykuł przedstawia wyniki eksperymentalnego badania zależności między wielkościa modelu a wartościa ryzyka błędnego rozpoznawania sygnałów. Eksperyment został przeprowadzony dla zaszumionych sygnałów sinusoidalnego i trójkatnego, zdekomponowanych w bazach falkowych Haara. Falkowa reprezentacja sygnału w postaci współczynników falkowych stanowi pełny model. Do selekcji współczynników zredukowanego modelu użyto algorytmu LASSO (Least Absolute Shrinkage and Selection Operator). Zredukowane modele zostały poddane automatycznej klasyfikacji za pomoca algorytmu 5NN (5 Nearest Neighbours). Celem eksperymentu było wyznaczenie optymalnej wielkości modelu wyselekcjonowanej za pomoca algorytmu LASSO, dla której eksperymentalne ryzyko błędnej klasyfikacji osiagnie minimum. Otrzymany rozmiar modelu dla zaproponowanego kryterium (MIN) porównano z modelami opartymi o kryteria Akaike (AIC) i Bayesa (BIC) dla kilku poziomów zaszumienia sygnałów. Słowa kluczowe: klasyfikacja, falki, selekcja modelu, dekompozycja sygnału 1. Wprowadzenie Wybór modelu ma kluczowe znaczenie w wielu zagadnieniach opartych o empiryczne dane. Odpowiednio dobrany model nie powinien być ani zbyt uproszczony, ani zbyt skomplikowany (redundantny). W niniejszym artykule zbadano wpływ zmniejszenia modelu sygnału dzięki zastosowaniu nowego kryterium MIN na jakość rozpoznawania mierzoną ryzykiem błędnej klasyfikacji. 1.1. Zaszumiony sygnał Rozważano problem rozpoznawania sygnałów pochodzących z dwóch klas. W każdej klasie sygnały zawierają zaszumiony wzorzec f(t): s(t i ) = f(t i ) + cu i + ɛz i, (1) gdzie t i = i p 0, i = 0, 1,..., p 0 1, a zmienne losowe {Z i } i {U i } są i.i.d. z rozkładu normalnego Z i N (0; 1) oraz jednostajnego U i U( 1; 1). 1 Instytut Informatyki, Automatyki i Robotyki, Politechnika Wrocławska, ul. Janiszewskiego 11/17, 50-372 Wrocław, urszula.libal@pwr.wroc.pl

W eksperymencie użyto następujących wzorców: fala sinusoidalna f 1 (t) w klasie 1 oraz fala trójkątna f 2 (t) w klasie 2, co zostało pokazane na rysunku Rys. 1. Poziom szumu gaussowskiego ustalono na ɛ = 0.05, natomiast dla szumu jednostajnego przyjęto wartości między c = 0.7 a c = 1.6. Rys. 1. Deterministyczne wzorce klas: sygnał sinusoidalny f 1 (t) i trójkątny f 2 (t) oraz sygnały zaszumione s(t i ) = f(t i ) + cu i + ɛz i dla ɛ = 0.05, c = 0.7 i c = 1.6, co odpowiada stosunkowi sygnału do łącznego szumu na poziomach SNR=7.8 [db] i 0.7 [db]. 1.2. Falkowa reprezentacja sygnału W dziedzinie czasowo-częstotliwościowej, po dekompozycji w bazach falkowych, sygnał (1) jest reprezentowany przez ciągi współczynników falkowych W (s(t)) = (c j0, d j0, d j0 +1,..., d j1 1) = x, (2) gdzie c j0 = (c j0 k) k - ciąg falkowych współczynników aproksymacji dla zgrubnej skali j 0, a d j = (d jk ) k - ciągi falkowych współczynników detali dla skal j = j 0, j 0 + 1,..., j 1 1. Szczegółowy opis dekompozycji sygnału w bazach falkowych można znaleźć w książkach Daubechies [2] oraz Hasiewicza i Śliwińskiego [4]. Falkowa aproksymacja sygnału ma następującą postać: s (t) k c j0 kφ j0 k (t) + j 1 1 j=j 0 d jk ψ jk (t) (3) k gdzie φ jk i ψ jk to odpowiednio przeskalowana i przesunięta w czasie funkcja skalujaca i falka-matka. 1.3. Selektor LASSO ( Least Absolute Shrinkage and Selection Operator) Algorytm LASSO wyznacza estymator ˆβ = ( ˆβ 1, ˆβ 2,..., ˆβ p ) falkowej reprezentacji sygnału β dla pewnego progu λ > 0 według następującego schematu: ˆβ = argmin y Xβ 2 = argmin ( n y i i=1 ) 2 p β j x ij, (4) j=1 przy β 1 = p β j λ, (5) j=1

gdzie macierz obserwacji X nxp (n-liczba sygnałów w ciągu uczącym, p-liczba cech) oraz wektor odpowiedzi y są dane. Techniczne szczegóły realizacji algorytmu LASSO można znaleźć we wspólnej pracy Efrona, Hastiego, Johnstone a i Tibshirani ego [3], natomiast metoda progowania cech dzięki regularyzacji w normie l1 została omówiona przez Tibshiraniego w pracy [7]. Dzięki regularyzacji w l1 wyselecjonowany model ˆβ składa się jedynie z df(λ) niezerowych współczynników falkowych. Rozmiar modelu df(λ) zależy od wyboru progu λ. W następnym punkcie zaprezentowano dwa znane kryteria wyboru λ oraz propozycję nowego kryterium. 2. Kryteria selekcji modelu Często stosowane kryteria wyboru λ, także dla selektora LASSO [8] zostały podane poniżej: 1. Kryterium AIC (Akaike Information Criterion) [1] 2. Kryterium BIC (Bayesian Information Criterion) [6] AIC(λ) = RSS p σ + 2 df(λ), (6) 2 p BIC(λ) = RSS p σ 2 + ln(n) df(λ), (7) p gdzie: RSS = y X ˆβ 2 = y ŷ 2 (błąd estymacji modelu), p - liczba współczynników falkowej reprezentacji sygnału (cech), n - liczba sygnałów w ciągu uczącym, df(λ) - rozmiar modelu dla ustalonego λ (liczba współćzynników w zbiorze aktywnym, tzn. liczba niezerowych współrzędnych ˆβ). Kryteria AIC i BIC minimalizują błąd RSS między rzeczywistym modelem y a estymowanym obciętym modelem ŷ oraz liczbę niezerowych współczynników df. Kryteria te nie są dedykowane zadaniom rozpoznawania sygmałów, a raczej mają zastosowanie w odszumianiu sygnałów. W eksperymentalnej części pracy pokażemy, że liczba niewyzerowanych współczynników przy użyciu kryteriów AIC i BIC jest relatywnie duża. Dlatego proponujemy nowe kryterium oparte o wyznaczone eksperymentalnie ryzyko dla ciągu uczącego: 3. Kryterium MIN MIN(λ) = RISK + g(df(λ)), (8) gdzie: RISK = R( ˆβ) - eksperymentalne ryzyko błędnej klasyfikacji modelu ˆβ o df(λ) niezerowych współczynnikach falkowych (odpowiedających niezerowym współrzędnym ˆβ), g( ) - niemalejąca funkcja, df(λ) - rozmiar modelu dla ustalonego λ. Na potrzeby eksperymentu przyjęliśmy, że g jest funkcją identycznościową, tj. g(x) = x.

3. Wyniki eksperymentu Eksperyment jest kontynuacją badań zaprezentowanych w pracy Libal [5]. W niniejszym artykule przyjęto nowe kryterium wyboru progu λ MIN dane wzorem (8). Wygenerowano n = 100 zaszumionych sygnałów (po 50 w każdej klasie) dla szumu gaussowskiego na poziomie ɛ = 0.05 oraz jednorodnego na czterech poziomach c = 0.7, 1.0, 1.3 i 1.6. Każdy sygnał zawierał 2 10 = 1024 próbek z przedziału czasu [0, 1]. W pracy [5] pokazano, że dekompozycja sygnału na większą liczbę poziomów (np. 5, 6 i więcej) skutkuje zmniejszeniem ryzyka. Dlatego zaszumione sygnały zostały zdekomponowane w bazach Haara tylko na dwa ciągi współczynników falkowych W (s(t)) = (c j0, d j0 ), aby ułatwić porównanie jakości progowania dzięki wyższym wartościom ryzyka. Otrzymane w ten sposób współczynniki falkowe stanowiły reprezentacje sygnałów. Następnie falkowe współczynniki zostały sprogowane za pomocą techniki LASSO dla wszystkich możliwych wartości progu λ, dla sygnałów z ciągu uczącego. Dla wszystkich sprogowanych modeli ˆβ oraz wszystkich sygnałów z ciągu testowego przeprowadzono rozpoznawanie za pomocą algorytmu 5NN (5 najbliższych sąsiadów). W kolejnym kroku wyznaczono minimalne wartości kryteriów MIN, BIC i AIC oraz obliczono odpowiadające im progi λ MIN, λ BIC and λ AIC. Rys. 2. Wykres współrzędnych estymatora LASSO modelu ˆβ = ( ˆβ 1, ˆβ 2,..., ˆβ p ) z zaznaczonymi wartościami progowymi λ = β i dla kryteriów AIC, BIC i MIN, dla sygnału o parametrach ɛ = 0.05 i c=1.0. Wraz ze wzrostem wariancji sygnału V ar [s(t i )] = c 2 /3 + ɛ 2 (tzn. spadkiem SNR), średnia wartość progów λ MIN, λ BIC i λ AIC również rośnie. Tym samym im wyższe zakłócenie sygnału, tym więcej współczynników pozostaje niewyzerowanych. Tabela 1 zawiera średnie wartości λ natomiast Tabela 2 - wartości eksperymentalnego ryzyka dla tych λ. W przeprowadzonych eksperymentach średnie wartości β i dla kryteriów MIN, BIC i AIC wykazują zależność λ MIN λ BIC λ AIC. Na Rys.3 przedstawiono mediany warości progów wraz z przedziałem (pudełkiem) między 1 i 3 kwantylem. Przedział ten dla λ MIN jest szerszy niż dla λ BIC i λ AIC, zwłaszcza dla wyższych poziomów szumów. Średnia wartość ryzyka dla λ MIN nie przekroczyła w przeprowadzonym eksperymencie 3.6%.

Skutkiem użycia nowego kryterium MIN jest: SNR [db] 7.8 4.7 2.5 0.7 c 0.7 1.0 1.3 1.6 λ MIN 2.7 6.9 13.2 20.1 λ BIC 14.6 19.2 24.2 28.5 λ AIC 16.0 21.2 26.0 30.0 Tab. 1. Średnia wartość progu λ. SNR [db] 7.8 4.7 2.5 0.7 c 0.7 1.0 1.3 1.6 R MIN 0.5 0.6 0.7 3.6 R BIC 0.0 0.0 0.2 2.9 R AIC 0.0 0.0 0.2 3.8 Tab. 2. Eksperymentalne ryzyko [%] dla uśrednionych λ. - niski poziom ryzyka (tylko dla wysokiego poziomu szumu, tzn. dla SNR=0.7 [db] ryzyko było wyższe niż 1%), - mniejszy rozmiar modelu (zawierający około 10-30 współczynników) w porównaniu do pozostałych dwóch kryteriów (dla BIC około 60-110 pozostawionych cech, a dla AIC około 90-130 cech) - i szybsze obliczenia (potrzeba mniejszej liczby kroków w algorytmie LASSO do wyznaczenia Literatura modelu, po przekroczeniu λ MIN procedurę można przerwać). [1] H. Akaike, Information theory and an extension of maximum likelihood principle, Proc. 2nd International Symposium on Information Theory, Eds. B.N. Petrov and F. Csaki, 267 281, SciTePress, Budapest, 1973. [2] I. Daubechies, Ten Lectures on Wavelets, SIAM Edition, Philadelphia, 1992. [3] B. Efron, T. Hastie, I. Johnstone, R. Tibshirani, Least Angle Regression, Annals of Statistics, 32(2), 407 499, 2004. [4] Z. Hasiewicz, P. Sliwinski, Orthogonal wavelets with compact support. Application to nonparametric identification systems (in Polish), Exit, Warsaw, 2005. [5] U. Libal, Feature Selection for Pattern Recognition by LASSO and Thresholding Methods a Comparison, Proc. 16th IEEE International Conference on Methods and Models in Automation and Robotics - MMAR 2011, 22-25 Aug., 168 173, 2011. [6] G. Schwarz, Estimating the dimention of a model, Annals of Statistics, 6, 461 464, 1978. [7] R. Tibshirani, Regression Shrinkage and Selection via the Lasso, Journal of the Royal Statistical Society. Series B, 58(1), 267 288, 1996.

[8] H. Zou, T. Hastie, R. Tibshirani, On the degrees of freedom of the lasso, Annals of Statistics, 35(5), 2173 2192, 2007. 18 λ AIC = 16.01 30 λ AIC = 25.97 16 14 25 12 λ BIC = 14.63 20 λ BIC = 24.20 R(β) 10 8 R(β) 15 6 λ MIN = 2.68 10 λ MIN = 13.18 4 2 5 0 0 2 4 6 8 10 12 14 16 Σ β j 0 5 10 15 20 25 Σ β j Rys. 3. Eksperymentalne ryzyko R [%] błędnej klasyfikacji z zaznaczonymi przykładowymi wartościami progowymi λ = β i dla kryteriów AIC, BIC i MIN. Po lewej dla c = 0.7, po prawej c = 1.3. Rys. 4. Wykresy pudełkowe progów λ MIN, λ BIC i λ AIC. Po lewej dla c = 0.7, po prawej c = 1.3. MODEL SELECTION CRITERIA FOR EXPERIMENTAL PATTERN RECOGNITION OF SIGNAL DECOMPOSED IN WAVELET BASES There is searched the balance between an increase of pattern recognition risk and a decrease of a model size. The experiments are performed for noisy signals decomposed in Haar wavelet bases. Wavelet representation of signals, by wavelet coefficients called signal features, constitutes the full model. The presented feature selection method is based on the Lasso algorithm (Least Absolute Shrinkage and Selection Operator). The aim of the experiments is to find an optimal model size and investigate the relations between the risk, the number of signal features and the noise level. We propose a new model selection criterion MIN that minimizes both the risk and the number of signal features. We compare the experimental risk of 5NN classification rule for all possible reduced models and for several values of noise variance. Experiments shows that the new criterion MIN allows to reduce the size of model simultaneously with a small increase of misclassification risk in comparison to AIC and BIC criteria.