Autoreferat. dr Tomasz Górecki. Uniwersytet im. Adama Mickiewicza Wydział Matematyki i Informatyki

Wielkość: px
Rozpocząć pokaz od strony:

Download "Autoreferat. dr Tomasz Górecki. Uniwersytet im. Adama Mickiewicza Wydział Matematyki i Informatyki"

Transkrypt

1 Autoreferat dr Tomasz Górecki Uniwersytet im. Adama Mickiewicza Wydział Matematyki i Informatyki Poznań, 2014

2 1. Życiorys naukowy 1. Imię i nazwisko: Tomasz Górecki 2. Dyplomy i stopnie naukowe: Doktor nauk matematycznych w zakresie matematyki: 2005; Uniwersytet im. Adama Mickiewicza, Wydział Matematyki i Informatyki; Tytuł rozprawy: Sekwencyjna analiza dyskryminacyjna; Promotor: prof. dr hab. Mirosław Krzyśko. Magister matematyki(matematyka stosowana): 2001; Uniwersytet im. Adama Mickiewicza, Wydział Matematyki i Informatyki; Tytuł pracy: Analiza dyskryminacyjna; Promotor: prof. dr hab. Mirosław Krzyśko. Licencjat z informatyki 2000; Uniwersytet im. Adama Mickiewicza, Wydział Matematyki i Informatyki. 3. Informacje o dotychczasowym zatrudnieniu: 2005-: adiunkt na Wydziale Matematyki i Informatyki UAM, : doktorant na Wydziale Matematyki i Informatyki UAM, : wykładowca/informatyk w Poznańskiej Wyższej Szkole Biznesu, 2011-: wykładowca w Poznańskiej Wyższej Szkole Biznesu, 2012-: informatyk w Poznańskich Zakładach Sprzętu Ortopedycznego. 4. Osiągnięcienaukowe,októrymmowawart.16ust.2ustawyzdnia 14marca2003rokuostopniachnaukowychitytulenaukowymorazo stopniachitytulewzakresiesztuki(dz.u.nr65,poz.595,zpóźn.zm.): Jednotematyczny cykl 6 publikacji pod wspólnym tytułem: Klasyfikacja szeregów czasowych z wykorzystaniem pochodnych i transformat. 2. Działalność naukowa 2.1. Jednotematyczny cykl publikacji Jako osiągnięcie naukowe stanowiące podstawę starania się o uzyskanie stopnia doktora habilitowanego, zgodnie z art. 16 ust. 2 ustawy o stopniach naukowych i tytulenaukowymorazostopniachitytulewzakresiesztukizdnia14marca2003r.(z późniejszymi uzupełnieniami), przedstawiam jednotematyczny cykl publikacji pod zbiorczym tytułem Klasyfikacja szeregów czasowych z wykorzystaniem pochodnych i transformat. Dla pism umieszczonych na liście JCR podano ich impact factor(if) oraz pięcioletni IF(5yearIF) z roku ukazania się publikacji, a także liczbę punktów zgodnie z wykazem Ministerstwa Nauki i Szkolnictwa Wyższego(MNiSW) z17grudnia2013r.wprzypadkupracopublikowanychwroku2014i2015podano najbardziej aktualne wartości IF oraz 5yearIF. Szczegółowy opis dokonań autorów 2

3 przedstawiono w oświadczeniach załączonych w postaci oddzielnego dokumentu. IF publikacji przedstawionych w ramach cyklu wynosi 9.250, sumaryczny 5yearIF 9.257, a sumaryczna liczba punktów według aktualnej listy MNiSW 155. Na ten cykl składają się następujące pozycje: [A1] T. Górecki(2012). Two parametrical derivative dynamic time warping. In: Data analysis methods and its applications(eds. J. Pociecha, R. Decker). C.H. Beck [A2] T. Górecki, M. Łuczak(2013). Using derivatives in time series classification. Data Mining and Knowledge Discovery 26(2): IF/5IF: 2.877/2.164, MNiSW: Lista A(40pkt) [A3] T. Górecki, M. Łuczak(2014). First and second derivative in time series classification using DTW. Communications in Statistics- Simulation and Computation 43(9): IF/5IF: 0.288/0.453, MNiSW: Lista A(15pkt) [A4] T. Górecki, M. Łuczak(2014). Non-isometric transforms in time series classification using DTW. Knowledge-Based Systems 61: IF/5IF: 3.058/2.920, MNiSW: Lista A(40pkt) [A5] T. Górecki(2014). Using derivatives in a longest common subsequence dissimilarity measure for time series classification. Pattern Recognition Letters 45C: IF/5IF: 1.062/1.466, MNiSW: Lista A(25pkt) [A6] T. Górecki, M. Łuczak(2015). Multivariate time series classification with parametric derivative dynamic time warping, Expert Systems With Applications 42(5): IF/5IF: 1.965/2.254, MNiSW: Lista A(35pkt) 2.2. Temat badań, motywacja i znaczenie osiągniętych wyników Ilość dostępnych i powstających szeregów czasowych gwałtownie rośnie w ostatnich latach. Dotyczy to między innymi takich zastosowań jak: prognozowanie sprzedaży, prognozowanie kursów giełdowych, prognoza plonów, kontrola jakości, badania użyteczności, badania demograficzne, iwiele,wieleinnych. W związku z tym powstaje dużo prac naukowych zajmujących się badaniem i analizą szeregów czasowych, których specyficzna struktura wymaga modyfikacji istniejących metod lub konstrukcji zupełnie nowych. Dane takie są zazwyczaj wysoko wymiarowe i charakteryzują się nieodłączną korelacją pomiędzy poszczególnymi zmiennymi. W szczególności dla takich danych kluczowe jest odpowiednie zdefiniowanie odległości pomiędzy poszczególnymi obserwacjami(trajektoriami). W analizie szeregów czasowych można wyróżnić trzy odmienne podejścia: 1. Wybór części zmiennych do dalszej analizy, 2. Zmiana reprezentacji danych np. podejście funkcjonalne, transformaty(dyskretna transformata Fouriera, dyskretna transformata kosinusowa), 3

4 3. Praca na oryginalnych danych, ale ze sprytnie pomyślaną miarą odległości. Właśnie to ostatnie podejście stało się głównym tematem moich badań. Bodźcem do podjęcia tej tematyki stała się praca[c9], w której autorzy konkludują, że do klasyfikacji szeregów czasowych najlepiej nadaje się metoda najbliższego sąsiada z odległością DTW jako odległością pomiędzy szeregami. Właśnie klasyfikacja oraz analiza skupień stały się w ostatnich latach obiektem ogromnego zainteresowania społeczności zajmującej się szeregami czasowymi, w szczególności bazami danych. W celu klasyfikacji danych stosowane są bardzo różne podejścia. Od sieci neuronowych i bayesowskich do algorytmów genetycznych i metody SVM. Równocześnie wprowadzane są nieustannie nowe miary badające podobieństwo szeregów czasowych. Oczywistym powodem tego zainteresowania stały się możliwości komputerowe analizy ogromnych zbiorów danych, które jeszcze kilka/kilkanaście lat temu jawiły się jako niemożliwe do analizy. Ta niemożność analizy, oprócz wielkości danych, spowodowana była również czasochłonnością używanych algorytmów. Dotyczy to zwłaszcza algorytmu DTW, który uważany jest za najlepszy do wyznaczania odległości pomiędzy szeregami. W ostatnich latach powstało jednak kilka implementacji(sparsedtw, FastDTW) oraz technik(ograniczenia dolne: LB Keogh, LB Improved), które znacznie go przyspieszyły. Celem moich prac była poprawa jakości klasyfikacji za pomocą metody najbliższego sąsiada z wykorzystaniem kombinacji odległości DTW na oryginalnych danych oraz odległości DTW na pewnych transformacjach danych oryginalnych. Jako inne reprezentacje danych rozważane były pochodne(pierwsza i druga) oraz transformaty(sinusowa, kosinusowa, Hilberta). Równocześnie tematem moich badań było wykorzystanie opracowanej techniki dla innych odległości np. LCSS. Wszystkie algorytmy musiały się również charakteryzować dobrą wydajnością obliczeniową. Dodatkowo celem było zachowanie dolnego ograniczenia, jeśli takie istniało dla odległości bazowej. To również zostało osiągnięte(dodatkowo zachowana została również nierówność trójkąta, która przydaje się podczas indeksowania szeregów czasowych). W ostatnim czasie powiodło się również uogólnienie zaproponowanej metody na szeregi wielowymiarowe. Za swój wkład w rozwój dyscypliny uważam: upowszechnienie wiedzy o możliwości wykorzystania pochodnych i transformat w liczeniu odległości pomiędzy szeregami, wprowadzenie parametrycznej wersji odległości DTW wykorzystującej oprócz surowych danych również pochodne i transformaty, wprowadzenie parametrycznej wersji odległości LCSS wykorzystującej oprócz surowych danych również pochodne, wprowadzenie pochodnych do liczenia odległości DTW dla szeregów wielowymiarowych Uzyskane wyniki Szereg czasowy to sekwencja obserwacji, które uporządkowane są w czasie lub w przestrzeni(c[11]). Dla prostoty i bez straty ogólności założymy na razie, że czas jest dyskretny.formalnie,szeregczasowytosekwencjapart = [(f 1,t 1 ),(f 2,t 2 ),...,(f n,t n )] (t 1 < t 2 <... < t n ),gdziekażdy f i jestpunktemwd-wymiarowejprzestrzeni,akażdy 4

5 momentczasowy t i jestchwilą,wktórejzaszedł f i.jeślimomentyczasowedwóchszeregów są takie same, możemy je ominąć i rozważać jedynie sekwencje d-wymiarowych punktów. Taka reprezentacja jest nazywana surową. Liczba punktów n w szeregu czasowym jest nazywana jego długością. Na razie skupimy się na szeregach jednowymiarowych,któreoznaczymy f i, i = 1,2,...,n. Klasyfikacja szeregów czasowych jest w ostatnim czasie intensywnie rozwijana. Wprowadzane są nieustannie nowe miary badające podobieństwo szeregów czasowych(c[9]). Niemniej jednak okazuje się, że w większości przypadków najlepsze wyniki klasyfikacji uzyskuje się korzystając z metody najbliższego sąsiada(1nn) jako klasyfikatora oraz odległości 1 DTW(ang.dynamictimewarping)jakomiaryodległościpomiędzydwoma szeregami. Pierwotnie DTW było wykorzystywane do porównywania wzorców wymowy w automatycznym rozpoznawaniu mowy(c[10]). Jest to metoda, która wyznacza odległość pomiędzy dwoma szeregami czasowymi, przy czym dopuszczamy pewne transformacje czasu. Aby znaleźć odległość DTW wpierw konstruujemy macierz, której element (i,j)odpowiadaodległości d(f i,g j ).Odległośćtanazywanajestodległościąwewnętrzną i najczęściej jest to odległość euklidesowa lub taksówkowa. Następnie poszukujemy minimalnej skumulowanej odległości przechodząc przez tę macierz. Odległość DTW odpowiada ścieżce o minimalnym koszcie: DTW(f,g) = min W K w k, gdzie w k jestelementemmacierzykosztów,którynależydościeżki W.Ścieżka Wjest zbiorem elementów macierzy odległości, która definiuje odwzorowanie pomiędzy f i g. Ścieżkę tę konstruujemy przy trzech dodatkowych warunkach: w 1 = (1,1)oraz w K = (n,n)(warunkibrzegowe,dopasowanieniejestwykonanena fragmentach szeregów), Dla w k = (a,b)iw k 1 = (a,b ), a a 1ib b 1(ciągłość,żadnepunktynie są pomijane), Dla w k = (a,b)iw k 1 = (a,b ), a a 0ib b 0(monotoniczność,podobne fragmenty są łączone tylko raz). Aby wyznaczyć taką ścieżkę używamy programowania dynamicznego, w którym wykorzystywane jest następujące równanie rekurencyjne: k=1 γ(i,j) = d(f i,g j )+min{γ(i 1,j 1),γ(i 1,j),γ(i,j 1)}, gdzie d(f i,g j )jestodległościąwdanejkomórce,aγ(i,j)jestskumulowanąodległością d(f i,g j )orazminimumztrzechprzyległychskumulowanychodległości(rysunek1). DTWjestalgorytmemozłożoności O(n 2 ).Jesttodośćpoważneograniczenie, zwłaszcza dla dużych zbiorów danych. Najprostszą metodą przyspieszenia obliczeń jest wyznaczenie jedynie pewnej niedużej frakcji elementów macierzy kosztów. Intuicyjnie, 1 Niejesttoodległośćwsensieczystomatematycznym.Niejestspełnionywarunektrójkąta.W literaturze przedmiotu jednak najczęściej mówi się o takich miarach jak o odległościach. Właściwie są to miary niepodobieństwa. 5

6 Rys. 1. Górny lewy: Dwa podobne szeregi czasowe, przesunięte jedynie w czasie dają dużą odległość euklidesową. Dolny lewy: Można to poprawić poprzez nieliniowe wyrównanie za pomocą DTW. Prawy: Macierz kosztów wraz ze ścieżką W(R szerokość pasma Sakoe-Chiby). chcemy aby ścieżka W była stosunkowo blisko przekątnej macierzy. Do najpopularniejszych należą: pasmo Sakoe-Chiby(C[24]), równoległobok Itakury(C[25]) i pasmo Ratanamahatana-Keogha(C[26]). Najprostszym i najpopularniejszym jest to pierwsze, które wykorzystaliśmy np. w pracy A[3]. Szerokość pasma jest zazwyczaj ustalana na 10%. Jednakże ostatnio(c[27]) pokazano, że dopasowanie szerokości okna do danych oprócz przyspieszenia obliczeń może również prowadzić do poprawy jakości klasyfikacji. Oczywiście w przypadku klasyfikacji szeregów czasowych wydaje się, że jedynie ich punktowe porównanie może być niewystarczające. Zdarzają się przypadki, w których przypisanie do jednej z klas zależy nie tylko od wartości funkcji, ale również od ich kształtu. W szczególności zmienność w czasie powinna mieć duży wpływ na proces klasyfikacji. Wiadomo, że za zmienność funkcji w czasie odpowiada pochodna funkcji, która określa gdzie funkcja rośnie, maleje względnie jest stała. Naturalnym jest zatem wykorzystanie pochodnych do klasyfikacji(c[12]). Wydaje się, że takie podejście do klasyfikacji może być bardzo skuteczne. Nie oczekujmy jednak, że wystarczy porównać jedynie pochodne. W większości przypadków duże znaczenie ma również porównanie odległości pomiędzy szeregami, a nie tylko pomiędzy ich pochodnymi. W takiej sytuacji optymalne wydaje się uwzględnienie obu odległości. Wkład każdej z odległości powinien być ustalony doświadczalnie dla konkretnego zbioru danych. Pierwsze moje wynikinatentematukazałysięwpracya[1].byłytojednakjedyniewstępnewyniki uwzględniające zaledwie 12 zbiorów danych. Uzyskane wyniki były na tyle obiecujące, że powstała kolejna praca A[2], dużo bardziej rozbudowana i poruszająca dodatkowe aspekty, które nie były analizowane w pracy 6

7 A[1]. Została zaproponowana odległość będąca połączeniem odległości na oryginalnym szeregu oraz na szeregu złożonym z pochodnych. Definicja1.Jeżeli djestmiarąodległościdlaszeregów foraz g,toodległość ˆd ab jest zdefiniowana następująco: ˆd ab (f,g) := a d(f,g)+b d(f,g ), (1) gdzie f oraz g sądyskretnymipochodnymiszeregów fi goraz a,b [0,1]sąrzeczywistymi parametrami. Definicja 2. Dyskretna pochodna szeregu czasowego f o długości n ma postać f (i) = f(i) f(i 1), i = 2,3,...,n gdzie f jestszeregiemczasowymodługości n 1. W pracy A[2] analizowane były również dwie inne definicje dyskretnej pochodnej dość powszechnie spotykane w literaturze. Badania pokazały, że wybór dyskretnej pochodnej nie ma statystycznego wpływu na jakość klasyfikacji. W pracy A[2] analizowane byłydwieodległości d: DTWorazodległośćeuklidesowa(ED).Odległość ˆd ab została użytadoklasyfikacjizapomocąmetody1nn,metodytakieoznaczymy DD DTW oraz DD ED.Parametry a,bzostaływybranepodczasprocesuuczeniazapomocąmetody sprawdzania krzyżowego(ang. cross validation leave one out). Zauważmy, że nie musimysprawdzaćwszystkichwartościparametrów a,b [0,1].Jeśli a 1 = ca 2 oraz b 1 = cb 2, gdzie c > 0jeststałą(tzn.punkty (a 1,b 1 ), (a 2,b 2 )sąliniowozależne),mamy ˆd a1 b 1 (f 1,g 1 ) = < > ˆda1 b 1 (f 2,g 2 ) ˆd a2 b 2 (f 1,g 1 ) = < > ˆda2 b 2 (f 2,g 2 ). Możemy zatem wybrać punkty (a, b) na dowolnej ciągłej linii pomiędzy punktami (0, 1) i (1,0).Np.możetobyćliniaprostalubćwiartkaokręgu a = (1 α), b = α, α [0,1]; a = cosα, b = sinα, α [ 0, π 2]. W tym drugim przypadku mamy równe odległości pomiędzy parametrami(rysunek 2). Ta parametryzacja wydaje się właściwsza do badań naukowych. Jednakże, jeśli zbiór parametrów α jest dostatecznie gęsty wybór parametryzacji nie powinien mieć większego wpływu na wyniki. Dla wielu miar odległości można znaleźć tzw. dolne ograniczenie(ang. lower bound). Funkcja to może być następnie wykorzystana do znacznego przyspieszenia obliczeń. Okazuje się, że zaproponowana miara odległości zachowuje ograniczenie dolne o ile miara d je posiadała. Twierdzenie 1. Jeśli l jest ograniczeniem dolnym miary odległości d, to ˆlab (f,g) := a l(f,g)+b l(f,g ) (2) jestograniczeniemdolnymmiaryodległości ˆd ab. 7

8 Rys.2.Zależnośćparametrów a, boraz α. Podobnie wygląda sprawa z nierównością trójkąta(ogólnie z metryką) A[2]. W celu oceny jakości klasyfikacji za pomocą zaproponowanej metody przeprowadzonosymulacjena20zbiorachdanych 2 pochodzącychzbazyucr(c[13]).każdy zbiór stamtąd pochodzący został przez autorów repozytorium podzielny na uczący i testowy. Na zbiorze uczącym znalezione zostały parametry a, b. Zbiór testowy posłużył natomiast do zbadania efektywności tak znalezionych parametrów. W przypadku odległości ED zaproponowana metoda dała redukcję średniego błędu względnego na poziomie 4.58%, natomiast w przypadku DTW ta redukcja była znacznie większa i wyniosła aż 21.58%. Dla większości zbiorów danych nastąpiła redukcja błędu(rysunek 3). Pozostaje jeszcze jedno istotne pytanie. Czy można znaleźć pewną uniwersalną Rys. 3. Porównanie błędów na zbiorze testowym. wagę, dobrą dla wszystkich zbiorów danych, która określi z jaką siłą pochodna powinna wejść do miary odległości? Niestety odpowiedź na to pytanie jest negatywna. Udział ten może być znikomy, bardzo duży, lub przeciętny(rysunek 4). Zostały również wykonane badania symulacyjne porównujące zaproponowaną metodę z innymi metodami, które opierają się również na pochodnych. Analiza statystyczna pokazała, że zaproponowana metoda jest istotnie lepsza(na poziomie istotności α = 0.05) od wszystkich porównywanych metod. 2 Tylkotylebyłodostępnychwmomenciepowstawaniapracy. 8

9 Rys.4.Zależnośćbłęduklasyfikacjiodparametru αdlametody DD DTW (liniakropkowana błąd CV na zbiorze uczącym, linia ciągła błąd na zbiorze testowym). Ponieważ zaproponowana metoda okazała się bardzo efektywna w procesie klasyfikacji podjęte zostały dalsze próby rozwoju idei łączenia odległości. Naturalnym krokiem wydaje się dodanie kolejnej pochodnej. Jak wiemy pierwsza pochodna opisuje monotoniczność funkcji, natomiast druga decyduje o wypukłości. Kombinacja zatem trzech elementów powinna zadziałać jeszcze lepiej niż kombinacja dwóch elementów. Podejście to zostało omówione w pracy A[3]. Definicja3.Jeżeli djestmiarąodległościdlaszeregów foraz g,toodległość ˆd abc jest zdefiniowana następująco: ˆd abc (f,g) := a d(f,g)+b d(f,g )+c d(f,g ), (3) gdzie f, g, f, g sądyskretnymipochodnymiszeregów fi goraz a,b,c [0,1]są rzeczywistymi parametrami. Ponownie jak wcześniej nie musimy badać wszystkich wartości parametrów a, b, c [0,1].Jeśli a 1 = ka 2, b 1 = kb 2, c 1 = kc 2 gdzie k > 0jeststałą(tzn.punkty (a 1,b 1,c 1 ), (a 2,b 2,c 2 )sąliniowozależne),mamy ˆd a1 b 1 c 1 (f 1,g 1 ) = < > ˆda1 b 1 c 1 (f 2,g 2 ) ˆd a2 b 2 c 2 (f 1,g 1 ) = < > ˆda2 b 2 c 2 (f 2,g 2 ). Stąd możemy wybrać punkty (a, b, c) na dowolnej ciągłej powierzchni pomiędzy punktami A = (1,0,0), B = (0,1,0)oraz C = (0,0,1).Możetobyćnp.powierzchnia trójkąta o wierzchołkach w tych punktach lub 1/8 sfery. Dla prostoty został wybrany trójkąt. Ten trójkąt 3D jest rzutowany na trójkąt 2D o wierzchołkach w punktach A = (0,0), B = (1,0)oraz C = ( 1 2, 3 2 ).Obatrójkątymożnazdefiniowaćwsposób parametryczny: (a,b,c) = A+α AB +βac, (a,b ) = A +α A B +β A C, gdzie (a,b,c)sąpunktamitrójkąta 3D,a(a,b )sąpunktamitrójkąta 2Doraz α,β [0, 1] są parametrami(rysunek 5). Zachodzą analogiczne własności dla ograniczenia 9

10 Rys.5.Zależnośćparametrów 3D a,b,corazparametrów 2D a,b. dolnego i nierówności trójkąta jak dla miary odległości opisanej w pracy A[2]. W celu oceny jakości zaproponowanej metody wykonano symulacje na wszystkich 47 zbiorach danych pochodzących z repozytorium UCR(C[13]). Nastąpiła pewna poprawa, aczkolwiek już nie tak spektakularna. Niestety analogicznie jak poprzednio nie da się ustalić uniwersalnych wag(parametrów) Rysunek 6. Dodawanie kolejnych pochodnych wydaje się niecelowe, ponieważ jak pokazują badania, druga pochodna dodaje już stosunkowo niewiele informacji o odległości pomiędzy szeregami. Trzeba zatem szukać innej klasy funkcji. Temat ten poruszony został w pracy A[4]. Wybór padł na popularne w klasyfikacji szeregów czasowych transformaty. Były one jednak do tej pory wykorzystywane w celu redukcji wymiarowości danych bez straty informacji(c[21]). My natomiast chcemy dodać je jako kolejną składową miary odległości pomiędzy szeregami czasowymi. Ostatecznie zdecydowaliśmy się na trzy transformaty: sinusową, kosinusową oraz Hilberta. Definicja4.Dlaszereguczasowego f = {f(i): i = 1,2,...,n}określamytransformatę jako ˆf = {ˆf(k): k = 1,2,...,n}. Transformata kosinusowa: ˆf(k) = n i=1 [ ( π f(i)cos i 1 ) ] (k 1) n 2 Transformata sinusowa: ˆf(k) = n i=1 [ ( π f(i)sin i 1 ) ] k n 2 Transformata Hilberta: ˆf(k) = n i=1 i k f(i) k i 10

11 Rys. 6. Zależność błędu klasyfikacji od parametrów(od lewej: zbiór danych 50words, adiac, wafer.) Oczywiście podobnie jak poprzednio nie należy sądzić, że wystarczy porównać jedynie odległość pomiędzy transformatami. Naturalnym wydaje się dodanie transformaty jako kolejnego elementu poprawiającego precyzję klasyfikacji. Podobnie jak poprzednio zostało użyte podejście parametryczne, które pozwala dobrać wpływ każdej odległości na końcową miarę odległości pomiędzy szeregami, a w konsekwencji na jakość klasyfikacji. Definicja5.Jeżeli djestmiarąodległościdlaszeregów foraz g,toodległość d abc jest zdefiniowana następująco: d abc (f,g) := a d(f,g)+b d(f,g )+c d(ˆf,ĝ), (4) gdzie f, g sądyskretnymipochodnymiszeregów fi g; ˆfi ĝsątransformatamioraz a,b,c [0,1]sąrzeczywistymiparametrami. Jeśli użyjemy konkretnej transformaty otrzymamy trzy metody oznaczane jako: DTD S DTW, DTDC DTW, DTDH DTW.Oczywiściewszystkiepoprzednieuwagidotyczące ograniczeniadolnegooraznierównościtrójkątaprzenosząsięrównieżna d abc (f,g). Kwestia poszukiwania parametrów wygląda tak samo jak w opisanej poprzednio wersji odległości z pierwszą i drugą pochodną(a[3]). Ponownie zostały wykonane badania symulacyjne na 47 zbiorach danych z repozytorium UCR(C[13]). Wszystkie zaproponowane metody(dodające jako trzeci składnik odległości odległość pomiędzy transformatami) dały średnio lepsze wyniki niż dodanie jedynie samej pochodnej(tabela 1). 11

12 Tab. 1. Błędy względne na zbiorze testowym. DD DTW DTW DTW DTD C DTW DTW DTW DTD S DTW DTW DTW DTD H DTW DTW DTW Dodatkowo zaproponowane metody działają lepiej dla prawie wszystkich zbiorów danych(rysunek 7). error C DTD DTW C DD DTW vs. DTD DTW C DTD DTW Better Here DD DTW error error S DTD DTW S DD DTW vs. DTD DTW S DTD DTW Better Here DD DTW error error H DTD DTW H DD DTW vs. DTD DTW H DTD DTW Better Here DD DTW error Rys.7.Porównaniebłędówtestowych(DD DTW vs. DTD DTW). Bardzo ważne jest aby umieć wskazać(mając jedynie zbiór uczący) czy dana metoda klasyfikacji zachowa się dobrze dla konkretnego zbioru danych. W pracy C[14] pojawiła się propozycja rozwiązania tego problemu. Mianowicie zbadajmy wydajność porównywanych metod jedynie na zbiorze uczącym i na tej podstawie wybierzmy algorytm, który użyjemy do klasyfikacji próby testowej. Na zbiorze uczącym badamy skuteczność rozważanych metod klasyfikacji za pomocą metody CV(leave-one-out) i liczymy oczekiwaną zmianę w jakości klasyfikacji jako stosunek skuteczności klasyfikacji na zbiorze testowym dla obu metod. Wartości powyżej jeden wskazują, że oczekujemy iż proponowana metoda okaże się lepsza na tym zbiorze danych. Podobnie na zbiorze testowym wyznaczamy aktualną zmianę jakości klasyfikacji. Wyniki możemy przedstawić na wykresie(rysunek 8) otrzymując cztery regiony: TP W tym regionie leżą punkty, dla których poprawnie przewidzieliśmy poprawę jakości klasyfikacji. TN W tym regionie leżą punkty, dla których poprawnie przewidzieliśmy spadek jakości klasyfikacji. FN W tym regionie leżą punkty, dla których błędnie przewidzieliśmy spadek jakości klasyfikacji. FP Najgorsza sytuacja. W tym regionie leżą punkty, dla których błędnie przewidzieliśmy poprawę jakości klasyfikacji. Ponieważ DTD DTW jestrozszerzeniemmetody DD DTW błądnazbiorzeuczącymjest zawszeniewiększyniżbłądmetody DD DTW.ZatemlewaczęśćRysunku8jestzawsze pusta. Zdecydowana większość punktów leży w obszarze TP, co oznacza, że potrafimydośćdobrzeprzewidziećczymetoda DTD DTW możepoprawićwynikiklasyfikacji. 12

13 Cosine transform Sine transform Hilbert transform Actual accuracy change FN TN ECG200 MoteStrain TP FP Actual accuracy change FN TN MedicalImages Car TP FP Actual accuracy change FN TN Adiac Beef Car Faceall TP FP Expected accuracy change Expected accuracy change Expected accuracy change Rys. 8. Oczekiwana zmiana jakości klasyfikacji kontra aktualna zmiana w jakości klasyfikacji. Oczywiście istnieją również zbiory danych dla których metody zachowują się podobnie, leżą one w okolicach punktu(1,1). W celu oceny statystycznej istotności otrzymanych wyników przeprowadzono analizę typu ANOVA. Wykorzystany został test Friedmana w wersji Iman i Davenport(C[15]). Hipoteza zerowa została odrzucona. Zatem metody różnią się istotnie. Jako test post-hoc wykorzystany został test Bergmanna i Hommela (C[16]), który jest rekomendowany jako test o największej mocy w tego typu problemach (C[17]).Okazałosię,żemetoda DTD C DTW jeststatystycznieistotnielepszaodzarówno metody DTWjakimetody DD DTW. Oprócz poszukiwania innych od pochodnych i transformat charakterystyk, które mogą poprawić jakość klasyfikacji możemy również starać się poszukać innych odległości bazowych zamiast powszechnie używanej odległości DTW. Odległość ta jest średnio najlepsza, ale istnieją sytuacje, w których inne odległości mogą okazać się lepsze. Jedną z takich sytuacji jest występowanie obserwacji odstających w danych. Temu scenariuszowi poświęcona jest praca A[5]. Polecaną odległością w takiej sytuacji jest odległość najdłuższy wspólny podciąg (ang. longest common subsequence LCSS). Miara ta jest wariantem miary edycyjnej i jest dość powszechnie używana w rozpoznawaniu mowy. Ogólna pomysł polega na takim powiązaniu dwóch szeregów czasowych, aby umożliwić im rozciągania, ale bez zmiany kolejności elementów. Dopuszczalne jest jednak pominięcie pewnych fragmentów szeregu w przeciwieństwie do ED i DTW gdzie wszystkie elementy muszą być wykorzystane. Definicja6.Niech foraz gbędąszeregamiczasowymiodługościach nim.wtedy 0 dla i = 0 0 dla j = 0 L(i,j) = 1+L[i 1,j 1] dla f i g j < ε oraz i j δ max(l[i 1,j],L[i,j 1]) wp.p. 13

14 L(n, m) zawiera podobieństwo pomiędzy f i g, ponieważ odpowiada długości l najdłuższego wspólnego podciągu szeregów f i g. Teraz: LCSS(f,g) = n+m 2L(n,m). (5) n+m jest odległością(miarą niepodobieństwa) szeregów f i g. Zgodnieztądefinicjąmiarataprzyjmujewartościzprzedziału [(1 2 min(n,m) n+m ),1]. Dlaszeregóworównejdługościprzyjmujewartościod0do1.Miara LCSSmadwa parametry: δ i ε(rysunek 9). Stała δ, która zazwyczaj jest ustalana jako procent długości szeregu, kontroluje rozmiar okna przy łączeniu szeregów. Określa jak bardzo punktyszeregumogąbyćodległewczasieabymogłybyćpołączone.stała 0 < ε < 1 określa, że dwa punkty szeregów mogą być połączone jeśli ich odległość jest mniejsza niż ε. Rys. 9. Dopasowanie w czasie i przestrzeni za pomocą LCSS. Wszystko poza kopertą ograniczającą nie może być dopasowane. W pracy A[5] zostały zaproponowane miary niepodobieństwa analogiczne do miar (1)i(3).Ztąjedynieróżnicą,żezamiast DTWwykorzystano LCSSjakomiaręwewnętrzną. Badania symulacyjne przeprowadzono na 47 zbiorach danych pochodzących z repozytorium UCR(C[13]). Uzyskane wyniki(tabela 2) pokazują sens poprawienia miary niepodobieństwa LCSS poprzez dodanie informacji pochodzących z zarówno pierwszej jak i z drugiej pochodnej. Tab. 2. Średnie błędy względne(na zbiorze testowym). DD LCSS LCSS LCSS 2DD LCSS LCSS LCSS 2DD LCSS DD LCSS DD LCSS Przeprowadzona analiza statystyczna uzyskanych wyników potwierdziła, że obie wersje(z pierwszą pochodną jak i z dwiema pierwszymi pochodnymi) są istotnie lepsze od czystej miary niepodobieństwa LCSS w zagadnieniu klasyfikacji z wykorzystaniem metody 1NN. Przeprowadzone zostały również badania mające na celu oceną szybkości działania zaproponowanych metod. Potwierdziły one wcześniejsze przypuszczenia, że 14

15 główny ciężar obliczeniowy związany jest w wyznaczeniem macierzy odległości. Samo wyliczenie parametrów jest już procedurą szybką lub nawet dla mniejszych zbiorów błyskawiczną. Dla największych zbiorów danych wyznaczenie pojedynczej macierzy odległości zajmowało nieco poniżej 3000 sekund. Wyznaczenie parametrów zajmowało w takiejsytuacji4sekundywprzypadkuwersjiztylkojednąpochodnąi89sekundw przypadku wersji z dwoma pochodnymi(a[5]). Wydaje się, że w sposób naturalny zaproponowana metodologia powinna się przenieść na przypadek szeregów wielowymiarowych. Tak też jest. Uzyskane wyniki ukazały się w pracy A[6], która jest rozszerzeniem pracy A[2] na przypadek szeregów wielowymiarowych. Tematyka szeregów wielowymiarowych jest zdecydowanie mniej popularna ze względu na rozliczne trudności w pracy z takimi danymi. Rozszerzenie odległości DTW na przypadek wielowymiarowy zostało zaproponowane w pracy C[23]. W pracy A[6] zastosowaliśmy nasze podejście parametryczne. Okazuje się, że również w tym przypadku zaproponowana miara zachowuje wszystkie pożądane własności miary wewnętrznej(nierówność trójkąta oraz ograniczenie dolne). Metoda została przetestowana na 18 zbiorach danych pochodzących z wielu źródeł(brak kompleksowego repozytorium wielowymiarowych szeregów czasowych). W każdym zbiorze danych szeregi były różnej długości. Zostały rozszerzone do długości najdłuższego szeregu w danym zbiorze. Wszystkie zmienne zostały rozszerzone do tej samej długości. Krótszy szereg f o długości nzostałrozszerzonydoszeregu godługości n max : g(j) = f(i), dla i = j 1 n max 1 (n 1)+0.5 (j = 1,2,...,n max ). Pewne wartości są powielane w celu rozszerzenia szeregu. Parametry metody zostały znalezione za pomocą metody CV(leave-one-out). Ponieważ jednak nie mamy wydzielonych zbiorów testowych i uczących wykorzystany w tym celu został cały zbiór. Faktyczna ocena błędu została wyznaczona za pomocą metody 10CV. Cały czas używany był klasyfikator 1NN. Uzyskano 9.60% redukcji błędu względnego pomiędzy naszą metodą wykorzystującą odległości pomiędzy szeregami jak i pochodnymi, a oryginalną odległością DTW. Jedynie na 2 zbiorach nastąpiło nieznaczne pogorszenie wyników (Rysunek 10). Aby zbadać statystyczną istotność uzyskanych wyników wykonana został test Wilcoxona, który jest nieparametrycznym odpowiednikiem testu t. Uzyskano w nim p-wartość równą ,coświadczyotym,żemetoda DD DTW jeststatystycznielepszaod metody DTW na poziomie istotności α = Wprowadzana miara odległości dla szeregów wielowymiarowych okazała się bardzo obiecująca. Zastosowane podejście parametryczne pozwala połączyć zalety metod składowych, równocześnie eliminując ich wady. Metoda dobrze dostosowuje się do rzeczywistych danych nie wykazując przy tym żadnych oznak nadmiernego dopasowania się do danych. Złożoność obliczeniowa nowej metody jest na podobnym poziomie jak jej poprzedniczek używanych w przypadku klasyfikacji szeregów jednowymiarowych. 15

16 DD DTW error DTW vs. DD DTW DD DTW Better Here DTW error Rys.10.Porównaniebłędów(DTWvs. DD DTW )dlaszeregówwielowymiarowych. 3. Pozostałe wyniki prac naukowych 3.1. Informatyka Praca B[25] dotyczy pewnych metod podobnych do metody najbliższego sąsiada (granicznie). Wydaje się, że na polepszenie wyników klasyfikacji powinno wpłynąć uwzględnienie odległości od wszystkich obiektów uczących oraz uwzględnienie wartości tych odległości. Ważne może być, nie tylko że jeden punkt jest dalej od drugiego, ale także to ile razy dalej się znajduje. Dla obserwacji x liczymy sumę odległości od wszystkich obserwacji z danej klasy: ρ j (x) = 1 n j x i : y i =j 1 x i x α α R +, gdzie αjestnieujemnymparametrem, n j toliczbaobserwacjizklasy j.obserwację x przypisujemy do klasy, dla której ta suma jest największa: d SCα (x) = argmaxρ j (x). j Klasyfikator taki nazwiemy skalarnym(sc). Kolejnym czynnikiem mogącym mieć wpływ na klasyfikację jest uwzględnienie nie tylko odległości ale również kierunków, wzajemnego położenia punktów uczących. Dla obserwacji testowej x wyznaczamy: v j (x) = 1 n j x i : y i =j x i x x i x α+1 α R +. Przyporządkowujemyobiekt xdoklasy,dlaktórejwektor v j (x)jestnajdłuższy: d VCα (x) = argmax v j (x). j 16

17 Rys. 11. Porównanie obszarów klasyfikacji dla metod 1NN, SC3 oraz VC3 Klasyfikator taki nazwiemy wektorowym(vc). Obie zaproponowane metody zależą od parametru α. Im większy jest parametr tym mniejszy wpływ poszczególnych obserwacji na wynik klasyfikacji. W szczególności jeśli α to wpływ dalszych punków jest coraz mniejszy i ostatecznie na wynik klasyfikacji wpływa jedynie punkt najbliższy. Wynikaztego,żeobiemetodydążądometody1NN(Rysunek11).Metodytezostały przetestowane na 6 zbiorach generowanych oraz 10 rzeczywistych i porównane z metodą 1NN. Okazało się, że na prawie wszystkich zbiorach dają one mniejszą ocenę błędu klasyfikacji. W pracy B[40] został zaproponowany klasyfikator bazujący na klasyfikatorze grawitacyjnym, w którym dodatkowo zastosowano parametr regularyzacji. Ustalmy początkowe położenia punktów, ich masy oraz prędkości startowe w pewnym momencie czasowym. Obiekty te oddziałując na siebie zmieniają swoje położenie zgodnie z prawami mechaniki. Naszym celem jest znalezienie ich położenia w innym momencie czasowym. Aby zaklasyfikować nowy obiekt wkładamy go w pole utworzone przez obiekty uczące. Przypisujemy go do klasy obiektu, który jako pierwszy został uderzony przez obiekt testowy. Obserwacje z próby uczącej odpowiadają ciałom w polu grawitacyjnym. Zakładamy,żemasysątakiesame(m i = 1),akażdypunktjestreprezentowanyprzezkulę opromieniu r(takisamdlawszystkichobiektów)ośrodkuwpunkcie x i wprzestrzeni R p.punktyuczącenieporuszająsię,niemająnasiebiewzajemniewpływu.zakładamy, że intensywność pola nie musi być odwrotnie proporcjonalna do kwadratu odległości, może być to inna funkcja potęgowa. Stąd wektor natężenia ma postać ˆv(x) = G n i=1 x i x x i x α, gdzie α > 1jestparametrem.Abyzaklasyfikowaćobiekt xumieszczamygowpolu grawitacyjnym. Zaczyna się poruszać i w pewnym momencie trafia w jeden z punktów uczących(tzn. w pewnym momencie t jego odległość od jednego z punktów uczących x k jestmniejszaod r).przypisujemygodoklasypunktu x k.musimyzatemrozwiązać układ równań różniczkowych drugiego rzędu(w postaci wektorowej): x (t) = G n j=1 x j x(t) x j x(t) α, 17

18 gdzie x j R p sąpunktamizpróbyuczącej, x(t)jestpołożeniemobiektutestowego x w chwili t. W celu jego rozwiązania użyta została metoda symulacyjna. Ostatecznie zdecydowaliśmy się na model, w którym obiekty poruszają się ze stałą początkową prędkością. W każdym momencie czasowym zmienia się jedynie kierunek ruchu zgodnie ze zmianami natężenia pola grawitacyjnego. Jeśli parametr α rośnie, maleje wpływ bardziej odległych punktów na natężenie pola. Stąd również w tym przypadku metoda dąży do metody najbliższego sąsiada(rysunek 12). Badania na rzeczywistych zbiorach Rys. 12. Obszary klasyfikacyjne dla różnych wartości parametru α(model II). danych pokazały, że zaproponowana metoda daje mniejszą ocenę błędu klasyfikacji niż porównywana metoda 1NN. Praca B[26] dotyczy metod konstrukcji jąder, które są powszechnie używane w statystyce(analiza skupień, analiza składowych głównych, estymacja funkcji regresji, analiza dyskryminacyjna, sieci neuronowe). Praca zawiera liczne przykłady i wnioski dotyczące metod konstrukcji jąder, również w przypadku wielowymiarowym. Omówiony jest również związek z rozwijaniem funkcji w szereg Taylora. Podobnie omówiony jest związek z funkcjami rozwijalnymi w szereg Legendre a. W monografii C[4] pojawił się pomysł dodawania do cech zbioru uczącego prawdopodobieństw a posteriori. Praca B[36] rozwija tę ideę i dotyczy sekwencyjnego poprawiania klasyfikatorów liniowych: LDA oraz perceptronu. Poprawka ta polega na sekwencyjnym dodawaniu nowych cech do próby uczącej, na której metoda jest uczona. Tymi nowymi cechami są prawdopodobieństwa a posteriori otrzymane za pomocą poprawianych metod. W kolejnych krokach dodajemy nieco inne prawdopodobieństwa, ponieważ metody są uczone na zmienionych danych. W taki sposób otrzymujemy wiele klasyfikatorów tego samego typu uczonych na nieco innych danych. Zaobserwowane cechy są w każdym kro- 18

19 ku takie same, zmieniają się jedynie dodawane prawdopodobieństwa. W pracy zostały zaproponowane cztery metody dodawania prawdopodobieństw: 1. W każdym kroku zastępujemy poprzednio dodane prawdopodobieństwa ostatnio uzyskanymi. 2. W kolejnych krokach dodawany wektor powstaje jako średnia arytmetyczna prawdopodobieństw z poprzednich kroków. 3. W kolejnych krokach dodawany wektor powstaje jako iloczyn prawdopodobieństw z poprzednich kroków. 4. W kolejnych krokach dodajemy dwa wektory prawdopodobieństw. Te z punku 2. i zpunktu3. W celu zbadania zaproponowanych metod przeprowadzone zostały badania na 20 rzeczywistych zbiorach danych pochodzących z repozytorium Uniwersytetu Kalifornijskiego(C[6]). Błąd klasyfikacji oceniono za pomocą metody bootstrap(100 powtórzeń). Dla obu badanych metod liniowych uzyskano redukcję błędu klasyfikacji dla wszystkich zaproponowanych poprawek. W przypadku metody LDA największą redukcję średniego błędu względnego uzyskano dla metody 4. i wyniosła ona 4.15%. W przypadku perceptronu podobnie największa redukcja nastąpiła dla metody 4. i wyniosła aż 14.53%. Praca B[44] kontynuuje wątki rozpoczęte w pracy B[36]. W tej pracy łączonych jest sekwencyjnie wiele metod klasyfikacji. Zaproponowaną metodę przetestowano na 22 rzeczywistych zbiorach danych(błąd oszacowano za pomocą metody bootstrap). Wyniki pokazały, że uzyskuje się bardzo dużą redukcję średniego błędu względnego. W celu oceny perspektyw zaproponowanych metod do użycia uniwersalnego porównano je z lasami losowymi, które przez wielu uważane są za metodą bardzo uniwersalną. Metoda LDA po zaproponowanej korekcie przewyższa nawet lasy losowe(średnio). Dodatkowo metody bardzo szybko zbiegają do rozwiązań(średnio około 2 kroki, maksymalnie 20). W pracy C[3] zaproponowano, by ostateczną decyzję klasyfikacyjną podejmować za pomocą klasyfikatora łączonego, wykorzystującego informację płynącą ze wszystkich klasyfikatorów. Klasyfikator łączony otrzymany tą metodą jest kombinacją liniową ocen prawdopodobieństw a posteriori uzyskanych przez c różnych klasyfikatorów. Współczynniki tej kombinacji liniowej znajdowane są metodą najmniejszych kwadratów w modelu liniowej regresji wielokrotnej. Metoda ta została nazwana regresją stosową. W pracy B[45] zaprezentowana zostały metody łączone wykorzystujące, obok regresji stosowej, następujące modele regresyjne: regresja logistyczna, regresja nieparametryczna(estymator Nadarayi-Watsona), regresja najmniejszych częściowych kwadratów, regresja lasso, regresja lars-en oraz lars. Dodatkowo metody te zostały porównane z prostymi metodami łączenia klasyfikatorów takimi jak: metoda sumacyjna, iloczynowa, metoda głosowania, minimum i maksimum oraz metoda medianowa. Jako metody bazowe posłużyły następujące klasyfikatory: klasyfikator Parzena, naiwny klasyfikator Bayesa, binarne drzewa klasyfikacyjne, 1NN, perceptron liniowy. Badania wykazały, że najlepsze wyniki daje metoda nieparametryczna, która została zarekomendowana do użycia spośród badanych metod. 19

20 Kolejnym tematem moich badań było wykorzystanie uogólnionych pseudoodwrotności w klasyfikacji za pomocą metody LDA. Klasyczna wersja metody LDA wymaga aby macierz kowariancji była nieosobliwa. Jednakże w wielu zastosowaniach praktycznych ten wymóg jest trudny lub nawet niemożliwy do spełnienia. Dzieje się tak ponieważ obserwacje znajdują się w przestrzeni o bardzo wysokim wymiarze i niezbędna do estymacji macierzy kowariancji liczba obserwacji jest ogromna. Problem ten znany jest jako problem osobliwości lub problem małej próby(sss). Istnieje wiele metod radzenia sobie z takim problemem. Jedną z nich jest wykorzystanie uogólnionych odwrotności (B[37]). Badania przeprowadzone na 32 rzeczywistych zbiorach danych oraz 6 zbiorach generowanych pokazały, że zaproponowane metody dokładne oprócz tego, że pozwalają wykorzystać metodę LDA w sytuacjach gdy cech jest więcej niż obserwacji, to również obniżają błąd klasyfikacji także w przypadku klasycznej metody LDA. Zaproponowana metoda ma jedną zasadniczą wadę. Nie jest możliwe jej wykorzystanie w przypadku większych danych, ponieważ liczba możliwych przekątnych rośnie bardzoszybko(dla60cechjesttojuż przekątnychdosprawdzenia).ztego względu zdecydowaliśmy się użyć jednej z wielu metod przybliżonych. Wybór padł na metody genetyczne. Tej tematyki dotyczy praca B[46]. W celu oceny jakości zaproponowanej metody przeprowadzone zostały badania symulacyjne na 15 zbiorach danych (10zliczbącechpowyżej15i5zliczbącechmniejsząniż15).Wynikipokazują,że zaproponowana metoda daje lepsze wyniki niż metoda LDA z odwrotnością MP dla dużych zbiorów danych. Poza tym jest możliwa do wykonania na zbiorze danych o dowolnej liczbie cech w przeciwieństwie do metody zaproponowanej w pracy B[37]. Praca B[29] porusza problem konstrukcji składowych głównych dla danych funkcjonalnych. Pokazano w niej, że analiza składowych głównych dla procesów X(t) skończenie wymiarowych jest równoważna wielowymiarowej analizie składowych głównych dlapewnychwektorówlosowych c = (c 0,c 1,,c N 1 ).WpracyB[29]zbadanodobór bazy i liczby jej elementów w procesie aproksymacji szeregów czasowych funkcjami ciągłymi. Rozpatrywane były następujące bazy funkcji ortonormalnych: baza Fouriera, baza sinusów, baza cosinusów oraz baza wielomianów Legedre a. Przeanalizowano również wpływ kryterium wyboru wielkości bazy. Analizie poddane zostały: kryterium bayesowskie oraz kryterium Akaike. Przeprowadzono obszerne badania symulacyjne na 20 rzeczywistych zbiorach danych pochodzących z repozytorium UCR(C[14]). Na podstawie symulacji i analizy statystycznej okazało się, że najlepiej zachowywała się baza wielomianów Legendre a wraz z kryterium Akaike jako metodą wyboru wielkości bazy. Zupełnie fatalnie wypadła natomiast baza cosinusów. W pracy B[35] zaproponowany został wariant jądrowy funkcjonalnych składowych głównych. Na tych samych zbiorach danych z wykorzystaniem bazy wielomianów Legendre a pokazano symulacyjnie, że wersja jądrowa daje jeszcze lepsze wyniki w przypadku danych funkcjonalnych. W przypadku gdy znana jest przynależność obiektów do klas lepszą techniką od składowych głównych są zmienne dyskryminacyjne, które potrafią wykorzystać tę dodatkową informację do konstrukcji nowych zmiennych. Konstrukcji takich zmiennych w przypadku funkcjonalnym, również w wersji jądrowej, poświęcona jest praca B[41]. W pracy pokazano, że analiza zmiennych dyskryminacyjnych procesów X(t) skończenie 20

21 wymiarowych jest równoważna wielowymiarowej analizie zmiennych dyskryminacyjnychdlapewnychwektorówlosowych c = (c 0,c 1...,c N 1 ).Podobniejakpoprzednio przeprowadzono badania symulacyjne na tych samych zbiorach danych, tym razem uwzględniając dodatkowe informacje o przynależności obserwacji do grup. W ich wyniku okazało się, że najlepsze rezultaty osiągamy wykorzystując funkcjonalne zmienne dyskryminacyjne w wersji jądrowej. Praca B[43] poświecona jest klasyfikacji w przestrzeni utworzonej przez funkcjonalne składowe główne oraz funkcjonalne zmienne dyskryminacyjne. W pracy B[42] zaproponowana została nowa metoda konstrukcji składowych głównych dla wielowymiarowych danych funkcjonalnych. Monografia B[22] jest nowoczesnym podręcznikiem zaawansowanych technik analizy danych stosowanych w zagadnieniach klasyfikacji zarówno z nauczycielem jak i bez, z naciskiem na metody statystyczne. Adresowana jest do osób zainteresowanych najnowszymi metodami eksploracji danych. Składa się z dwóch zasadniczych części. W pierwszej z nich przedstawiono systemy uczenia się pod nadzorem takie jak: LDA, QDA, metody regresyjne, SVM, knn, drzewa klasyfikacyjne i sieci neuronowe. Dodatkowo omówione zostały metody wzmacniania klasyfikatorów oraz łączenia metod klasyfikacji w celu uzyskania lepszych wyników. W części drugiej opisano cztery podstawowe metody uczenia się bez nadzoru: analiza składowych głównych, analizę skupień, skalowanie wielowymiarowe oraz analizę korespondencji. Podręcznik jest przeznaczony dla studentów studiów matematycznych, informatycznych i technicznych, na których analiza danych lub systemy uczące są przedmiotem obowiązkowym lub fakultatywnym. Natomiast monografia B[27] może spełniać rolę podręcznika do nauki statystyki (np. przedmioty takie jak: Elementy statystyki, Analiza danych, Statystyczne systemy uczące) dla studentów oraz hobbystów pasjonujących się metodami statystycznymi. Będzie przydatna także osobom zawodowo wykorzystującym statystykę, którym autor ułatwia wykrywanie i unikanie typowych błędów obliczeniowych i interpretacyjnych. Zawarte w monografii przykłady zostały opracowane za pomocą pakietu do obliczeń statystycznych R, dostępnego w Internecie bezpłatnie. O sile R stanowi blisko 6000 bibliotek, przeznaczonych do najróżniejszych zastosowań i wzbogaconych kompleksową dokumentacją. Omawiane w książce techniki są bogato ilustrowane przejrzyście opisanymi przykładami, a na końcu każdego rozdziału umieszczono zadania do samodzielnego rozwiązania Chemometria i biometria W pracach B[11], B[12], B[16]-B[18] oraz B[23] i B[24] zajmowałem się wykorzystaniem metod statystycznych w analizie spektrometrycznej żywności. W pracach tych używane były różnorodne metody rozpoznawania takie jak: LDA, QDA, PCA, knn, SIMCA oraz D-PLS. Dokonałem analizy danych otrzymanych za pomocą nosa elektronicznego, ze spektrometrem mas w roli detektora, do rozróżnienia piw(b[11], B[12], B[16], B[17], B[23], B[24]) oraz olejów spożywczych(b[18]) na bazie widma fluorescencji (uwzględniane były: długość przechowywania oraz temperatura i ilość światła w jakich produkty były przechowywane). Mieszanina związków lotnych uwalnianych przez badaną próbę analizowana była w spektrometrze mas z pominięciem etapu rozdziału na 21

22 poszczególne składniki. Otrzymane widma mas stanowią swoisty chemiczny odcisk palca i mogą zostać wykorzystane w celu klasyfikacji danych. W pracy B[32] zająłem się stężeniem pyłów zawieszonych PM10 i PM2.5 w powietrzu. Pyły te składają się z mieszaniny cząstek zawieszonych w powietrzu, będących mieszaniną substancji organicznych i nieorganicznych. Pyły takie mogą zawierać substancje toksyczne, które mogą docierać do górnych dróg oddechowych i płuc. Praca zawiera wyniki dotyczące pomiarów stężeń tych pyłów w Poznaniu w latach Do analizy zgromadzonych danych wykorzystana została analiza regresji i korelacji. Zmianom zapylenia PM10 w Polsce w latach poświęcona jest praca popularnonaukowa B[33]. Praca B[39] poświęcona jest analizie danych dotyczących pszenicy ozimej w latach Celem pracy było podzielenie gatunków pszenicy na grupy w zależności od ich zdolności adaptacyjnych do zmian środowiskowych. W tym celu wykorzystano zaproponowane w pracy B[29] oraz B[35] funkcjonalne składowe główne do przekształcenia oryginalnych danych do nowych danych funkcjonalnych. Na tak uzyskanych danych przeprowadzono analizę skupień z wykorzystaniem minimalnego drzewa rozpinającego Ekonomia Kolejnym moim obszarem badań były metody koncentracji, specjalizacji, konwergencji oraz dekompozycji PKB i WDB. Praca B[13] ma charakter przeglądowy. Artykuł przedstawia wybrane metody analizy konwergencji i dywergencji i ma przybliżyć czytelnikom narzędzia powszechnie stosowane w literaturze zagranicznej. W pracy B[14] przedstawione zostały wybrane metody badań przestrzenno-ekonomicznych, ze szczególnym uwzględnieniem metody Michalskiego(C[1]). Celem badań było zbadanie procesów przestrzennych(w dziedzinach takich jak: gospodarka, demografia, rolnictwo, jakość życia czy budownictwo) w różnych przekrojach przestrzennych, w latach W pracy B[15] sformułowane zostały nowe koncepcje rozwoju regionalnego w świetle procesów transformacji w latach Artykuł B[19] omawia ogólne zagadnienia metodologiczne związane z badaniem procesów koncentracji, specjalizacji(polaryzacji). Druga jego część zawiera wnioski z badania specjalizacji i koncentracji w Polsce w latach na bazie PKB, WDB oraz zatrudnienia. Tematyce specjalizacji polskich województw poświecone są prace B[20] oraz B[34]. Dla analiz regionalnych bardzo ważnym elementem jest porównanie rozwoju regionu z obszarem odniesienia, którym może być np. cała Polska. Niewiele jest metod ekonometrycznych, które pozwalają na takie właśnie ujęcie. Jedną z nich jest metoda shift-share, której idea pokrótce została zaprezentowana w artykule B[21]. W literaturze polskiej nie było kompleksowych prac pokazujących możliwości zastosowania tej metody do badań regionalnych. Celem artykułu było zaprezentowanie ogólnych założeń metodologicznych tej metody oraz zaprezentowanie możliwości jej wykorzystania do badań regionalnych wpolsce. Artykuł B[30] poświecony jest wykorzystaniu doskonałego narzędzia jakim są łańcuchy Markowa do analizy konwergencji polskich regionów w latach

23 Praca B[31](rozdział w monografii) poświęcona jest problemowi mierzenia konkurencyjności regionalnej, ze szczególnym uwzględnieniem dekompozycji PKB. Praca B[38] poświęcona jest analizie danych dotyczących zmian polskiego PKB w latach Celem pracy była wizualizacja danych typu szereg czasowy na jednym wykresie w celu zaobserwowania podobieństw regionów. W tym celu wykorzystano zaproponowane w pracy B[29] funkcjonalne składowe główne do przekształcenia oryginalnych danych do nowych danych funkcjonalnych, które następnie zostały zwizualizowane. Monografia B[28] porusza niezwykle ważny i relatywnie słabo do tej pory przedstawiony w literaturze problem konwergencji na szczeblu regionalnym, w przekroju regionów szczebla NUTS-2(regiony, województwa) oraz NUTS-3(podregiony utworzone z powiatów) w wybranych krajach przyjętych do Unii Europejskiej w 2004 roku i później. O ile znanych jest wiele publikacji z zakresu konwergencji na szczeblu gospodarek narodowych(nuts-1), o tyle konwergencja regionalna, mimo że znajduje się już w kręgu zainteresowań wielu badaczy, nie miała jeszcze zwartych monografii identyfikujących tę problematykę w szczególności na szczeblu NUTS Kandydat w liczbach Liczba cytowań moich prac(bez autocytowań) według bazy Web of Science wynosi 132(127), a indeks Hirscha równa się 5. Sumaryczny IF(według roku publikacji) wszystkich opublikowanych artykułów równa się Sumaryczna liczba punktów według aktualnej listy MNiSW(z 17 grudnia 2013 roku) wszystkich opublikowanych artykułów wynosi Kandydat jako recenzent Łącznie wykonałem piętnaście recenzji dla czasopism i konferencji: 21st International Conference on Computational Statistics 2014, Biometrical Letters, Colloquium Biometricum, Communications in Statistics Simulation and Computation, Computational Statistics and Data Analysis, European Conference on Data Analysis 2013, IEEE Transactions on Parallel and Distributed Systems, Information Sciences, International Journal of Applied Mathematics and Computer Science, Journal of Applied Statistics, Journal of Statistical Computation and Simulation devoted to Linstat Nagrody 1. Nagroda Dziekana Wydziału Matematyki i Informatyki UAM za działalność naukowąwroku2005, 2. Nagroda III stopnia Rektora UAM za działalność naukową w roku 2008, 23

Transformaty w klasyfikacji szeregów czasowych

Transformaty w klasyfikacji szeregów czasowych Transformaty w klasyfikacji szeregów czasowych Tomasz Górecki Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXVIII Konferencja Statystyka Matematyczna Wisła 3-7.12.2012 T. Górecki

Bardziej szczegółowo

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,

Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L, Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której

Bardziej szczegółowo

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną

Bardziej szczegółowo

Elementy modelowania matematycznego

Elementy modelowania matematycznego Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski

Bardziej szczegółowo

Analiza składowych głównych. Wprowadzenie

Analiza składowych głównych. Wprowadzenie Wprowadzenie jest techniką redukcji wymiaru. Składowe główne zostały po raz pierwszy zaproponowane przez Pearsona(1901), a następnie rozwinięte przez Hotellinga (1933). jest zaliczana do systemów uczących

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Agnieszka Nowak Brzezińska Wykład III

Agnieszka Nowak Brzezińska Wykład III Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe

Bardziej szczegółowo

Regresyjne metody łączenia klasyfikatorów

Regresyjne metody łączenia klasyfikatorów Regresyjne metody łączenia klasyfikatorów Tomasz Górecki, Mirosław Krzyśko Wydział Matematyki i Informatyki Uniwersytet im. Adama Mickiewicza XXXV Konferencja Statystyka Matematyczna Wisła 7-11.12.2009

Bardziej szczegółowo

Agnieszka Nowak Brzezińska

Agnieszka Nowak Brzezińska Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia

Bardziej szczegółowo

8. Drzewa decyzyjne, bagging, boosting i lasy losowe

8. Drzewa decyzyjne, bagging, boosting i lasy losowe Algorytmy rozpoznawania obrazów 8. Drzewa decyzyjne, bagging, boosting i lasy losowe dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Drzewa decyzyjne Drzewa decyzyjne (ang. decision trees), zwane

Bardziej szczegółowo

Optymalizacja ciągła

Optymalizacja ciągła Optymalizacja ciągła 5. Metoda stochastycznego spadku wzdłuż gradientu Wojciech Kotłowski Instytut Informatyki PP http://www.cs.put.poznan.pl/wkotlowski/ 04.04.2019 1 / 20 Wprowadzenie Minimalizacja różniczkowalnej

Bardziej szczegółowo

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie

1.7. Eksploracja danych: pogłębianie, przeszukiwanie i wyławianie Wykaz tabel Wykaz rysunków Przedmowa 1. Wprowadzenie 1.1. Wprowadzenie do eksploracji danych 1.2. Natura zbiorów danych 1.3. Rodzaje struktur: modele i wzorce 1.4. Zadania eksploracji danych 1.5. Komponenty

Bardziej szczegółowo

Testowanie hipotez statystycznych

Testowanie hipotez statystycznych 9 października 2008 ...czyli definicje na rozgrzewkę n-elementowa próba losowa - wektor n zmiennych losowych (X 1,..., X n ); intuicyjnie: wynik n eksperymentów realizacja próby (X 1,..., X n ) w ω Ω :

Bardziej szczegółowo

Aproksymacja funkcji a regresja symboliczna

Aproksymacja funkcji a regresja symboliczna Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą

Bardziej szczegółowo

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych

Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Algorytmy decyzyjne będące alternatywą dla sieci neuronowych Piotr Dalka Przykładowe algorytmy decyzyjne Sztuczne sieci neuronowe Algorytm k najbliższych sąsiadów Kaskada klasyfikatorów AdaBoost Naiwny

Bardziej szczegółowo

Wnioskowanie bayesowskie

Wnioskowanie bayesowskie Wnioskowanie bayesowskie W podejściu klasycznym wnioskowanie statystyczne oparte jest wyłącznie na podstawie pobranej próby losowej. Możemy np. estymować punktowo lub przedziałowo nieznane parametry rozkładów,

Bardziej szczegółowo

Dopasowywanie modelu do danych

Dopasowywanie modelu do danych Tematyka wykładu dopasowanie modelu trendu do danych; wybrane rodzaje modeli trendu i ich właściwości; dopasowanie modeli do danych za pomocą narzędzi wykresów liniowych (wykresów rozrzutu) programu STATISTICA;

Bardziej szczegółowo

Zmienne zależne i niezależne

Zmienne zależne i niezależne Analiza kanoniczna Motywacja (1) 2 Często w badaniach spotykamy problemy badawcze, w których szukamy zakresu i kierunku zależności pomiędzy zbiorami zmiennych: { X i Jak oceniać takie 1, X 2,..., X p }

Bardziej szczegółowo

Programowanie celowe #1

Programowanie celowe #1 Programowanie celowe #1 Problem programowania celowego (PC) jest przykładem problemu programowania matematycznego nieliniowego, który można skutecznie zlinearyzować, tzn. zapisać (i rozwiązać) jako problem

Bardziej szczegółowo

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15

VI WYKŁAD STATYSTYKA. 9/04/2014 B8 sala 0.10B Godz. 15:15 VI WYKŁAD STATYSTYKA 9/04/2014 B8 sala 0.10B Godz. 15:15 WYKŁAD 6 WERYFIKACJA HIPOTEZ STATYSTYCZNYCH PARAMETRYCZNE TESTY ISTOTNOŚCI Weryfikacja hipotez ( błędy I i II rodzaju, poziom istotności, zasady

Bardziej szczegółowo

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74

4.1. Wprowadzenie...70 4.2. Podstawowe definicje...71 4.3. Algorytm określania wartości parametrów w regresji logistycznej...74 3 Wykaz najważniejszych skrótów...8 Przedmowa... 10 1. Podstawowe pojęcia data mining...11 1.1. Wprowadzenie...12 1.2. Podstawowe zadania eksploracji danych...13 1.3. Główne etapy eksploracji danych...15

Bardziej szczegółowo

5. Analiza dyskryminacyjna: FLD, LDA, QDA

5. Analiza dyskryminacyjna: FLD, LDA, QDA Algorytmy rozpoznawania obrazów 5. Analiza dyskryminacyjna: FLD, LDA, QDA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Liniowe funkcje dyskryminacyjne Liniowe funkcje dyskryminacyjne mają ogólną

Bardziej szczegółowo

Analiza regresji - weryfikacja założeń

Analiza regresji - weryfikacja założeń Medycyna Praktyczna - portal dla lekarzy Analiza regresji - weryfikacja założeń mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie (Kierownik Zakładu: prof.

Bardziej szczegółowo

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów

Rozdział 2: Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów Rozdział : Metoda największej wiarygodności i nieliniowa metoda najmniejszych kwadratów W tym rozdziale omówione zostaną dwie najpopularniejsze metody estymacji parametrów w ekonometrycznych modelach nieliniowych,

Bardziej szczegółowo

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE

PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE UNIWERSYTET WARMIŃSKO-MAZURSKI W OLSZTYNIE PODYPLOMOWE STUDIA ZAAWANSOWANE METODY ANALIZY DANYCH I DATA MINING W BIZNESIE http://matman.uwm.edu.pl/psi e-mail: psi@matman.uwm.edu.pl ul. Słoneczna 54 10-561

Bardziej szczegółowo

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.

w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych. Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą

Bardziej szczegółowo

10. Redukcja wymiaru - metoda PCA

10. Redukcja wymiaru - metoda PCA Algorytmy rozpoznawania obrazów 10. Redukcja wymiaru - metoda PCA dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. PCA Analiza składowych głównych: w skrócie nazywana PCA (od ang. Principle Component

Bardziej szczegółowo

ODPOWIEDZI I SCHEMAT PUNKTOWANIA ZESTAW NR 2 POZIOM PODSTAWOWY. Etapy rozwiązania zadania

ODPOWIEDZI I SCHEMAT PUNKTOWANIA ZESTAW NR 2 POZIOM PODSTAWOWY. Etapy rozwiązania zadania Przykładowy zestaw zadań nr z matematyki ODPOWIEDZI I SCHEMAT PUNKTOWANIA ZESTAW NR POZIOM PODSTAWOWY Nr zadania Nr czynności Etapy rozwiązania zadania Liczba punktów Uwagi. Podanie dziedziny funkcji f:

Bardziej szczegółowo

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne

Wprowadzenie. { 1, jeżeli ˆr(x) > 0, pozatym. Regresja liniowa Regresja logistyczne Jądrowe estymatory gęstości. Metody regresyjne Wprowadzenie Prostym podejściem do klasyfikacji jest estymacja funkcji regresji r(x) =E(Y X =x)zpominięciemestymacjigęstościf k. Zacznijmyodprzypadkudwóchgrup,tj.gdy Y = {1,0}. Wówczasr(x) =P(Y =1 X =x)ipouzyskaniuestymatora

Bardziej szczegółowo

Skalowanie wielowymiarowe idea

Skalowanie wielowymiarowe idea Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy

Bardziej szczegółowo

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH

RÓWNOWAŻNOŚĆ METOD BADAWCZYCH RÓWNOWAŻNOŚĆ METOD BADAWCZYCH Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska Równoważność metod??? 2 Zgodność wyników analitycznych otrzymanych z wykorzystaniem porównywanych

Bardziej szczegółowo

9. Praktyczna ocena jakości klasyfikacji

9. Praktyczna ocena jakości klasyfikacji Algorytmy rozpoznawania obrazów 9. Praktyczna ocena jakości klasyfikacji dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Zbiór uczacy i zbiór testowy 1. Zbiór uczacy służy do konstrukcji (treningu)

Bardziej szczegółowo

13. Równania różniczkowe - portrety fazowe

13. Równania różniczkowe - portrety fazowe 13. Równania różniczkowe - portrety fazowe Grzegorz Kosiorowski Uniwersytet Ekonomiczny w Krakowie rzegorz Kosiorowski (Uniwersytet Ekonomiczny 13. wrównania Krakowie) różniczkowe - portrety fazowe 1 /

Bardziej szczegółowo

Skalowalność obliczeń równoległych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1

Skalowalność obliczeń równoległych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1 Skalowalność obliczeń równoległych Krzysztof Banaś Obliczenia Wysokiej Wydajności 1 Skalowalność Przy rozważaniu wydajności przetwarzania (obliczeń, komunikacji itp.) często pojawia się pojęcie skalowalności

Bardziej szczegółowo

Analiza korespondencji

Analiza korespondencji Analiza korespondencji Kiedy stosujemy? 2 W wielu badaniach mamy do czynienia ze zmiennymi jakościowymi (nominalne i porządkowe) typu np.: płeć, wykształcenie, status palenia. Punktem wyjścia do analizy

Bardziej szczegółowo

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu

Bardziej szczegółowo

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16

Spis treści. Przedmowa... XI. Rozdział 1. Pomiar: jednostki miar... 1. Rozdział 2. Pomiar: liczby i obliczenia liczbowe... 16 Spis treści Przedmowa.......................... XI Rozdział 1. Pomiar: jednostki miar................. 1 1.1. Wielkości fizyczne i pozafizyczne.................. 1 1.2. Spójne układy miar. Układ SI i jego

Bardziej szczegółowo

Transformata Fouriera. Sylwia Kołoda Magdalena Pacek Krzysztof Kolago

Transformata Fouriera. Sylwia Kołoda Magdalena Pacek Krzysztof Kolago Transformata Fouriera Sylwia Kołoda Magdalena Pacek Krzysztof Kolago Transformacja Fouriera rozkłada funkcję okresową na szereg funkcji okresowych tak, że uzyskana transformata podaje w jaki sposób poszczególne

Bardziej szczegółowo

Spacery losowe generowanie realizacji procesu losowego

Spacery losowe generowanie realizacji procesu losowego Spacery losowe generowanie realizacji procesu losowego Michał Krzemiński Streszczenie Omówimy metodę generowania trajektorii spacerów losowych (błądzenia losowego), tj. szczególnych procesów Markowa z

Bardziej szczegółowo

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1

Weryfikacja hipotez statystycznych. KG (CC) Statystyka 26 V / 1 Weryfikacja hipotez statystycznych KG (CC) Statystyka 26 V 2009 1 / 1 Sformułowanie problemu Weryfikacja hipotez statystycznych jest drugą (po estymacji) metodą uogólniania wyników uzyskanych w próbie

Bardziej szczegółowo

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I

Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Techniki Optymalizacji: Stochastyczny spadek wzdłuż gradientu I Wojciech Kotłowski Instytut Informatyki Politechniki Poznańskiej email: imię.nazwisko@cs.put.poznan.pl pok. 2 (CW) tel. (61)665-2936 konsultacje:

Bardziej szczegółowo

Elementy statystyki wielowymiarowej

Elementy statystyki wielowymiarowej Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych

Bardziej szczegółowo

Metody systemowe i decyzyjne w informatyce

Metody systemowe i decyzyjne w informatyce Metody systemowe i decyzyjne w informatyce Laboratorium JAVA Zadanie nr 2 Rozpoznawanie liter autorzy: A. Gonczarek, J.M. Tomczak Cel zadania Celem zadania jest zapoznanie się z problemem klasyfikacji

Bardziej szczegółowo

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska. SYSTEMY UCZĄCE SIĘ WYKŁAD 10. PRZEKSZTAŁCANIE ATRYBUTÓW Częstochowa 2014 Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska INFORMACJE WSTĘPNE Hipotezy do uczenia się lub tworzenia

Bardziej szczegółowo

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11

Modele DSGE. Jerzy Mycielski. Maj Jerzy Mycielski () Modele DSGE Maj / 11 Modele DSGE Jerzy Mycielski Maj 2008 Jerzy Mycielski () Modele DSGE Maj 2008 1 / 11 Modele DSGE DSGE - Dynamiczne, stochastyczne modele równowagi ogólnej (Dynamic Stochastic General Equilibrium Model)

Bardziej szczegółowo

Ćwiczenia nr 7. TEMATYKA: Krzywe Bézier a

Ćwiczenia nr 7. TEMATYKA: Krzywe Bézier a TEMATYKA: Krzywe Bézier a Ćwiczenia nr 7 DEFINICJE: Interpolacja: przybliżanie funkcji za pomocą innej funkcji, zwykle wielomianu, tak aby były sobie równe w zadanych punktach. Poniżej przykład interpolacji

Bardziej szczegółowo

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu

Bardziej szczegółowo

ALGORYTM RANDOM FOREST

ALGORYTM RANDOM FOREST SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM

Bardziej szczegółowo

Analiza głównych składowych- redukcja wymiaru, wykł. 12

Analiza głównych składowych- redukcja wymiaru, wykł. 12 Analiza głównych składowych- redukcja wymiaru, wykł. 12 Joanna Jędrzejowicz Instytut Informatyki Konieczność redukcji wymiaru w eksploracji danych bazy danych spotykane w zadaniach eksploracji danych mają

Bardziej szczegółowo

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW

Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW Zlot użytkowników R Porównanie szeregów czasowych z wykorzystaniem algorytmu DTW Paweł Teisseyre Instytut Podstaw Informatyki, Polska Akademia Nauk 21 września 2010 Miary podobieństwa między szeregami

Bardziej szczegółowo

Metody numeryczne I Równania nieliniowe

Metody numeryczne I Równania nieliniowe Metody numeryczne I Równania nieliniowe Janusz Szwabiński szwabin@ift.uni.wroc.pl Metody numeryczne I (C) 2004 Janusz Szwabiński p.1/66 Równania nieliniowe 1. Równania nieliniowe z pojedynczym pierwiastkiem

Bardziej szczegółowo

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline.

Wstęp do sieci neuronowych, wykład 03 Warstwy RBF, jednostka Adaline. Wstęp do sieci neuronowych, wykład 3 Warstwy, jednostka Adaline. Maja Czoków, Jarosław Piersa Wydział Matematyki i Informatyki, Uniwersytet Mikołaja Kopernika 211-1-18 1 Pomysł Przykłady Zastosowanie 2

Bardziej szczegółowo

166 Wstęp do statystyki matematycznej

166 Wstęp do statystyki matematycznej 166 Wstęp do statystyki matematycznej Etap trzeci realizacji procesu analizy danych statystycznych w zasadzie powinien rozwiązać nasz zasadniczy problem związany z identyfikacją cechy populacji generalnej

Bardziej szczegółowo

KORELACJE I REGRESJA LINIOWA

KORELACJE I REGRESJA LINIOWA KORELACJE I REGRESJA LINIOWA Korelacje i regresja liniowa Analiza korelacji: Badanie, czy pomiędzy dwoma zmiennymi istnieje zależność Obie analizy się wzajemnie przeplatają Analiza regresji: Opisanie modelem

Bardziej szczegółowo

Weryfikacja hipotez statystycznych

Weryfikacja hipotez statystycznych Weryfikacja hipotez statystycznych Hipoteza Test statystyczny Poziom istotności Testy jednostronne i dwustronne Testowanie równości wariancji test F-Fishera Testowanie równości wartości średnich test t-studenta

Bardziej szczegółowo

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym

Bardziej szczegółowo

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com

Regresja wielokrotna. PDF created with FinePrint pdffactory Pro trial version http://www.fineprint.com Regresja wielokrotna Model dla zależności liniowej: Y=a+b 1 X 1 +b 2 X 2 +...+b n X n Cząstkowe współczynniki regresji wielokrotnej: b 1,..., b n Zmienne niezależne (przyczynowe): X 1,..., X n Zmienna

Bardziej szczegółowo

Wykład 9 Testy rangowe w problemie dwóch prób

Wykład 9 Testy rangowe w problemie dwóch prób Wykład 9 Testy rangowe w problemie dwóch prób Wrocław, 18 kwietnia 2018 Test rangowy Testem rangowym nazywamy test, w którym statystyka testowa jest konstruowana w oparciu o rangi współrzędnych wektora

Bardziej szczegółowo

Mail: Pokój 214, II piętro

Mail: Pokój 214, II piętro Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,

Bardziej szczegółowo

składa się z m + 1 uporządkowanych niemalejąco liczb nieujemnych. Pomiędzy p, n i m zachodzi następująca zależność:

składa się z m + 1 uporządkowanych niemalejąco liczb nieujemnych. Pomiędzy p, n i m zachodzi następująca zależność: TEMATYKA: Krzywe typu Splajn (Krzywe B sklejane) Ćwiczenia nr 8 Krzywe Bezier a mają istotne ograniczenie. Aby uzyskać kształt zawierający wiele punktów przegięcia niezbędna jest krzywa wysokiego stopnia.

Bardziej szczegółowo

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie:

( x) Równanie regresji liniowej ma postać. By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : Gdzie: ma postać y = ax + b Równanie regresji liniowej By obliczyć współczynniki a i b należy posłużyć się następującymi wzorami 1 : xy b = a = b lub x Gdzie: xy = też a = x = ( b ) i to dane empiryczne, a ilość

Bardziej szczegółowo

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka

Statystyka opisowa. Wykład V. Regresja liniowa wieloraka Statystyka opisowa. Wykład V. e-mail:e.kozlovski@pollub.pl Spis treści 1 Prosta regresji cechy Y względem cech X 1,..., X k. 2 3 Wyznaczamy zależność cechy Y od cech X 1, X 2,..., X k postaci Y = α 0 +

Bardziej szczegółowo

WYKŁAD 9 METODY ZMIENNEJ METRYKI

WYKŁAD 9 METODY ZMIENNEJ METRYKI WYKŁAD 9 METODY ZMIENNEJ METRYKI Kierunki sprzężone. Metoda Newtona Raphsona daje dobre przybliżenie najlepszego kierunku poszukiwań, lecz jest to okupione znacznym kosztem obliczeniowym zwykle postać

Bardziej szczegółowo

KADD Minimalizacja funkcji

KADD Minimalizacja funkcji Minimalizacja funkcji Poszukiwanie minimum funkcji Foma kwadratowa Metody przybliżania minimum minimalizacja Minimalizacja w n wymiarach Metody poszukiwania minimum Otaczanie minimum Podział obszaru zawierającego

Bardziej szczegółowo

Ważne rozkłady i twierdzenia c.d.

Ważne rozkłady i twierdzenia c.d. Ważne rozkłady i twierdzenia c.d. Funkcja charakterystyczna rozkładu Wielowymiarowy rozkład normalny Elipsa kowariacji Sploty rozkładów Rozkłady jednostajne Sploty z rozkładem normalnym Pobieranie próby

Bardziej szczegółowo

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling

Summary in Polish. Fatimah Mohammed Furaiji. Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling Summary in Polish Fatimah Mohammed Furaiji Application of Multi-Agent Based Simulation in Consumer Behaviour Modeling Zastosowanie symulacji wieloagentowej w modelowaniu zachowania konsumentów Streszczenie

Bardziej szczegółowo

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość

Idea. θ = θ 0, Hipoteza statystyczna Obszary krytyczne Błąd pierwszego i drugiego rodzaju p-wartość Idea Niech θ oznacza parametr modelu statystycznego. Dotychczasowe rozważania dotyczyły metod estymacji tego parametru. Teraz zamiast szacować nieznaną wartość parametru będziemy weryfikowali hipotezę

Bardziej szczegółowo

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI

OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Autoreferat do rozprawy doktorskiej OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Michał Mazur Gliwice 2016 1 2 Montaż samochodów na linii w

Bardziej szczegółowo

Wykład 5: Statystyki opisowe (część 2)

Wykład 5: Statystyki opisowe (część 2) Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz

Bardziej szczegółowo

Jądrowe klasyfikatory liniowe

Jądrowe klasyfikatory liniowe Jądrowe klasyfikatory liniowe Waldemar Wołyński Wydział Matematyki i Informatyki UAM Poznań Wisła, 9 grudnia 2009 Waldemar Wołyński () Jądrowe klasyfikatory liniowe Wisła, 9 grudnia 2009 1 / 19 Zagadnienie

Bardziej szczegółowo

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x

ZJAZD 4. gdzie E(x) jest wartością oczekiwaną x ZJAZD 4 KORELACJA, BADANIE NIEZALEŻNOŚCI, ANALIZA REGRESJI Analiza korelacji i regresji jest działem statystyki zajmującym się badaniem zależności i związków pomiędzy rozkładami dwu lub więcej badanych

Bardziej szczegółowo

Teoria. a, jeśli a < 0.

Teoria. a, jeśli a < 0. Teoria Definicja 1 Wartością bezwzględną liczby a R nazywamy liczbę a określoną wzorem a, jeśli a 0, a = a, jeśli a < 0 Zgodnie z powyższym określeniem liczba a jest równa odległości liczby a od liczby

Bardziej szczegółowo

INTERPOLACJA I APROKSYMACJA FUNKCJI

INTERPOLACJA I APROKSYMACJA FUNKCJI Transport, studia niestacjonarne I stopnia, semestr I Instytut L-5, Wydział Inżynierii Lądowej, Politechnika Krakowska Ewa Pabisek Adam Wosatko Wprowadzenie Na czym polega interpolacja? Interpolacja polega

Bardziej szczegółowo

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji

Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Weryfikacja hipotez statystycznych, parametryczne testy istotności w populacji Dr Joanna Banaś Zakład Badań Systemowych Instytut Sztucznej Inteligencji i Metod Matematycznych Wydział Informatyki Politechniki

Bardziej szczegółowo

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński

Mikroekonometria 14. Mikołaj Czajkowski Wiktor Budziński Mikroekonometria 14 Mikołaj Czajkowski Wiktor Budziński Symulacje Analogicznie jak w przypadku ciągłej zmiennej zależnej można wykorzystać metody Monte Carlo do analizy różnego rodzaju problemów w modelach

Bardziej szczegółowo

Tadeusz Lesiak. Dynamika punktu materialnego: Praca i energia; zasada zachowania energii

Tadeusz Lesiak. Dynamika punktu materialnego: Praca i energia; zasada zachowania energii Mechanika klasyczna Tadeusz Lesiak Wykład nr 4 Dynamika punktu materialnego: Praca i energia; zasada zachowania energii Energia i praca T. Lesiak Mechanika klasyczna 2 Praca Praca (W) wykonana przez stałą

Bardziej szczegółowo

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU

WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Eksploracja Danych Nazwa w języku angielskim: Data Mining Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Stopień studiów i forma:

Bardziej szczegółowo

jest ciągiem elementów z przestrzeni B(R, R)

jest ciągiem elementów z przestrzeni B(R, R) Wykład 2 1 Ciągi Definicja 1.1 (ciąg) Ciągiem w zbiorze X nazywamy odwzorowanie x: N X. Dla uproszczenia piszemy x n zamiast x(n). Przykład 1. x n = n jest ciągiem elementów z przestrzeni R 2. f n (x)

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski

Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Statystyka od podstaw Janina Jóźwiak, Jarosław Podgórski Książka jest nowoczesnym podręcznikiem przeznaczonym dla studentów uczelni i wydziałów ekonomicznych. Wykład podzielono na cztery części. W pierwszej

Bardziej szczegółowo

Inteligentna analiza danych

Inteligentna analiza danych Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki

Bardziej szczegółowo

SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa

SIMR 2016/2017, Analiza 2, wykład 1, Przestrzeń wektorowa SIMR 06/07, Analiza, wykład, 07-0- Przestrzeń wektorowa Przestrzeń wektorowa (liniowa) - przestrzeń (zbiór) w której określone są działania (funkcje) dodawania elementów i mnożenia elementów przez liczbę

Bardziej szczegółowo

Wektory, układ współrzędnych

Wektory, układ współrzędnych Wektory, układ współrzędnych Wielkości występujące w przyrodzie możemy podzielić na: Skalarne, to jest takie wielkości, które potrafimy opisać przy pomocy jednej liczby (skalara), np. masa, czy temperatura.

Bardziej szczegółowo

Klasyfikacja LDA + walidacja

Klasyfikacja LDA + walidacja Klasyfikacja LDA + walidacja Dr hab. Izabela Rejer Wydział Informatyki Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Plan wykładu 1. Klasyfikator 2. LDA 3. Klasyfikacja wieloklasowa 4. Walidacja

Bardziej szczegółowo

9.9 Algorytmy przeglądu

9.9 Algorytmy przeglądu 14 9. PODSTAWOWE PROBLEMY JEDNOMASZYNOWE 9.9 Algorytmy przeglądu Metody przeglądu dla problemu 1 r j,q j C max były analizowane między innymi w pracach 25, 51, 129, 238. Jak dotychczas najbardziej elegancka

Bardziej szczegółowo

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner

Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Problem eliminacji nieprzystających elementów w zadaniu rozpoznania wzorca Marcin Luckner Wydział Matematyki i Nauk Informacyjnych Politechnika Warszawska Elementy nieprzystające Definicja odrzucania Klasyfikacja

Bardziej szczegółowo

WYKŁAD 8 ANALIZA REGRESJI

WYKŁAD 8 ANALIZA REGRESJI WYKŁAD 8 ANALIZA REGRESJI Regresja 1. Metoda najmniejszych kwadratów-regresja prostoliniowa 2. Regresja krzywoliniowa 3. Estymacja liniowej funkcji regresji 4. Testy istotności współczynnika regresji liniowej

Bardziej szczegółowo

Regresja linearyzowalna

Regresja linearyzowalna 1 z 5 2007-05-09 23:22 Medycyna Praktyczna - portal dla lekarzy Regresja linearyzowalna mgr Andrzej Stanisz z Zakładu Biostatystyki i Informatyki Medycznej Collegium Medicum UJ w Krakowie Data utworzenia:

Bardziej szczegółowo

Pattern Classification

Pattern Classification Pattern Classification All materials in these slides were taken from Pattern Classification (2nd ed) by R. O. Duda, P. E. Hart and D. G. Stork, John Wiley & Sons, 2000 with the permission of the authors

Bardziej szczegółowo

Testowanie hipotez statystycznych. Wnioskowanie statystyczne

Testowanie hipotez statystycznych. Wnioskowanie statystyczne Testowanie hipotez statystycznych Wnioskowanie statystyczne Hipoteza statystyczna to dowolne przypuszczenie co do rozkładu populacji generalnej (jego postaci funkcyjnej lub wartości parametrów). Hipotezy

Bardziej szczegółowo

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć)

Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) Szczegółowy program kursu Statystyka z programem Excel (30 godzin lekcyjnych zajęć) 1. Populacja generalna a losowa próba, parametr rozkładu cechy a jego ocena z losowej próby, miary opisu statystycznego

Bardziej szczegółowo

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA dr inż. Aleksander Astel Gdańsk, 22.12.2004 CHEMOMETRIA dziedzina nauki i techniki zajmująca się wydobywaniem użytecznej informacji z wielowymiarowych

Bardziej szczegółowo

W. Guzicki Próbna matura, grudzień 2014 r. poziom rozszerzony 1

W. Guzicki Próbna matura, grudzień 2014 r. poziom rozszerzony 1 W. Guzicki Próbna matura, grudzień 01 r. poziom rozszerzony 1 Próbna matura rozszerzona (jesień 01 r.) Zadanie 18 kilka innych rozwiązań Wojciech Guzicki Zadanie 18. Okno na poddaszu ma mieć kształt trapezu

Bardziej szczegółowo

Analiza składowych głównych

Analiza składowych głównych Analiza składowych głównych Wprowadzenie (1) W przypadku regresji naszym celem jest predykcja wartości zmiennej wyjściowej za pomocą zmiennych wejściowych, wykrycie związku między wielkościami wejściowymi

Bardziej szczegółowo

Natalia Neherbecka. 11 czerwca 2010

Natalia Neherbecka. 11 czerwca 2010 Natalia Neherbecka 11 czerwca 2010 1 1. Konsekwencje heteroskedastyczności i autokorelacji 2. Uogólniona MNK 3. Stosowalna Uogólniona MNK 4. Odporne macierze wariancji i kowariancji b 2 1. Konsekwencje

Bardziej szczegółowo

Matematyka dyskretna. Andrzej Łachwa, UJ, /10

Matematyka dyskretna. Andrzej Łachwa, UJ, /10 Matematyka dyskretna Andrzej Łachwa, UJ, 2018 andrzej.lachwa@uj.edu.pl 10/10 Podziały i liczby Stirlinga Liczba Stirlinga dla cykli (często nazywana liczbą Stirlinga pierwszego rodzaju) to liczba permutacji

Bardziej szczegółowo

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek:

Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych. Informatics systems for the statistical treatment of data Kierunek: Nazwa przedmiotu: Informatyczne systemy statystycznej obróbki danych I KARTA PRZEDMIOTU CEL PRZEDMIOTU Informatics systems for the statistical treatment of data Kierunek: Forma studiów Informatyka Stacjonarne

Bardziej szczegółowo

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r

Statystyka matematyczna Testowanie hipotez i estymacja parametrów. Wrocław, r Statystyka matematyczna Testowanie hipotez i estymacja parametrów Wrocław, 18.03.2016r Plan wykładu: 1. Testowanie hipotez 2. Etapy testowania hipotez 3. Błędy 4. Testowanie wielokrotne 5. Estymacja parametrów

Bardziej szczegółowo

Testowanie modeli predykcyjnych

Testowanie modeli predykcyjnych Testowanie modeli predykcyjnych Wstęp Podczas budowy modelu, którego celem jest przewidywanie pewnych wartości na podstawie zbioru danych uczących poważnym problemem jest ocena jakości uczenia i zdolności

Bardziej szczegółowo

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k.

Funkcje wymierne. Jerzy Rutkowski. Działania dodawania i mnożenia funkcji wymiernych określa się wzorami: g h + k l g h k. Funkcje wymierne Jerzy Rutkowski Teoria Przypomnijmy, że przez R[x] oznaczamy zbiór wszystkich wielomianów zmiennej x i o współczynnikach rzeczywistych Definicja Funkcją wymierną jednej zmiennej nazywamy

Bardziej szczegółowo