WYKRYWANIE WYJĄTKÓW PRZY UŻYCIU WEKTORÓW NOŚNYCH

Podobne dokumenty
Statystyczne metody przetwarzania danych

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

Proces narodzin i śmierci

Wprowadzenie. Support vector machines (maszyny wektorów wspierających, maszyny wektorów nośnych) SVM służy do: Zalety metody SVM

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

Pattern Classification


SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

Analiza danych. Analiza danych wielowymiarowych. Regresja liniowa. Dyskryminacja liniowa. PARA ZMIENNYCH LOSOWYCH

Natalia Nehrebecka. Zajęcia 4

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

EKONOMIA MENEDŻERSKA. Wykład 3 Funkcje produkcji 1 FUNKCJE PRODUKCJI. ANALIZA KOSZTÓW I KORZYŚCI SKALI. MINIMALIZACJA KOSZTÓW PRODUKCJI.

METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING

XXX OLIMPIADA FIZYCZNA ETAP III Zadanie doświadczalne

Stanisław Cichocki Natalia Nehrebecka. Zajęcia 4

Bayesowskie testowanie modeli tobitowych w analizie spłaty kredytów detalicznych

Natalia Nehrebecka. Wykład 2

= σ σ. 5. CML Capital Market Line, Rynkowa Linia Kapitału

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 2(88)/2012

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

Przykład 3.1. Wyznaczenie zmiany odległości między punktami ramy trójprzegubowej

5. Pochodna funkcji. lim. x c x c. (x c) = lim. g(c + h) g(c) = lim

WOJSKOWA AKADEMIA TECHNICZNA im. Jar osława Dąbr owskiego ZAKŁAD AWIONIKI I UZBROJENIA LOTNICZEGO

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

Portfele zawierające walor pozbawiony ryzyka. Elementy teorii rynku kapitałowego

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

O PEWNYM MODELU POZWALAJĄCYM IDENTYFIKOWAĆ K NAJBARDZIEJ PODEJRZANYCH REKORDÓW W ZBIORZE DANYCH KSIĘGOWYCH W PROCESIE WYKRYWANIA OSZUSTW FINANSOWYCH

MIKROEKONOMIA Prof. nadzw. dr hab. Jacek Prokop

I. Elementy analizy matematycznej

Rozwiązywanie zadań optymalizacji w środowisku programu MATLAB

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

XLI OLIMPIADA FIZYCZNA ETAP WSTĘPNY Zadanie teoretyczne

Dywersyfikacja portfela poprzez inwestycje alternatywne. Prowadzący: Jerzy Nikorowski, Superfund TFI.

Korekcja liniowych układów regulacji automatycznej

Neural networks. Krótka historia rozpoznawanie znaków alfanumerycznych.

Zestaw zadań 4: Przestrzenie wektorowe i podprzestrzenie. Liniowa niezależność. Sumy i sumy proste podprzestrzeni.

Pokazać, że wyżej zdefiniowana struktura algebraiczna jest przestrzenią wektorową nad ciałem

Plan wykładu. Sztuczne sieci neuronowe. Problem dwuklasowy (N=1) Problem klasyfikacji. Wykład 6: Ocena jakoci sieci neuronowej Sieci RBF KLASYFIKATOR

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

V. WPROWADZENIE DO PRZESTRZENI FUNKCYJNYCH

Plan wykładu. Sztuczne sieci neuronowe. Problem dwuklasowy (N=1) Problem klasyfikacji. Wykład 4-5: Ocena jakości sieci neuronowej Sieci RBF

System M/M/1/L. λ = H 0 µ 1 λ 0 H 1 µ 2 λ 1 H 2 µ 3 λ 2 µ L+1 λ L H L+1. Jeli załoymy, e λ. i dla i = 1, 2,, L+1 oraz

SYSTEMY UCZĄCE SIĘ WYKŁAD 15. ANALIZA DANYCH WYKRYWANIE OBSERWACJI. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

WikiWS For Business Sharks

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

P 1, P 2 - wektory sił wewnętrznych w punktach powierzchni F wokół punktu A

PROSTO O DOPASOWANIU PROSTYCH, CZYLI ANALIZA REGRESJI LINIOWEJ W PRAKTYCE

Grupowanie dokumentów XML ze względu na ich strukturę, z wykorzystaniem XQuery

Nowoczesne technk nformatyczne - Ćwczene 2: PERCEPTRON str. 2 Potencjał membranowy u wyznaczany jest klasyczne: gdze: w waga -tego wejśca neuronu b ba

Rachunek prawdopodobieństwa i statystyka W 11: Analizy zależnościpomiędzy zmiennymi losowymi Model regresji wielokrotnej

POLITECHNIKA WARSZAWSKA WYDZIAŁ ELEKTRYCZNY SIECI NEURONOWE SVM W ZASTOSOWANIU DO KLASYFIKACJI OBRAZÓW KOMÓREK SZPIKU KOSTNEGO

OPTYMALIZACJA WARTOŚCI POLA MAGNETYCZNEGO W POBLIŻU LINII NAPOWIETRZNEJ Z WYKORZYSTANIEM ALGORYTMU GENETYCZNEGO

Zarządzanie ryzykiem w przedsiębiorstwie i jego wpływ na analizę opłacalności przedsięwzięć inwestycyjnych

Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

Bezpieczeństwo jako kryterium eksploatacji środków transportu

Zaawansowane metody numeryczne

Definicje ogólne

SYSTEMY UCZĄCE SIĘ WYKŁAD 7. KLASYFIKATORY BAYESA. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

RÓWNOLEGŁY ALGORYTM POPULACYJNY DLA PROBLEMU GNIAZDOWEGO Z RÓWNOLEGŁYMI MASZYNAMI

Badania suwnicy pomostowej natorowej dwudźwigarowej

W praktyce często zdarza się, że wyniki obu prób możemy traktować jako. wyniki pomiarów na tym samym elemencie populacji np.

ZADANIE 9.5. p p T. Dla dwuatomowego gazu doskonałego wykładnik izentropy = 1,4 (patrz tablica 1). Temperaturę spiętrzenia obliczymy następująco

Wielokategorialne systemy uczące się i ich zastosowanie w bioinformatyce. Rafał Grodzicki

Zastosowanie wielowymiarowej analizy porównawczej w doborze spó³ek do portfela inwestycyjnego Zastosowanie wielowymiarowej analizy porównawczej...

Zasada Jourdina i zasada Gaussa

ANALIZA WPŁYWU OBSERWACJI NIETYPOWYCH NA WYNIKI MODELOWANIA REGIONALNEJ WYDAJNOŚCI PRACY

Ćwiczenie 10. Waldemar Nowicki WYZNACZANIE WISKOZYMETRYCZNIE ŚREDNIEJ MASY MOLOWEJ POLIMERÓW

APROKSYMACJA QUASIJEDNOSTAJNA

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

WPŁYW PARAMETRÓW DYSKRETYZACJI NA NIEPEWNOŚĆ WYNIKÓW POMIARU OBIEKTÓW OBRAZU CYFROWEGO

SZTUCZNA INTELIGENCJA

5. OPTYMALIZACJA GRAFOWO-SIECIOWA

Badania wùaœciwoœci sprê ystych i plastycznych torfu w procesie konsolidacji

System Przeciwdziałania Powstawaniu Bezrobocia na Terenach Słabo Zurbanizowanych SPRAWOZDANIE Z BADAŃ Autor: Joanna Wójcik

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Analiza ryzyka jako instrument zarządzania środowiskiem

METODA STRZAŁÓW W ZASTOSOWANIU DO ZAGADNIENIA BRZEGOWEGO Z NADMIAROWĄ LICZBĄ WARUNKÓW BRZEGOWYCH

Analiza porównawcza rozwoju wybranych banków komercyjnych w latach

Plan wykładu: Typowe dane. Jednoczynnikowa Analiza wariancji. Zasada: porównać zmienność pomiędzy i wewnątrz grup

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

MATEMATYKA POZIOM ROZSZERZONY Kryteria oceniania odpowiedzi. Arkusz A II. Strona 1 z 5

Portfel złożony z wielu papierów wartościowych

7. PLANY OPTYMALNE PODSTAWOWE ZAŁOŻENIA I KRYTERIA OPTYMALNOŚCI

Twierdzenie Bezouta i liczby zespolone Javier de Lucas. Rozwi azanie 2. Z twierdzenia dzielenia wielomianów, mamy, że

Weryfikacja hipotez dla wielu populacji

Procedura normalizacji

ZESZYTY NAUKOWE INSTYTUTU POJAZDÓW 5(96)/2013

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

V. TERMODYNAMIKA KLASYCZNA

Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

Mikroekonometria 15. Mikołaj Czajkowski Wiktor Budziński

Proste modele ze złożonym zachowaniem czyli o chaosie

DIAGNOSTYKA WYMIENNIKÓW CIEPŁA Z UWIARYGODNIENIEM WYNIKÓW POMIARÓW EKPLOATACYJNYCH

Stanisław Cichocki. Natalia Nehrebecka. Wykład 7

liniowym w przeciwnym przypadku mówimy o programowaniu nieliniowym.

Monitorowanie i Diagnostyka w Systemach Sterowania

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów.

Rys. 1. Temperatura punktu rosy na wykresie p-t dla wody.

Transkrypt:

Zeszyty Naukowe WSInf Vol 16, Nr 1, 2017 Agneszka Duraj Instytut Informatyk, Poltechnka Łódzka Wólczańska 215, 90-924 Łódź emal: agneszka.duraj@.lodz.l WYKRYWANIE WYJĄTKÓW PRZY UŻYCIU WEKTORÓW NOŚNYCH Streszczene W artykule omówono metodę wektorów nośnych w bardzo ważnym asekce wykrywana wyjątków w dużych zborach danych. Wykrywane wyjątków jest stotne rzy rocesach analzowana danych, gdze mamy do czynena z klasyfkacja, gruowanem, wyznaczanem reguł asocjacyjnych. Istnene wyjątków w klasyfkowanych czy gruowanych danych wływa na cały kontekst analzy. Może rowadzć do wyznaczena błędnych reguł. Wyjątk muszą być zatem dentyfkowane. W nnejszym artykule skuono sę na metodze wektorów nośnych w celu wykrywana wyjątków. Badana zostały oarte na zborach z reozytorum UCI [17]. Słowa kluczowe: wykrywane wyjątków, maszyna wektorów nośnych 1 Wrowadzene Eksloracja danych (ang. data mnng) jako eta rocesu odkrywana wedzy z baz danych (ang. Knowledge Dscovery n Databases, KDD) stanow obecne bardzo oularny dzał badań naukowych. Ideą tej dzedzny jest szybke znajdowane ukrytych dla ludzkego oka rawdłowośc lub tez nerawdłowośc w zborze danych. Jako roces analtyczny zajmuje sę rzetwarzanem bardzo dużych zasobów w celu odnalezena regularnych wzorców, wsółzależnośc mędzy zmennym. Można zatem owedzeć, że rzy wykorzystanu szybkośc rocesorów za omocą algorytmów data mnng odkrywamy ukryte dla człoweka rawdłowośc w danych. Prowadzmy do zdefnowana rzewdywana welkośc srzedaży, zachowań roflu klenta. Cały roces eksloracj danych odzelony jest na etay: wstęnego rzetwarzana danych, budowana odowednego modelu, jego oceny weryfkacj dzałana, zastosowana modelu dla nowych obektów. Wstęne rzetwarzane danych rowadz do czyszczena zboru z rekordów z ustych atrybutów tzw. brudnych danych. Na tym etae określa sę równeż najważnejsze cechy w kontekśce rowadzonej analzy. Ma to ogromne znaczena w rocesach klasyfkacj, czy też 55

Wykrywane wyjątków rzy użycu... gruowana. Wyjątk w zborach danych traktowane jako brudne dane owstające w wynku uszkodzena systemu, błędu człoweka należy oczywśce usunąć z bazy omnąć w trakce analzy. Jednak na tym etae ne możemy wyelmnować tzw. wyjątków, które mogą zmenać kontekst analzy ale są szczególnym rzyadkam. Wykrywane wyjątków jest zatem bardzo stotnym zagadnenem w eksloracj danych. Metody wykrywające wyjątk są różnorodne. Oarte są rzede wszystkm na metodach statystycznych, marach odległośc czy też funkcjach odobeństwa neodobeństwa. Bogaty rzegląd tej dzedzny odano w racach [1,2]. Przegląd metod wykrywana dla danych medycznych odano zaś w [6,9]. Wykrywane wyjątków rzy użycu odsumowań lngwstycznych zaroonowano w racach Duraj wsółautorzy [7,8,9]. Innowacyjne metody dotyczące wykrywana wyjątków zwązane z algorytmam genetycznym odano w [4,5]. Metodę wykrywana wyjątków określających anomale mędzy zadanam zaobegającym wystęowanu konflktów zasobów w rzygotowanym harmonograme zaroonował Smolńsk w racach [13-15]. Z kole w [12] odano metodę wykrywana wyjątków sowodowanych określonym zjawskem fzycznym. W nnejszym artykule skuamy sę na wykrywanu wyjątków rzy użycu bardzo oularnego dobrego klasyfkatora jakm jest maszyna wektorów nośnych. Metoda wektorów nośnych (ang. Suort Vector Machnes - SVM) wrowadzona rzez Vladmr N. Vank a [19] tworzy rzestrzene decyzyjne. Przestrzene te wyznacza dzeląc całą rzestrzeń według tworzonych granc searujących obekty. W najrostszej ostac dzel rzestrzeń na dwe odrzestrzene dwe klasy oddzela je lną granczną. Obekt neznany w zależnośc w której rzestrzen sę znajdze do tej rzestrzen zostane zaklasyfkowany. Ten najrostszy rzyadek z dwoma herłaszczyznam staje sę ntucyjny rosty. Zblżony do zagadnena regresj lnowej. Istneje klka tyów wektorów nośnych, z różnym funkcjam bazowym. Są to na rzykład: lnową, welomanową funkcja bazowa, RBF (radalne funkcje bazowe), sgmodalna funkcja bazowa, Gaussowska funkcja bazowa, td. W badanach własnych skuono sę na gaussowskej funkcj bazowej. Wykrywane wyjątków stanow bardzo ważny asekt eksloracj danych. Poszukwane nowych metod lub modyfkacja stnejących algorytmów jest jak najbardzej uzasadnona. Układ nnejszej racy jest nastęujący: w sekcj 2 omawamy odstawową deę metody wektorów nośnych. Nastęne odajemy kontekst wykrywana wyjątków w oarcu o obekt lokalny globalny. Sekcja 4 to wynk z rzerowadzonych ekserymentów badawczych. Praca zakończona jest wnoskam. 56

A. Duraj 2 Idea dzałana maszyny wektorów nośnych Algorytm wektorów nośnych (ang. Suort Vector Machne) (SVM) wrowadzony rzez Vladmr N. Vank a [19] jest często używany do klasyfkacj czy też redykcj danych. Polega on głowne na wybranu najleszej z użytych herłaszczyzn dyskrymnacyjnych. Istotna jest zatem maksymalzacja margnesu searacj omędzy dwoma klasam, rzy zachowanu najmnejszego błędu klasyfkacj. SVM jest używany w welu różnych dzedznach ocząwszy od analzowana danych o rozoznawane mowy, tekstu czy klasyfkacj, analzę danych fnansowych, medycznych. Główną zaletą maszyny wektorów nośnych staje sę możlwość rzetwarzana danych nenumerycznych, strumen danych. Istotny jest w tym rzyadku odowedn dobór funkcj jądra oraz konstrukcja odnalezene herłaszczyzny searującej unkty należące do dwóch lub welu klas. Margnes omędzy dwoma zboram danych ownen być wyznaczany jako maksymalny (najwększy) [18,19]. Os sosobu tworzena herłaszczyzn można omówć najroścej dla modelu lnowego. Model nelnowy ne jest używany w badanach w zwązku z tym ne jest omawany w tym unkce artykułu. Model lnowy Nech x będze wektorem wejścowym zaś y etyketą klasy rzyjmującą wartośc {-1,1}. Rozatrywany jest zbór uczący jako ara d x, y ) dla =1,2,, x R. ( Załóżmy, że klasy y są lnowo searowane. Wówczas funkcja g(x) zdefnowana równanem (1) będze herłaszczyzną rozdzelającą obe klasy. gdze T w = [ w 1, w2, w3,..., w N ], g( ) = w T x + b = 0 x (1) T x = [ x 1, x2, x3,..., x N ]. Jeżel sełnone są założena (2) otymalną herłaszczyznę, która maksymalzuje margnes searacj możemy zasać równanem (3) zaś odległość odl wybranego obektu x od otymalnej herłaszczyzny równanem (4). w w T T x + b > 0 x + b < 0 dla dla y = 1 y = 1 (2) 57

( 0 0 = Wykrywane wyjątków rzy użycu... g x ) = w T x + b 0 (3) g( x) odl ( x) = (4) w Interretację grafczną tworzonych herłaszczyzn metodą wektorów nośnych okazano na Rys. 1. 0 Rys. 1. Wzualzacja maszyny wektorów nośnych Źródło: [16] Punkt leżący najblżej otymalnej herłaszczyzny tworzy ara x, y ) dla której w T x + b = 1dla y = 1 oraz y = 1. Margnes searacj ( wyznaczamy zgodne z równanem (5) 0 2 ρ = (5) w Rozwązane zagadnena maksymalzacj ρ jest równoznaczne z mnmalzacją normy eukldesowej wektora wag w rzy warunku mn{w T w/2} oraz ogranczenach y (w T x+b) 1. W celu rozwązana roblemu otymalzacj stosuje sę mnożnk Lagrange a. Nastęuje wówczas mnmalzacja rymarnej funkcj Lagrangea L lub maksymalzacja dualnej funkcj Lagrange a Ld, osanym odowedno rzez równana (6) oraz (7). 1 T L( w, b, α ) = w w α y( xw + b) + α (7) 2 = 1 = 1 L D = 1 = 1 2 = 1 j = 1 α α y y x x α (8) j j j α 1 α α T gdze α = [, 2,..., ] jest wektorem mnożnków Lagrange a. 58

A. Duraj Równane (7) dla danych nesearowalnych lnowo można zasać w ostac równana (9) gdze ξ oznacza neujemną zmenną doełnającą, zaś ϕ oznacza wagę wybraną rzez użytkownka określającą traktowane błędów testowana w stosunku do wyznaczonego margnesu. 1 T mn( w w + ϕ ξ ) (9) 2 = 1 Dla ξ 0 otrzymujemy ogranczene (10) y T ( x w + b) 1 ξ (10) Maksymalne górne oszacowane określone jest jako ξ jest = 1 grancą, maksymalnym górnym ch oszacowanem. Dla funkcj L D ogranczene (10) zamena sę w (11). 0 α ϕ (11) Nezerowe wartośc mnożnków Lagrange a α z funkcjam ogranczeń równym zeru, oznaczone jako M v tworzą dla L D zadana dualnego otymalne wag herłaszczyzny w ostac (12) qaw M = v 0 α yx (12) = 1 Poddając dane odowednm transformacjom stneje możlwość zastosowana metody wektorów nośnych dla wzorców nesearowalnych lnowo, ten rzyadek w nnejszej racy ne jest omawany. 3 Wyjątk w zborach danych W analze danych wyjątk to obekty, które w znaczący sosób różną sę od ozostałych obektów w zborze danych. Mogą wynkać z błędów użytkownka, błędów aaratury omarowej. Wówczas już na etae wstęnego rzetwarzana mogą być odnalezone usunęte aby ne wływać nekorzystne na dalszy roces analzy. Mogą równeż osywać obekt, dla którego cechy tego obektu znaczne różną sę od ozostałych obektów. Wówczas analza danych ownna być wykonana na zborze zawerającym take wyjątkowe obekty bowem w takm rzyadku obekt jego cechy rerezentuje necodzenne zachowane systemu. W badanach naukowych wystęuje wele metod wykrywających wyjątk. Są one różnorodne ze względu na sosób dzałana samego 59

Wykrywane wyjątków rzy użycu... algorytmu, jak stosowanego tyu danych. Rozróżna sę metody oarte na odejścu statystycznym, rawdoodobeństwe, odległośc, odobeństwe. Wykrywane wyjątków w oarcu o marę odległośc (ang. dstancebasedoutlers) wrowadza ojęce obektu lokalnego oraz obektu globalnego. Obekt w zborze danych jest wyjątkem odległoścowym (globalnym) wtedy tylko wtedy, gdy odległość co najwyżej k obektów tego zboru od analzowanego obektu jest mnejsza od zadanej odleglośc dst, wrowadzonej rzez użytkownka. Wartość dst ownna być dobrana bardzo staranne. Sełnone mus być równane (13), gdze O, O oznacza obekty, zas d(o,o') jest marą odległośc mędzy tym obektam, zaś rogem ustalanym rzez użytkownka. { O' d( O, O' ) dst} D Problem z wykrycem unktów osoblwych może ojawć sę w rzyadku rzestrzen o dużej lczbe wymarów, gdyż wszystke znajdujące sę w nej obekty są w odobnej odległośc od sebe. W celu wykryca rzeczywstych unktów osoblwych koneczne jest bardzo staranne dobrane wartośc arametru dst. W badanach często używany jest algorytm wykrywający lokalne wyjątk w oarcu o tzw. lokalny wsółczynnk wyjątkowośc (ang. Local outler factor - LOF). Wsółczynnk ten określa jak wysok jest stoeń wyjątkowośc danego obektu. Zobacz szerzej w [1,3,10,11,]. 4 Badana ekserymentalne W badanach użyto język R aket kernlab bezośredno zwązany z klasyfkacją danych metodą wektorów nośnych. Wykrywane wyjątków testowano na zborach danych ochodzących z reozytorum Machne Learnng [17]. Zbory zostały rzeanalzowane równeż nnym klasyfkatoram. Użyto modelu regresj, klasyfkatora Bayesa. Wykonano także wykres dagnostyczny Rys. 2. Na Rys. 3 rzedstawono zaś zależność mędzy modelem regresj a wartoścam reszt. Łatwo zauważyć obekty będące wyjątkam. Dodatkowo oznaczono je etyketam 5,6,7. (13) 60

A. Duraj Rys. 2. Ilustracja grafczna rzedstawająca rozrzut danych wykres dagnostyczny Rys. 3. Grafczne rzedstawene zależnośc mędzy rzewdywanym wartoścam a resztą w modelu regresj z zaznaczonym wyjątkam W rocese uczena klasyfkatora metodą wektorów nośnych użyto jako funkcję jądra funkcję Gaussowską. Dokładność doasowana ustalono na ozome 0.05. Ustalono równeż ekserymentalne, że arametr dotyczący komromsu mędzy błędem doasowana a margnesem mędzy klasam będze mał wartość 5. Dodatkowo zauważono, że m mnejszy arametr regulujący komroms omędzy akcetowanym rzez nas błędem doasowana modelu, a welkoścą margnesu omędzy klasam, tym wększy będze margnes omędzy klasam nawet kosztem dużych błędów dla wykrywana wyjątków. W 61

Wykrywane wyjątków rzy użycu... wyznaczonym klasyfkatorze oartym na modelu wektorów nośnych dla wykrywanych wyjątków bardzo szybko nastęuje wzrost zarówno błędu klasyfkatora oraz błąd waldacj krzyżowej. Zwększa sę w dużym stonu lczba wektorów wserających. Maleje czułość, dokładność secyfczność algorytmu rzy stnejących wyjątkach w analzowanym zborze danych. Wynk dotyczące wyznaczonej dokładnośc, czułośc oraz secyfcznośc omawanego algorytmu dla zboru w którym znajdują sę wyjątk oraz dla zboru bez wyjątków okazano w Tabel nr 1. Dokładność, czułość oraz secyfczność wyznaczono na odstawe wzorów (14), (15), (16). FP + FN TN + FP + FN + TP TP FN + TP TN TN + FP Tabela. 1. Wyznaczona dokładność, czułość secyfczność algorytmu SVM dla zboru A zawerającego wyjątk oraz zboru B nezawerającego wyjątków. SVM Zbór A Zbór B Dokładność 0.25 0.29 Czułość 0.86 0.71 secyfczność 0.68 0.61 Ilustracje grafczną wyznaczana wyjątków metodą SVM z zaznaczonym obszaram decyzyjnym okazano na Rys. 5. Na odstawe analzy rys. 5 można stwerdzć, które z obektów to wyjątk. Łatwo zauważyć, że obekty odzelono na kółka trójkąty oraz że mamy dwe klasy decyzyjne zaznaczone koloram. (odcene szarośc). Kółka, które znajdują sę na mocno szarym tle onżej -1 oraz trójkąty, znajdujące sę na mocno szarym tle mędzy 1 a 2 stanową odchylena. W baze stneją węc oszukwane wyjątk. (14) (15) (16) 62

A. Duraj Rys. 4. Ilustracja grafczna obszarów decyzyjnych algorytmu SVM z wyjątkam Analogczne wynk uzyskano dla kolejnego zboru z reozytorum [17]. Rys. 5. Ilustracja grafczna obszarów decyzyjnych algorytmu SVM z wyraźnym obszarem obektów będących wyjątkam 63

64 Wykrywane wyjątków rzy użycu... Wyznaczone obekty rzy użycu metody wektorów nośnych jako wyjątk na Rys. 5 Rys. 6 okrywają sę z wyjątkam wyznaczonym orzez nne stosowane klasyfkatory. Należy jednak odkreślć, że grafczna nterretacja odana owyżej z herłaszczyznam jest dokładnejsza. 5 Podsumowane Reasumując wynk badań należy stwerdzć, ż metoda wektorów nośnych może być używana do wykrywana wyjątków w dużych zborach danych. SVM leej radz sobe z wykrywanem w orównanu do klasyfkatora bayesowskego czy też k najblższych sąsadów. Istnejące w analzowanym zborze danych wyjątk w bardzo dużym stonu wływają na błędy klasyfkacj co wykazano w racy. Dla metody wektorów nośnych uzyskano odczas wykrywana wyjątków najlesza czułość dokładność klasyfkatora. W dalsze badana będą skuały sę na stworzenu funkcj dedykowanych dla klasyfkatora wykrywających wyjątk. Dodatkowo metoda wektorów wserających będze użyta w celu wykryca wyjątków w strumenach danych. Bblografa [1] Aggarwal, Charu C., Outler Analyss, Srnger, 2013. [2] Barnett, V., Lews, T., Outlers n statstcal data, Wley, 1994. [3] Breunng, M.M., Kregel, H-P., Ng, R.T., Sander, J., LOF: dentfyngdensty-basedlocaloutlers, Proc. ACM SIGMOD Conference on Management of Data, 2000, 93-104. [4] Chomatek, L. and Duraj, A., Multobjectve genetc algorthm for outlers detecton, In: INnovatons n Intellgent SysTems and Alcatons (INISTA), 2017 IEEE Internatonal Conference on, IEEE, 2017,. 379 384. [5] Duraj, A. and Chomatek, L., Suortng Breast Cancer Dagnoss wth Mult-objectve Genetc Algorthm for Outler Detecton, In: Internatonal Conference on Dagnostcs of Processes and Systems, Srnger, 2017,. 304 315. [6] Duraj, A. and Krawczyk, A., Fndng outlers for large medcal datasets, Przeglad Elektrotechnczny, Vol. 86, 2010,. 188 191. [7] Duraj, A. and Szczeanak, P. S., Informaton Outlers and Ther Detecton, In: Informaton Studes and the Quest for Transdsclnarty, World Scentfc Publshng Comany, 2017,. 413 437. [8] Duraj, A., Szczeanak, P. S., and Ochelska-Merzejewska, J., Detecton of Outler Informaton Usng Lngustc Summarzaton, 2016,. 101 113.

A. Duraj [9] Duraj, A., Outler detecton n medcal data usng lngustc summares, In: INnovatons n Intellgent SysTems and Alcatons (INISTA), 2017 IEEE Internatonal Conference on, IEEE, 2017,. 385 390. [10] Ester, M., Kregel, H.-P., Sander, J., Xu, X., et al., A densty-based algorthm for dscoverng clusters n large satal databases wth nose. In: Kdd, Vol. 96, 1996,. 226 231. [11] Knorr, E.M., Ng, R.T.,Tucakov, V., Dstance-basedoutlers: algorthms and alcatons, VLDB Journal 8, 3-4, 2000, 237-253. [12] Emets, V. and Rogowsk, J., Scatterng of acoustcal waves by a hard str and outler henomenon, In: INnovatons n Intellgent SysTems and Alcatons (INISTA), 2017 IEEE Internatonal Conference on, IEEE, 2017,. 376 378. [13] Smolnsk, M., Resolvng classcal concurrency roblems usng adatve conflctless schedulng, In: INnovatons n Intellgent SysTems and Alcatons (INISTA), 2017 IEEE Internatonal Conference on, IEEE, 2017,. 397 402. [14] Smolńsk M., Effcent multdsk database storage confguraton. In: Internatonal Conference: Beyond Databases, Archtectures and Structures. Srnger, Cham, 2015.. 180-189. [15] Smolńsk M., Elmnaton of task starvaton n conflctless schedulng concet. Informaton Systems n Management, 2016, 5.2,. 237-247. [16] Osowsk S, Sec neuronowe do rzetwarzana nformacj. Ofcyna Wydawncza Poltechnk Warszawskej, Warszawa 2006 [17] UC Irvne Machne Learnng Reostory. htt://archve.cs.uc.edu/ml/ndex.html. [18] Kumar M.Arun, A hybrd SVM based decson tree, Pattern Recognton, 2010 [19] Vank A., The Nature of Statstcal Learnng Theory (Statstcs for Engneerng and Informaton Scence), Srnger-Verlag, Nowy Jork, 1999 65

Wykrywane wyjątków rzy użycu... OUTLIERS DETECTION USING SUPPORT VECTOR MACHINE Summary Outler detecton n data covers a broad sectrum of scence research. In ths aer, the author rooses an aroach to outler detecton based on suort vector machne. In data, an outler may be consdered as a devaton whch ndcates the exstence of outlers. The aer resents the results of tests whch were conducted on the set of data from the reostory [19]. Keywords: outlers detecton, suort vector machne 66