SYSTEMY UCZĄCE SIĘ WYKŁAD 15. ANALIZA DANYCH WYKRYWANIE OBSERWACJI. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

SYSTEMY UCZĄCE SIĘ WYKŁAD 15. ANALIZA DANYCH WYKRYWANIE OBSERWACJI ODSTAJĄCYCH, UZUPEŁNIANIE BRAKUJĄCYCH DANYCH Częstochowa 2014 Dr hab. nż. Grzegorz Dudek Wydzał Elektryczny Poltechnka Częstochowska

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH Obserwacja odstająca (outler) jest to obserwacja znacząco różnąca sę od pozostałych obserwacj. Obserwacje odstające zwykle zakłócają obraz procesu wpływają na jakość modelu (klasyfkatora, aproksymatora, ). Zakłócene aproksymacj: Zakłócene klasyfkatora: 2

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH Obserwacje odstające mogą meć różne źródła, np. błędy w układze pomarowym lub zmany w merzonym procese wywołane dzałanem zakłóceń, netypowych zdarzeń tp. Te netypowe zdarzena mogą być przedmotem zanteresowana, np.: Detekcja ntruzów netypowe zachowane Oszustwa przy użycu karty kredytowej netypowe wzorce użyca karty Uszkodzena czujnków netypowe wzorce odczytów Dagnozy medyczne odstające od typowych wynk badań Wykrywane uszkodzeń awar systemów techncznych parametry przekraczają wartośc granczne Wykrywane anomal pogodowych, trzęseń zem, zman klmatycznych na podstawe obrazów sateltarnych, netypowych wartośc merzonych parametrów W powyższych sytuacjach dane opsujące obekty, procesy mają nenormalne, odstające od typowych wartośc (obrazy). 3

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH Sposób postępowana z obserwacjam odstającym: elmnacja obserwacj ze zboru danych zastępowane średną arytmetyczną (lub nną) obserwacj sąsednch lub reprezentujących podobne cechy potraktowane obserwacj odstających jako brakujących danych uzupełnene tych danych odpowednm metodam 4

Metody dentyfkacj obserwacj odstających: 1. Analza wartośc poszczególnych atrybutów WYKRYWANIE OBSERWACJI ODSTAJĄCYCH - METODY Dla każdego atrybutu oblcza sę perwszy (Q1) trzec kwartyl (Q3) oraz rozstęp mędzykwartylowy RQ = Q3 Q1 (nterquartle range IQR). Kwartyle dzelą wszystke nasze obserwacje na cztery równe co do lośc obserwacj grupy (w teor). Kwartyl perwszy (Q1) dzel obserwacje w stosunku 25% - 75%, co oznacza, że 25% obserwacj jest nższa bądź równa wartośc Q1, a 75% obserwacj jest równa bądź wększa nż wartość Q1 Kwartyl drug (Q2), naczej zwany medaną dzel obserwacje na dwe częśc w stosunku 50%-50% Kwartyl trzec (Q3) dzel obserwacje w stosunku 75% - 25%, co oznacza, że 75% obserwacj jest nższa bądź równa wartośc Q3, a 25% obserwacj jest równa bądź wększa nż wartość Q1 Za obserwacje, które można podejrzewać, że są odstające, uważa sę te, których atrybuty wykraczają poza przedzał (Q1 1,5RQ, Q3+1,5RQ) Za obserwacje ekstremalne odstające uznaje sę te których atrybuty wykraczają poza przedzał (Q1 3RQ, Q3+3RQ) 5

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH - METODY Ten sposób dentyfkacj obserwacj odstających można zobrazować wykresem pudełkowym (boplot): 6

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH - METODY Wykres pudełkowy dla zboru Irs (4 atrybuty): 80 Wartość atrybutu 60 40 20 0 1 2 3 4 Atrybut Czerwone krzyżyk oznaczają wartośc atrybutów wykraczające poza zakres ±1,5RQ Lczba atrybutów przykładu, których wartośc znajdują sę poza ww. przedzałam, może być mernkem netypowośc przykładu. 7

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH - METODY Ten sposób detekcj obserwacj netypowych, polegający na nezależnej analze poszczególnych atrybutów, ne zawsze prowadz do dobrych rezultatów (obserwacje odstające ne zawsze wdzane są jako take w analze jednowymarowej patrz rys.). 3 0.8 2 0.6 1 0.4 y 0 y 0.2-1 0-2 -0.2-3 -3-2 -1 0 1 2 3-0.4-0.5 0 0.5 1 1.5 Grance przedzałów kwartylowych (Q 1 1,5R Q, Q 3 +1,5R Q ) oraz grance detektora z metryką eukldesową oznaczono lnam przerywanym 8

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH - METODY 2. Najprostszym sposobem detekcj obserwacj odstających, opartym na analze welowymarowej, jest analza odległośc eukldesowych pomędzy obserwacjam a ch środkem (wektorem średnch m): d E = T ( m) ( m) W metryce d E atrybuty są skumulowane nawet jeśl ne wykraczają one ndywdualne poza przedzały kwartylowe j.w., obserwacja może być zdentyfkowana jako odstająca, jeśl tylko jej odległość jest dostateczne duża od środka skupska m. Metoda jest uprawnona, gdy dane charakteryzują sę rozkładem o symetr radalnej. 3. W przypadku rozkładu elptycznego należy skorzystać z metryk Mahalanobsa, która uwzględna nformacje o warancjach poszczególnych składowych korelacjach pomędzy nm: d M = ( m) T S 1 ( m) gdze S jest macerzą kowarancj 9

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH - METODY Obserwacje odstające cechuje duża odległość Mahalanobsa od środka m. Identyfkacja obserwacj odstających jest zakłócona w przypadku, gdy ch udzał w zborze danych jest znaczący. Skupsko obserwacj odstających przycąga estymowany centrod fałszuje macerz kowarancj. Powoduje to dwa nekorzystne efekty: zmnejszene odległośc dla obserwacj ostających (maskng effect) zwększene odległośc dla obserwacj typowych, ulokowanych po przecwnej strone środka m w stosunku do skupska danych odstających (swampng effect), co sprawa, że obserwacje te mogą zostać rozpoznane jako netypowe. Efekty te redukuje algorytm Gnanadeskana--Ketternga, w którym środek m macerz kowarancj estymuje sę po wykluczenu obserwacj najbardzej odległych. 4. Kolejny sposób dentyfkacj obserwacj odstających opera sę na statystyce h nazywanej dźwgną (leverage) lub wpływem -tej obserwacj. Metoda ta pozwala zdentyfkować tzw. obserwacje wpływowe. Obserwację uznaje sę za wpływową, jeśl w wynku neznacznej zmany jej wartośc lub usunęca z danych znaczne zmenają sę oszacowane parametry modelu. 10

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH - METODY 5. Źródłem nformacj o obserwacjach odstających jest też wykonana a posteror dagnostyka błędów (reszt) modelu. Błędy odzwercedlają nezgodność pomędzy wartoścam obserwowanym przewdywanym przez model. Dobrze dopasowany model charakteryzuje sę małym resztam dla obserwacj typowych dużym dla obserwacj odstających. Identyfkację obserwacj odstających na podstawe reszt modelu można wykonać, wykorzystując standaryzowane wartośc resztowe, analzę odpowedz modelu po usunęcu "podejrzanej" obserwacj (metoda DFFITS dfference of fts) oraz odległośc Cooka zależne od błędów modelu ch warancj oraz wpływów obserwacj. 6. Obserwacje odstające można też wykryć metodam grupowana opartym na gęstoścach (patrz wykład 9, str. 17). 11

BRAKUJĄCE DANE W przypadku brakujących danych mamy do wyboru trzy stratege: 1. Pomnęce obserwacj z brakującym wartoścam. 2. Zastosowane obserwacj nekompletnych w procese konstrukcj modelu /lub w trybe pracy odtworzenowej. 3. Uzupełnene (mputacja) brakujących danych. Perwszy sposób może być stosowany, gdy lczba nekompletnych obserwacj jest ogranczona, tzn. gdy pozostałe, kompletne, obserwacje przenoszą nezbędne nformacje potrzebne do konstrukcj modelu dobrej jakośc. Druge podejśce zależne jest od specyfk modelu, np. w modelach mnmalnoodległoścowych oblczene odległośc pomędzy obserwacjam może zachodzć z pomnęcem brakujących składowych wektora wejścowego, a oblczene odpowedz jest możlwe bez znajomośc wszystkch składowych wszystkch wektorów odpowedz w zborze uczącym. Także model wykorzystujący drzewo regresyjne dobrze radz sobe z brakującym danym. Inaczej jest np. w przypadku, gdy model opera sę na perceptronowej sec neuronowej, która wymaga 12

IMPUTACJA BRAKUJĄCYCH DANYCH kompletnej nformacj wejścowej wyjścowej w procese uczena pełnej nformacj wejścowej w trybe odtworzenowym. Brakujące wartośc atrybutów przykładu obcążeń można estymować z obserwacj najblższych w sense geometrycznym. Wartość brakującej j-tej składowej jest średną z wartośc tej składowej w k najblższych sąsadach wektora :, j 1 = k l, j l Θ ( ) k gdze Θ k ( ) zbór ndeksów k najblższych sąsadów wektora. Do zboru najblższych sąsadów zalcza sę wektory najblższe do w sense odległośc eukldesowej wyznaczanej z pomnęcem brakujących składowych. 13

IMPUTACJA BRAKUJĄCYCH DANYCH Inna grupa metod mputacj brakujących danych opera sę na nterpolacj. Zadanem nterpolacj jest utworzene funkcj, która przebega przez zadane punkty. Stosuje sę różne klasy funkcj do nterpolowana welomany algebraczne, funkcje sklejane, funkcje trygonometryczne. Zadane nterpolacj możemy sformułować następująco: W przedzale [a,b] mamy danych n+1 punktów 0,1,...,n (węzły nterpolacj) oraz wartośc funkcj f() w tych punktach f(0)=y0, f(1)=y1,..., f(n)=yn. Znaleźć funkcję g(), która w węzłach nterpolacj ma te same wartośc co f() przyblża tę funkcję poza węzłam. 14

15 Funkcja nterpolacyjna często przyjmuje postać welomanu m-tego stopna, rozpętego na m+1 węzłach. Często wystarczy aby był to weloman 3-stopna. Interpolacja welomanem pozwala uwzględnać lokalne nelnowośc. Welomanową funkcję nterpolacyjną m-tego stopna opartą na węzłach (, y ), = 1, 2,, m+1 wyraża wzór Lagrange a: + = + = + = = 1 1 1 1 1 1 ) ( ) ( ) ( ) ( m j m j j j j m k y g Lepsze właścwośc nterpolacyjne posadają funkcje sklejane (splajny). IMPUTACJA BRAKUJĄCYCH DANYCH

IMPUTACJA BRAKUJĄCYCH DANYCH 1 0.5 węzły nterpolacja lnowa nterpolacja welomanowa nterpolacja splajnem y 0-0.5-1 0 1 2 3 4 5 6 7 8 9 10 Do mputacj danych można użyć metod aproksymacyjnych. Zalety metod aproksymacyjnych ujawnają sę, gdy dane obarczone są szumem. 16