SYSTEMY UCZĄCE SIĘ WYKŁAD 15. ANALIZA DANYCH WYKRYWANIE OBSERWACJI. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Podobne dokumenty
Badania sondażowe. Braki danych Konstrukcja wag. Agnieszka Zięba. Zakład Badań Marketingowych Instytut Statystyki i Demografii Szkoła Główna Handlowa

SYSTEMY UCZĄCE SIĘ WYKŁAD 7. KLASYFIKATORY BAYESA. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska.

Analiza danych OGÓLNY SCHEMAT. Dane treningowe (znana decyzja) Klasyfikator. Dane testowe (znana decyzja)

Sztuczne sieci neuronowe. Krzysztof A. Cyran POLITECHNIKA ŚLĄSKA Instytut Informatyki, p. 311

SZTUCZNA INTELIGENCJA

Natalia Nehrebecka. Wykład 2

KURS STATYSTYKA. Lekcja 1 Statystyka opisowa ZADANIE DOMOWE. Strona 1


Analiza rodzajów skutków i krytyczności uszkodzeń FMECA/FMEA według MIL STD A

Procedura normalizacji

KURS STATYSTYKA. Lekcja 6 Regresja i linie regresji ZADANIE DOMOWE. Strona 1

Systemy Ochrony Powietrza Ćwiczenia Laboratoryjne

SZACOWANIE NIEPEWNOŚCI POMIARU METODĄ PROPAGACJI ROZKŁADÓW

) będą niezależnymi zmiennymi losowymi o tym samym rozkładzie normalnym z następującymi parametrami: nieznaną wartością 1 4

Projekt 6 6. ROZWIĄZYWANIE RÓWNAŃ NIELINIOWYCH CAŁKOWANIE NUMERYCZNE

CAŁKOWANIE NUMERYCZNE całki pojedyncze

Portfele zawierające walor pozbawiony ryzyka. Elementy teorii rynku kapitałowego

Pattern Classification

Modelowanie i obliczenia techniczne. Metody numeryczne w modelowaniu: Optymalizacja

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

dev = y y Miary położenia rozkładu Wykład 9 Przykład: Przyrost wagi owiec Odchylenia Mediana próbkowa: Przykłady Statystyki opisowe Σ dev i =?

Statystyka Inżynierska

Diagnostyka układów kombinacyjnych

WikiWS For Business Sharks

Weryfikacja hipotez dla wielu populacji

STATYSTYKA MATEMATYCZNA WYKŁAD 5 WERYFIKACJA HIPOTEZ NIEPARAMETRYCZNYCH

( ) ( ) 2. Zadanie 1. są niezależnymi zmiennymi losowymi o. oraz. rozkładach normalnych, przy czym EX. i σ są nieznane. 1 Niech X

Neural networks. Krótka historia rozpoznawanie znaków alfanumerycznych.

Zestaw zadań 4: Przestrzenie wektorowe i podprzestrzenie. Liniowa niezależność. Sumy i sumy proste podprzestrzeni.

I. Elementy analizy matematycznej

SYSTEM ZALICZEŃ ĆWICZEŃ

Statystyka Opisowa 2014 część 1. Katarzyna Lubnauer

APROKSYMACJA QUASIJEDNOSTAJNA

METODA UNITARYZACJI ZEROWANEJ Porównanie obiektów przy ocenie wielokryterialnej. Ranking obiektów.

Planowanie eksperymentu pomiarowego I

Funkcje i charakterystyki zmiennych losowych

Analiza danych. Analiza danych wielowymiarowych. Regresja liniowa. Dyskryminacja liniowa. PARA ZMIENNYCH LOSOWYCH

System Przeciwdziałania Powstawaniu Bezrobocia na Terenach Słabo Zurbanizowanych SPRAWOZDANIE Z BADAŃ Autor: Joanna Wójcik

Metody predykcji analiza regresji

Neuron liniowy. Najprostsza sieć warstwa elementów liniowych

Zjawiska masowe takie, które mogą wystąpid nieograniczoną ilośd razy. Wyrazów Obcych)

WPŁYW PARAMETRÓW DYSKRETYZACJI NA NIEPEWNOŚĆ WYNIKÓW POMIARU OBIEKTÓW OBRAZU CYFROWEGO

Prawdopodobieństwo i statystyka r.

Badanie współzależności dwóch cech ilościowych X i Y. Analiza korelacji prostej

Laboratorium ochrony danych

Ćwiczenie 10. Metody eksploracji danych

Zaawansowane metody numeryczne Komputerowa analiza zagadnień różniczkowych 1. Układy równań liniowych

Rachunek prawdopodobieństwa i statystyka W 11: Analizy zależnościpomiędzy zmiennymi losowymi Model regresji wielokrotnej

Statystyka. Zmienne losowe

ZAJĘCIA X. Zasada największej wiarygodności

Diagonalizacja macierzy kwadratowej

WSPOMAGANE KOMPUTEROWO POMIARY CZĘSTOTLIWOŚCI CHWILOWEJ SYGNAŁÓW IMPULSOWYCH

5. OPTYMALIZACJA GRAFOWO-SIECIOWA

65120/ / / /200

Metody gradientowe poszukiwania ekstremum. , U Ŝądana wartość napięcia,

Zapis informacji, systemy pozycyjne 1. Literatura Jerzy Grębosz, Symfonia C++ standard. Harvey M. Deitl, Paul J. Deitl, Arkana C++. Programowanie.

SIGMA KWADRAT CZWARTY LUBELSKI KONKURS STATYSTYCZNO-DEMOGRAFICZNY

-Macierz gęstości: stany czyste i mieszane (przykłady) -równanie ruchu dla macierzy gęstości -granica klasyczna rozkładów kwantowych

Nowoczesne technk nformatyczne - Ćwczene 2: PERCEPTRON str. 2 Potencjał membranowy u wyznaczany jest klasyczne: gdze: w waga -tego wejśca neuronu b ba

Problemy jednoczesnego testowania wielu hipotez statystycznych i ich zastosowania w analizie mikromacierzy DNA

BADANIA OPERACYJNE. Podejmowanie decyzji w warunkach niepewności. dr Adam Sojda

TRANZYSTOR BIPOLARNY CHARAKTERYSTYKI STATYCZNE

Analiza regresji modele ekonometryczne

KRZYWA BÉZIERA TWORZENIE I WIZUALIZACJA KRZYWYCH PARAMETRYCZNYCH NA PRZYKŁADZIE KRZYWEJ BÉZIERA

Definicje ogólne

Wykład 2: Uczenie nadzorowane sieci neuronowych - I

Rozwiązywanie zadań optymalizacji w środowisku programu MATLAB

EKONOMETRIA I Spotkanie 1, dn

Zaawansowane metody numeryczne

Urządzenia wejścia-wyjścia

Twierdzenie Bezouta i liczby zespolone Javier de Lucas. Rozwi azanie 2. Z twierdzenia dzielenia wielomianów, mamy, że

1.1. Uprość opis zdarzeń: 1.2. Uprościć opis zdarzeń: a) A B A Uprościć opis zdarzeń: 1.4. Uprościć opis zdarzeń:

Podstawy teorii falek (Wavelets)

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

STATYSTYCZNA ANALIZA WYNIKÓW POMIARÓW

Wprowadzenie. Support vector machines (maszyny wektorów wspierających, maszyny wektorów nośnych) SVM służy do: Zalety metody SVM

± Δ. Podstawowe pojęcia procesu pomiarowego. x rzeczywiste. Określenie jakości poznania rzeczywistości

Regresja liniowa i nieliniowa

DIAGNOSTYKA WYMIENNIKÓW CIEPŁA Z UWIARYGODNIENIEM WYNIKÓW POMIARÓW EKPLOATACYJNYCH

STATECZNOŚĆ SKARP. α - kąt nachylenia skarpy [ o ], φ - kąt tarcia wewnętrznego gruntu [ o ],

Zestaw przezbrojeniowy na inne rodzaje gazu. 1 Dysza 2 Podkładka 3 Uszczelka

METODY PLANOWANIA EKSPERYMENTÓW. dr hab. inż. Mariusz B. Bogacki

Stanisław Cichocki. Natalia Nehrebecka. Wykład 6

Metody numeryczne. Sformułowanie zagadnienia interpolacji

Rozkład dwupunktowy. Rozkład dwupunktowy. Rozkład dwupunktowy x i p i 0 1-p 1 p suma 1

MATEMATYKA POZIOM ROZSZERZONY Kryteria oceniania odpowiedzi. Arkusz A II. Strona 1 z 5

Przykład 5.1. Kratownica dwukrotnie statycznie niewyznaczalna

Modele wieloczynnikowe. Modele wieloczynnikowe. Modele wieloczynnikowe ogólne. α β β β ε. Analiza i Zarządzanie Portfelem cz. 4.

Hipotezy o istotności oszacowao parametrów zmiennych objaśniających ˆ ) ˆ


Wykład 2: Uczenie nadzorowane sieci neuronowych - I

6. ROŻNICE MIĘDZY OBSERWACJAMI STATYSTYCZNYMI RUCHU KOLEJOWEGO A SAMOCHODOWEGO

Stanisław Cichocki. Natalia Nehrebecka. Wykład 11

Kier. MTR Programowanie w MATLABie Laboratorium Ćw. 12

Problem plecakowy (KNAPSACK PROBLEM).

Prawdziwa ortofotomapa

Sortowanie szybkie Quick Sort

Mikroekonometria 13. Mikołaj Czajkowski Wiktor Budziński

Natalia Nehrebecka. Dariusz Szymański

Pokazać, że wyżej zdefiniowana struktura algebraiczna jest przestrzenią wektorową nad ciałem

Transkrypt:

SYSTEMY UCZĄCE SIĘ WYKŁAD 15. ANALIZA DANYCH WYKRYWANIE OBSERWACJI ODSTAJĄCYCH, UZUPEŁNIANIE BRAKUJĄCYCH DANYCH Częstochowa 2014 Dr hab. nż. Grzegorz Dudek Wydzał Elektryczny Poltechnka Częstochowska

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH Obserwacja odstająca (outler) jest to obserwacja znacząco różnąca sę od pozostałych obserwacj. Obserwacje odstające zwykle zakłócają obraz procesu wpływają na jakość modelu (klasyfkatora, aproksymatora, ). Zakłócene aproksymacj: Zakłócene klasyfkatora: 2

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH Obserwacje odstające mogą meć różne źródła, np. błędy w układze pomarowym lub zmany w merzonym procese wywołane dzałanem zakłóceń, netypowych zdarzeń tp. Te netypowe zdarzena mogą być przedmotem zanteresowana, np.: Detekcja ntruzów netypowe zachowane Oszustwa przy użycu karty kredytowej netypowe wzorce użyca karty Uszkodzena czujnków netypowe wzorce odczytów Dagnozy medyczne odstające od typowych wynk badań Wykrywane uszkodzeń awar systemów techncznych parametry przekraczają wartośc granczne Wykrywane anomal pogodowych, trzęseń zem, zman klmatycznych na podstawe obrazów sateltarnych, netypowych wartośc merzonych parametrów W powyższych sytuacjach dane opsujące obekty, procesy mają nenormalne, odstające od typowych wartośc (obrazy). 3

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH Sposób postępowana z obserwacjam odstającym: elmnacja obserwacj ze zboru danych zastępowane średną arytmetyczną (lub nną) obserwacj sąsednch lub reprezentujących podobne cechy potraktowane obserwacj odstających jako brakujących danych uzupełnene tych danych odpowednm metodam 4

Metody dentyfkacj obserwacj odstających: 1. Analza wartośc poszczególnych atrybutów WYKRYWANIE OBSERWACJI ODSTAJĄCYCH - METODY Dla każdego atrybutu oblcza sę perwszy (Q1) trzec kwartyl (Q3) oraz rozstęp mędzykwartylowy RQ = Q3 Q1 (nterquartle range IQR). Kwartyle dzelą wszystke nasze obserwacje na cztery równe co do lośc obserwacj grupy (w teor). Kwartyl perwszy (Q1) dzel obserwacje w stosunku 25% - 75%, co oznacza, że 25% obserwacj jest nższa bądź równa wartośc Q1, a 75% obserwacj jest równa bądź wększa nż wartość Q1 Kwartyl drug (Q2), naczej zwany medaną dzel obserwacje na dwe częśc w stosunku 50%-50% Kwartyl trzec (Q3) dzel obserwacje w stosunku 75% - 25%, co oznacza, że 75% obserwacj jest nższa bądź równa wartośc Q3, a 25% obserwacj jest równa bądź wększa nż wartość Q1 Za obserwacje, które można podejrzewać, że są odstające, uważa sę te, których atrybuty wykraczają poza przedzał (Q1 1,5RQ, Q3+1,5RQ) Za obserwacje ekstremalne odstające uznaje sę te których atrybuty wykraczają poza przedzał (Q1 3RQ, Q3+3RQ) 5

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH - METODY Ten sposób dentyfkacj obserwacj odstających można zobrazować wykresem pudełkowym (boplot): 6

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH - METODY Wykres pudełkowy dla zboru Irs (4 atrybuty): 80 Wartość atrybutu 60 40 20 0 1 2 3 4 Atrybut Czerwone krzyżyk oznaczają wartośc atrybutów wykraczające poza zakres ±1,5RQ Lczba atrybutów przykładu, których wartośc znajdują sę poza ww. przedzałam, może być mernkem netypowośc przykładu. 7

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH - METODY Ten sposób detekcj obserwacj netypowych, polegający na nezależnej analze poszczególnych atrybutów, ne zawsze prowadz do dobrych rezultatów (obserwacje odstające ne zawsze wdzane są jako take w analze jednowymarowej patrz rys.). 3 0.8 2 0.6 1 0.4 y 0 y 0.2-1 0-2 -0.2-3 -3-2 -1 0 1 2 3-0.4-0.5 0 0.5 1 1.5 Grance przedzałów kwartylowych (Q 1 1,5R Q, Q 3 +1,5R Q ) oraz grance detektora z metryką eukldesową oznaczono lnam przerywanym 8

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH - METODY 2. Najprostszym sposobem detekcj obserwacj odstających, opartym na analze welowymarowej, jest analza odległośc eukldesowych pomędzy obserwacjam a ch środkem (wektorem średnch m): d E = T ( m) ( m) W metryce d E atrybuty są skumulowane nawet jeśl ne wykraczają one ndywdualne poza przedzały kwartylowe j.w., obserwacja może być zdentyfkowana jako odstająca, jeśl tylko jej odległość jest dostateczne duża od środka skupska m. Metoda jest uprawnona, gdy dane charakteryzują sę rozkładem o symetr radalnej. 3. W przypadku rozkładu elptycznego należy skorzystać z metryk Mahalanobsa, która uwzględna nformacje o warancjach poszczególnych składowych korelacjach pomędzy nm: d M = ( m) T S 1 ( m) gdze S jest macerzą kowarancj 9

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH - METODY Obserwacje odstające cechuje duża odległość Mahalanobsa od środka m. Identyfkacja obserwacj odstających jest zakłócona w przypadku, gdy ch udzał w zborze danych jest znaczący. Skupsko obserwacj odstających przycąga estymowany centrod fałszuje macerz kowarancj. Powoduje to dwa nekorzystne efekty: zmnejszene odległośc dla obserwacj ostających (maskng effect) zwększene odległośc dla obserwacj typowych, ulokowanych po przecwnej strone środka m w stosunku do skupska danych odstających (swampng effect), co sprawa, że obserwacje te mogą zostać rozpoznane jako netypowe. Efekty te redukuje algorytm Gnanadeskana--Ketternga, w którym środek m macerz kowarancj estymuje sę po wykluczenu obserwacj najbardzej odległych. 4. Kolejny sposób dentyfkacj obserwacj odstających opera sę na statystyce h nazywanej dźwgną (leverage) lub wpływem -tej obserwacj. Metoda ta pozwala zdentyfkować tzw. obserwacje wpływowe. Obserwację uznaje sę za wpływową, jeśl w wynku neznacznej zmany jej wartośc lub usunęca z danych znaczne zmenają sę oszacowane parametry modelu. 10

WYKRYWANIE OBSERWACJI ODSTAJĄCYCH - METODY 5. Źródłem nformacj o obserwacjach odstających jest też wykonana a posteror dagnostyka błędów (reszt) modelu. Błędy odzwercedlają nezgodność pomędzy wartoścam obserwowanym przewdywanym przez model. Dobrze dopasowany model charakteryzuje sę małym resztam dla obserwacj typowych dużym dla obserwacj odstających. Identyfkację obserwacj odstających na podstawe reszt modelu można wykonać, wykorzystując standaryzowane wartośc resztowe, analzę odpowedz modelu po usunęcu "podejrzanej" obserwacj (metoda DFFITS dfference of fts) oraz odległośc Cooka zależne od błędów modelu ch warancj oraz wpływów obserwacj. 6. Obserwacje odstające można też wykryć metodam grupowana opartym na gęstoścach (patrz wykład 9, str. 17). 11

BRAKUJĄCE DANE W przypadku brakujących danych mamy do wyboru trzy stratege: 1. Pomnęce obserwacj z brakującym wartoścam. 2. Zastosowane obserwacj nekompletnych w procese konstrukcj modelu /lub w trybe pracy odtworzenowej. 3. Uzupełnene (mputacja) brakujących danych. Perwszy sposób może być stosowany, gdy lczba nekompletnych obserwacj jest ogranczona, tzn. gdy pozostałe, kompletne, obserwacje przenoszą nezbędne nformacje potrzebne do konstrukcj modelu dobrej jakośc. Druge podejśce zależne jest od specyfk modelu, np. w modelach mnmalnoodległoścowych oblczene odległośc pomędzy obserwacjam może zachodzć z pomnęcem brakujących składowych wektora wejścowego, a oblczene odpowedz jest możlwe bez znajomośc wszystkch składowych wszystkch wektorów odpowedz w zborze uczącym. Także model wykorzystujący drzewo regresyjne dobrze radz sobe z brakującym danym. Inaczej jest np. w przypadku, gdy model opera sę na perceptronowej sec neuronowej, która wymaga 12

IMPUTACJA BRAKUJĄCYCH DANYCH kompletnej nformacj wejścowej wyjścowej w procese uczena pełnej nformacj wejścowej w trybe odtworzenowym. Brakujące wartośc atrybutów przykładu obcążeń można estymować z obserwacj najblższych w sense geometrycznym. Wartość brakującej j-tej składowej jest średną z wartośc tej składowej w k najblższych sąsadach wektora :, j 1 = k l, j l Θ ( ) k gdze Θ k ( ) zbór ndeksów k najblższych sąsadów wektora. Do zboru najblższych sąsadów zalcza sę wektory najblższe do w sense odległośc eukldesowej wyznaczanej z pomnęcem brakujących składowych. 13

IMPUTACJA BRAKUJĄCYCH DANYCH Inna grupa metod mputacj brakujących danych opera sę na nterpolacj. Zadanem nterpolacj jest utworzene funkcj, która przebega przez zadane punkty. Stosuje sę różne klasy funkcj do nterpolowana welomany algebraczne, funkcje sklejane, funkcje trygonometryczne. Zadane nterpolacj możemy sformułować następująco: W przedzale [a,b] mamy danych n+1 punktów 0,1,...,n (węzły nterpolacj) oraz wartośc funkcj f() w tych punktach f(0)=y0, f(1)=y1,..., f(n)=yn. Znaleźć funkcję g(), która w węzłach nterpolacj ma te same wartośc co f() przyblża tę funkcję poza węzłam. 14

15 Funkcja nterpolacyjna często przyjmuje postać welomanu m-tego stopna, rozpętego na m+1 węzłach. Często wystarczy aby był to weloman 3-stopna. Interpolacja welomanem pozwala uwzględnać lokalne nelnowośc. Welomanową funkcję nterpolacyjną m-tego stopna opartą na węzłach (, y ), = 1, 2,, m+1 wyraża wzór Lagrange a: + = + = + = = 1 1 1 1 1 1 ) ( ) ( ) ( ) ( m j m j j j j m k y g Lepsze właścwośc nterpolacyjne posadają funkcje sklejane (splajny). IMPUTACJA BRAKUJĄCYCH DANYCH

IMPUTACJA BRAKUJĄCYCH DANYCH 1 0.5 węzły nterpolacja lnowa nterpolacja welomanowa nterpolacja splajnem y 0-0.5-1 0 1 2 3 4 5 6 7 8 9 10 Do mputacj danych można użyć metod aproksymacyjnych. Zalety metod aproksymacyjnych ujawnają sę, gdy dane obarczone są szumem. 16