Wykrywanie anomalii w zbiorze danych o dużym wymiarze



Podobne dokumenty
Data Mining Wykład 5. Indukcja drzew decyzyjnych - Indeks Gini & Zysk informacyjny. Indeks Gini. Indeks Gini - Przykład

1. Liczby wymierne. x dla x 0 (wartością bezwzględną liczby nieujemnej jest ta sama liczba)

Matematyka II. Bezpieczeństwo jądrowe i ochrona radiologiczna Semestr letni 2018/2019 wykład 13 (27 maja)

Egzamin ustny z matematyki semestr II Zakres wymaganych wiadomości i umiejętności

Dr inż. Robert Wójcik, p. 313, C-3, tel Katedra Informatyki Technicznej (K-9) Wydział Elektroniki (W-4) Politechnika Wrocławska

IX. Rachunek różniczkowy funkcji wielu zmiennych. 1. Funkcja dwóch i trzech zmiennych - pojęcia podstawowe. - funkcja dwóch zmiennych,

PDF created with FinePrint pdffactory Pro trial version

PRÓBNY EGZAMIN MATURALNY

Spis treści. Definicje prawdopodobieństwa. Częstościowa definicja prawdopodobieństwa. Wnioskowanie_Statystyczne_-_wykład

PRÓBNY EGZAMIN MATURALNY Z MATEMATYKI

Kurs ZDAJ MATURĘ Z MATEMATYKI MODUŁ 5 Zadania funkcje cz.1

FUNKCJA LINIOWA - WYKRES. y = ax + b. a i b to współczynniki funkcji, które mają wartości liczbowe

FUNKCJA LINIOWA - WYKRES

Pochodna funkcji a styczna do wykresu funkcji. Autorzy: Tomasz Zabawa

SYSTEMY UCZĄCE SIĘ WYKŁAD 4. DRZEWA REGRESYJNE, INDUKCJA REGUŁ. Dr hab. inż. Grzegorz Dudek Wydział Elektryczny Politechnika Częstochowska

Geometria analityczna - przykłady

Przykładowe rozwiązania

Przedmiot statystyki. Graficzne przedstawienie danych.

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Wybrane rozkłady zmiennych losowych. Statystyka

Projekt Era inżyniera pewna lokata na przyszłość jest współfinansowany przez Unię Europejską w ramach Europejskiego Funduszu Społecznego

1. A 2. A 3. B 4. B 5. C 6. B 7. B 8. D 9. A 10. D 11. C 12. D 13. B 14. D 15. C 16. C 17. C 18. B 19. D 20. C 21. C 22. D 23. D 24. A 25.

PRZYKŁADOWY ARKUSZ EGZAMINACYJNY Z MATEMATYKI

Funkcje wymierne. Funkcja homograficzna. Równania i nierówności wymierne.

FUNKCJA LINIOWA, RÓWNANIA I UKŁADY RÓWNAŃ LINIOWYCH

Zestaw 2: Zmienne losowe. 0, x < 1, 2, 2 x, 1 1 x, 1 x, F 9 (x) =

Funkcja kwadratowa. f(x) = ax 2 + bx + c = a

PRÓBNY EGZAMIN MATURALNY

PRÓBNY EGZAMIN MATURALNY Z MATEMATYKI poziom rozszerzony

METODY BADAŃ NA ZWIERZĘTACH ze STATYSTYKĄ wykład 3-4. Parametry i wybrane rozkłady zmiennych losowych

Spacery losowe generowanie realizacji procesu losowego

Luty 2001 Algorytmy (4) 2000/2001

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

3. FUNKCJA LINIOWA. gdzie ; ół,.

7. Estymacja parametrów w modelu normalnym( ) Pojęcie losowej próby prostej

Estymacja parametrów w modelu normalnym

Elementy modelowania matematycznego

Uczeń otrzymuje ocenę dostateczną, jeśli opanował wiadomości i umiejętności konieczne na ocenę dopuszczającą oraz dodatkowo:

Rozwiązywanie równań nieliniowych

str 1 WYMAGANIA EDUKACYJNE ( ) - matematyka - poziom podstawowy Dariusz Drabczyk

Prawdopodobieństwo geometryczne

Podstawą w systemie dwójkowym jest liczba 2 a w systemie dziesiętnym liczba 10.

1) 2) 3) 5) 6) 7) 8) 9) 10) 11) 12) 13) 14) 15) 16) 17) 18) 19) 20) 21) 22) 23) 24) 25)

MATeMAtyka 3 Przedmiotowy system oceniania wraz z określeniem wymagań edukacyjnych

Hierarchiczna analiza skupień

FUNKCJA LINIOWA. A) B) C) D) Wskaż, dla którego funkcja liniowa określona wzorem jest stała. A) B) C) D)

Matura próbna 2014 z matematyki-poziom podstawowy

Zmienne losowe i ich rozkłady

PRÓBNY EGZAMIN MATURALNY

Rozdział 1. Wektory losowe. 1.1 Wektor losowy i jego rozkład

Funkcja kwadratowa. f(x) = ax 2 + bx + c,

Funkcja liniowa -zadania. Funkcja liniowa jest to funkcja postaci y = ax + b dla x R gdzie a, b R oraz

Rachunek całkowy - całka oznaczona

FUNKCJE I RÓWNANIA KWADRATOWE. Lekcja 78. Pojęcie i wykres funkcji kwadratowej str

WHILE (wyrażenie) instrukcja;

Wektory i wartości własne

Algorytmy i struktury danych. Wykład 4

Próbny egzamin maturalny z matematyki Poziom rozszerzony

Ważne rozkłady i twierdzenia

Tomasz Tobiasz PLAN WYNIKOWY (zakres podstawowy)

Generowanie ciągów pseudolosowych o zadanych rozkładach przykładowy raport

FUNKCJA KWADRATOWA. Zad 1 Przedstaw funkcję kwadratową w postaci ogólnej. Postać ogólna funkcji kwadratowej to: y = ax + bx + c;(

operacje porównania, a jeśli jest to konieczne ze względu na złe uporządkowanie porównywanych liczb zmieniamy ich kolejność, czyli przestawiamy je.

Algorytmy mrówkowe (optymalizacja kolonii mrówek, Ant Colony optimisation)

Wektory i wartości własne

Indukcja matematyczna

. Funkcja ta maleje dla ( ) Zadanie 1 str. 180 b) i c) Zadanie 2 str. 180 a) i b)

FUNKCJE. Kurs ZDAJ MATURĘ Z MATEMATYKI MODUŁ 5 Teoria funkcje cz.1. Definicja funkcji i wiadomości podstawowe

PRÓBNY EGZAMIN MATURALNY

Analiza składowych głównych. Wprowadzenie

P (A B) = P (A), P (B) = P (A), skąd P (A B) = P (A) P (B). P (A)

EGZAMIN MATURALNY Z MATEMATYKI

Funkcje IV. Wymagania egzaminacyjne:

Przedmiotowy system oceniania wraz z określeniem wymagań edukacyjnych (zakres rozszerzony)

5. Analiza dyskryminacyjna: FLD, LDA, QDA

2. Permutacje definicja permutacji definicja liczba permutacji zbioru n-elementowego

Wybrane rozkłady zmiennych losowych. Statystyka

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

PRÓBNY EGZAMIN MATURALNY

Funkcja liniowa - podsumowanie

Geometria analityczna

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Kompresja danych Streszczenie Studia Dzienne Wykład 10,

MATeMAtyka 4 Przedmiotowy system oceniania wraz z określeniem wymagań edukacyjnych

1. Potęgi. Logarytmy. Funkcja wykładnicza

RAPORT z diagnozy umiejętności matematycznych

Kryteria oceniania z matematyki Klasa III poziom podstawowy

I. Potęgi. Logarytmy. Funkcja wykładnicza.

WYMAGANIA EDUKACYJNE Z MATEMATYKI 2016/2017 (zakres podstawowy) klasa 3abc

Zadanie 3 Oblicz jeżeli wiadomo, że liczby 8 2,, 1, , tworzą ciąg arytmetyczny. Wyznacz różnicę ciągu. Rozwiązanie:

Wymagania na poszczególne oceny szkolne z. matematyki. dla uczniów klasy IIIa i IIIb. Gimnazjum im. Jana Pawła II w Mętowie. w roku szkolnym 2015/2016

Technikum Nr 2 im. gen. Mieczysława Smorawińskiego w Zespole Szkół Ekonomicznych w Kaliszu

Zad. 8(3pkt) Na podstawie definicji wykaż, że funkcja y=

MATeMAtyka 3. Propozycja przedmiotowego systemu oceniania wraz z określeniem wymagań edukacyjnych. Zakres podstawowy i rozszerzony

WHILE (wyrażenie) instrukcja;

ZADANIA ZAMKNIETE W zadaniach 1-25 wybierz i zaznacz na karcie odpowiedzi poprawna

Wykład 1. Na początku zajmować się będziemy zbiorem liczb całkowitych

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

ALGORYTMY MATEMATYCZNE Ćwiczenie 1 Na podstawie schematu blokowego pewnego algorytmu (rys 1), napisz listę kroków tego algorytmu:

Transkrypt:

Wykrywanie anomalii w zbiorze danych o dużym wymiarze Piotr Kroll Na podstawie pracy: Very Fast Outlier Detection In Large Multidimensional Data Set autorstwa: A. Chandhary, A. Shalay, A. Moore

Różne rozwiązania zagadnienia detekcji anomalii w zależności od rozmiaru danych Duża ilość danych o małym wymiarze (małej ilości cech) Przykładowe rozwiązanie: Dopasować model probabilistyczny do danych i wybrać te dane o małym prawdopodobieństwie wystąpienia Duża ilość danych o dużym wymiarze Rozwiązanie zaproponowane w pracy: Very Fast Outlier Detection In Large Multidimensional Data Set autorstwa: A. Chandhary, A. Shalay, A. Moore Mała ilość danych o dużym wymiarze Rozwiązanie zaproponowane w pracy: Outlier Detection for High Dimensional Data autorstwa: C. Aggarwal, P. Yu

Algorytm wykrywający anomalie w dużym zbiorze danych o dużym wymiarze Algorytm składa się z dwóch podstawowych etapów: Podział zbioru danych na podzbiory składające się z elementów, o których można powiedzieć, że są w tym samym stopniu anomalią. Wyliczenie, dla każdego z podzbioru współczynnika mierzącego w jakim stopniu dana grupa elementów jest anomalią w stosunku do całego zbioru danych (współczynnik anomalii). A nasępnie wybranie tych podzbiorów, które mają najwyższy współczynnik.

Miara anomalii Gęstość obszaru wokół danego elementu jako jego miara anomalii gęstość = (ilość elementów w obszarze V) / (objetość obszaru V) Mówimy, że dany zbiór zawiera elementy będące w równym stopniu anomaliami jeżeli dany zbiór jest jednostajnie gęsty.

Podział zbioru na obszary zawierające elementy będące w równym stopniu anomalią Wykorzystanie metody podziału zaczerpniętej z K-d drzew (k-dimensional trees) Algorytm: 1)Załóżmy, że rozpatrywany zbiór elementów S zawiera się w obszarze R będącym hiperkostką 2)Wybieramy i-ty wymiar (i-tą oś) przestrzeni danych i prostopadłą do niego hiperpłaszczyznę T przechodzącą przez R 3)Dzielimy przy pomocy hiperpłaszczyzny T obszar R na dwa obszary Rl i Rp (hiperkostki), a następnie kurczymy je tak, aby ściśle przylegały do danych 4)Wykonujemy algorytm dla obszarów Rl i Rp i odpowiadającym im podzbiorom Sl i Sp zbioru S. Algorytm powtarzamy o ile Sl >c i Sp >c dla utalonego c.

Przykład podziału

Sposoby wyboru osi Wybór cykliczny (np. na przemian oś OX, OY, OX ). Metoda nie wymaga obliczeń i przez to szybsza Wybór tej osi, na której rzut danych jest najszerszy. Wymaga obliczeń.

Wybór hiperpłaszczyzny dzielącej na dwa obszary Cel: taki podział, aby zmniejszyć różnorodność charakteru danych w wyliczonych obszarach, w stosunku do danych, na których odbywa się podział. Inaczej: podział na obszary danych o mniejszej gęstości i większej gęstości Dwa sposoby podziału podczas wykonywania algorytmu. Zwykły podział według mediany rzutu elementów na wybraną oś Podział za pomocą specjalnych cięć.

Wybór hiperpłaszczyzny dzielącej na dwa obszary: specjalne cięcia Specjalne cięcia są wykonywane gdy w i-tym wymiarze większość danych skupia się (ich gęstość jest duża) po jednej stronie, a reszta po drugiej. Mówimy wtedy, że dane mają dużą skośność. Prosty test na skośność danych: Cm środek masy danych (mediana) Cv środek obszaru danych V - szerokość obszaru danych SK = Cm-Cv / V Wykonanie specjalnych cięć (wykresy)

Wybór hiperpłaszczyzny dzielącej na dwa obszary: specjalne cięcia Specjalne cięcia wykonujemy na osi, na której wartość SK jest największa i o ile jest ona większa od ustalonej stałej. W przeciwnym wypadku wykonuje się zwykły podział. Specjalne cięcia są wykonywane tylko na ostatnich k poziomach podziału (dzięki temu algorytm jest szybszy, bo drzewo podziału jest zbalansowane)

Wyliczenie zbioru anomalii Po podzieleniu przestrzeni na obszary składające się z elementów będących w tym samym stopniu anomaliami, wyliczamy ich współczynnik gęstości i wybieramy te, których wartość współczynnika jest najmniejsza. Elementy zawarte w wyliczanych obszarach są szukanymi anomaliami

Przykład działania algorytmu Dane astronomiczne Solan Digital Sky Survey (SDSS) Wykres danych. Podział przestrzeni danych. 10% spośród obszarów mających najmniejszą gęstość

Inna metoda wyliczania specjalnych cięć i współczynnika anomalii. Definicja zbioru anomalii. Definicja zbioru anomalii Niech: - I będzie zbiorem danych - D:P(I)->R+ 0 będzie funkcją różnorodności danych - C:P(I)->R+ 0 będzie funkcją kardynalną (I1 c I2=>C(I1)<C(I2)) Definiujemy dla każdego zbioru Ij funkcję: SF(Ij) = C(I - Ij) * (D(I) - D(I-Ij)) Mówimy, że Ix jest zbiorem anomalii zbioru I jeżeli funkcja SF przyjmuje wartość największą dla zbioru Ix

Inna metoda wyliczania specjalnych cięć i współczynnika anomalii. Definicja zbioru anomalii. C miara wielkości zbioru Wartość D(Ij) jest tym większa im dane w zbiorze Ij są bardziej różnorodne (definicja bardzo nieformalna). Stąd jeżeli Ij jest zbiorem anomalii to wartość D(I) - D(I-Ij) jest stosunkowo duża. Z kolei jeżeli ta różnica jest taka sama dla dwóch zbiorów Ii i Ij to wartość SF powinna być większa dla zbioru mniejszego (co gwarantuje współczynnik C(I-Ij) ) Przykłady funkcji D: - wariancja zbioru - odwrotność współczynnika gęstości danych (im dane są rzadsze tym bardziej różnorodne)

Wykonywanie specjalnych cięć i wybór zbiorów anomalii przy pomocy funkcji SF Załóżmy, że i-ty wymiar jest tym, w którym dane mają maksymalną skośność i że rzadki obszar danych jest z lewej strony (obszar anomalii). Niech l będzie punktem dzielącym zrzutowane dane (na i-tą oś) na obszar lewy i prawy. Wtedy specjalne cięcie zostanie wykonane w punkcie l, dla którego elementy z lewego obszaru mają maksymalną wartość SF Po podziale całej przestrzeni danych wybieramy te podzbiory danych, które znajdują się w obszarach mających największą wartość funkcji SF

Jakość wykrytych anomalii i czas wykonania algorytmu Test poprawności algorytmu został przeprowadzony dla wygenerowanych danych (z rozkładu Gaussian mixture) Zbiór wyliczonych anomalii został porównany ze zbiorem anomalii wyliczonych za pomocą algorytmu EM i algorytmu FastMix (wariacja algorytmu EM) Algorytm został wykonany w ciągu 39 sekund i był tak samo dobry co algorytm EM wykonywany w czasie 2560 sekund i FastMix wykonany w ciagu 396 sekund. Ale już nie tak dobry jak algorytm FastMix wykonany w ciągu 749 sekund (im dłużej algorytm FastMix działa tym precyzyjniej może obliczyć zbiór anomalii).