Wykrywanie nietypowości w danych rzeczywistych

HTML
DOWNLOAD

Wielkość: px

Rozpocząć pokaz od strony:

Download "Wykrywanie nietypowości w danych rzeczywistych"

Alicja Kamińska
9 lat temu
Przeglądów:

1 Wykrywanie nietypowości w danych rzeczywistych dr Agnieszka NOWAK-BRZEZIŃSKA, mgr Artur TUROS 1

2 Agenda Cel badań Eksploracja odchyleń Metody wykrywania odchyleń Eksperymenty Wnioski Nowe badania 2

3 Cel badań ODCHYLENIE! ODCHYLENIA? ODCHYLENIA! ODCHYLENIE! 3

4 Odchylenia błędy czy istotne informacje (I) Odchylenie - obiekt tak bardzo odstający od reszty obserwacji, że istnieje podejrzenie, iż wygenerował go odmienny mechanizm.[hawkins] 4

5 Odchylenia błędy czy istotne informacje (II) Należy pamiętać o naturalnej zmienności danych. Nie zawsze znajdowane odchylenia muszą świadczyć o wykrytym błędzie! Wynagrodzenie prezesa spółki różni się od wynagrodzenia pozostałych pracowników, Nieautoryzowane wejścia do systemów, Metadane monitoringów IT, Wykrywanie oszustw (pranie brudnych pieniędzy, nietypowe użycia kart kredytowych), Specyficzne zachowania grup konsumentów, Identyfikacja wadliwych serii produkcyjnych. 5

Wynagrodzenie prezesa spółki różni się od wynagrodzenia pozostałych pracowników, Nieautoryzowane wejścia do systemów,

6 Eksploracja odchyleń podział metod Oparte na rozkładzie danych (ang. distribution-based), Oparte na odległości danych (ang. distance-based), Oparte na gęstości (ang. density-based), Oparte na grupowaniu (ang. clustering-based). 6

7 Metody bazujące na rozkładzie danych Metoda ze średniej i odchylenia standardowego elementem odstającym V jest każda obserwacja V i oddalona o więcej niż p odchylenia od średniej: gdzie: srednia srednia(a) wartość średnia atrybutu, σ A odchylenie standardowe atrybutu, p parametr mocy testu (najczęstsze wartości w literaturze [2,3]), V i i-ta wartość atrybutu, V i i-ta wartość atrybutu po standaryzacji. Metoda z rozstępu międzykwartylnego elementem odstającym jest każda wartość, która jest położona przynajmniej o p razy IQR poniżej Q 1 lub p razy IQR powyżej Q 3 Q1 p IQR, Q3 p IQR gdzie: Q 1 kwartyl pierwszy, Q 3 kwartyl trzeci, A p A, srednia A p A IQR= Q 3 -Q 1, p parametr mocy testu (najczęstsze wartości w literaturze [1.5,3]. 7

i i-ta wartość atrybutu po standaryzacji.

8 Algorytm k-średnich 1. Podziel zbiór na k wstępnych skupień, 2. Oblicz centroidy dla każdej z grup, 3. Dokonaj ponownego podziału obiektów, przypisując je do tej grupy, której centroid leży najbliżej, 4. Powtarzaj kroki 2 3 dopóki następują zmiany przyporządkowania. MIARA GOWERA Dobrze sobie radzi ze zbiorami wielowymiarowymi Wspiera cechy jakościowe Elastyczność metody: łatwo dostosowuje się do danych binarnych, ciągłych, dyskretnych ODLEGŁOŚĆ EUKLIDESOWA Nie radzi sobie ze zbiorami wielowymiarowymi Brak wsparcia dla cech jakościowych (pomijanie w analizie cech jakościowych, bądź niemożliwość zastosowania algorytmu) Raczej do zastosowania przy analizie danych ciągłych 8

MIARA GOWERA Dobrze sobie radzi ze zbiorami wielowymiarowymi Wspiera cechy jakościowe Elastyczność metody: łatwo dostosowuje się do danych binarnych, ciągłych,

9 Metody oparte na grupowaniu danych (I) Odchylenie obiekt, który w przeciwieństwie do regularnych danych nie wchodzi w skład większego skupienia. Obiekt wpływowy (ang. influential outlier) definiowany jako obiekt odchylony o p od średniego podobieństwa/odległości w jego grupie. Skupienie wpływowe (ang. influential cluster) definiowane jako skupienie odchylone od średniego podobieństwa/odległości pomiędzy skupieniami o wartość wyrażaną jako p j dla parametru p i liczby dziesiątek liczby n obiektów w zbiorze (j), Skupienie odstające (ang. cluster outlier) definiowane jako skupienie, którego liczebność jest nie większa niż 2 j k, gdzie j liczba dziesiątek z liczby oznaczającej liczbę n obiektów w zbiorze zaś k oznacza liczbę skupień. 9

influential cluster) definiowane jako skupienie odchylone od średniego podobieństwa/odległości pomiędzy skupieniami o wartość wyrażaną jako p j dla parametru p i liczby dziesiątek

10 Metody oparte na grupowaniu danych (II) Przykładowo dla zbioru liczącego 110 tysięcy obserwacji, dla k=3 minimalna liczność skupienia by nie uznać go za odstające wynosi = 21,33 22, zaś dla k=33, skupienie małoliczne to zawierające 2 lub 1 obiekt (bo = 1,93), itd. Wykrycie odchyleń możliwe bazując na macierzy podobieństwa/odległości między obiektami a środkami skupień (centroidami) dla najlepszej iteracji (dostarczającej największej wartości sumy kwadratów różnic, TC). Podejście niebinarne do zbioru danych. Możliwość zbinaryzowania metody poprzez przeprowadzenie analizy dla poszczególnych atrybutów z osobna. Szukanie błędów w danych (podejście binarne), a wykrywanie danych nietypowych (podejście niebinarne). 10

Wykrycie odchyleń możliwe bazując na macierzy podobieństwa/odległości między obiektami a środkami skupień (centroidami) dla najlepszej iteracji (dostarczającej największej wartości

11 Implementacja w R Nazwa funkcji quanqual.check() quanqual.freqdiagram() missing.insert() missing.remove() detectoutlier.meanstd, medianstd, quartile() detectoutlier.kmeans, kmeans2() removeoutlier.meanstd, medianstd, quartile() removeoutlier.kmeans, kmeans2() opis funkcji bada typy cech w zbiorze (jakosciowe i ilosciowe) graficzna reprezentacja rozłozenia typów cech w zbiorze danych (wykres kołowy (type= p ) lub słupkowy (type = b ) uzupełnia braki w danych srednia lub modalna, badz dowolnym symbolem usuwa obiekty z brakujacymi wartosciami identyfikuje obserwacje nietypowe przy użyciu metod: średniej arytmetycznej bądź mediany i odchylenia standardowego lub rozstępu międzykwartylowego wykrywa obiekty nietypowe przy uzyciu metody opartej o algorytm k-srednich usuwa odchylenia j.w. dla metody k-srednich summaryoutlier.meanstd,medianstd, quartile() summaryoutlier.kmeans,kmeans2() podsumowanie elementów nietypowych w danych j.w. dla metody k-średnich. 3 typy odchyleń są wykrywane: InfluentialOutlier (odchylenie wewnątrz grupy), InfluentialCluster (obiekty odchylonej grupy od pozostałych skupień), ClusterOutlier (małoliczne skupienie). 11

kmeans, kmeans2() opis funkcji bada typy cech w zbiorze (jakosciowe i ilosciowe) graficzna reprezentacja rozłozenia typów cech w zbiorze danych (wykres kołowy (type= p ) lub słupkowy (type = b )

12 Plan eksperymentów Przeanalizowano 36 przypadków na zbiorach danych o różnym rozkładzie, wielkości i typie atrybutów. Cztery zbiory danych: Iris, Car Evaluation, Credit Approval, Movement Libras - dostępne w UCI Machine Learning Repository. Cztery metody wykrywania odchyleń: ze średniej i odchylenia standardowego, z rozstępu międzykwartylowego, oparte na analizie skupień (metoda klasyczna oraz autorska). Pięć mocy testu: 1,5;2;3 (dla metod opartych na rozkładzie danych); 0,1 ; 0,2 (dla metod opartych na analizie skupień). 12

Cztery metody wykrywania odchyleń: ze średniej i odchylenia standardowego, z rozstępu międzykwartylowego, oparte na analizie skupień

13 Eksperymenty metody oparte na rozkładzie danych Nazwa zbioru Iris Credit Approval Car Evaluation Movement Libras p Średnia arytmetyczna i odchylenie standardowe Rozstęp międzykwartylny 1, ,67% 2,67% ,33% 0,67% ,67% 0% 1, % 31,7% % 26,3% ,54% 16,81% % 0% 1, ,6% 1,11% ,1% 0% ,6% 0,6% 13

międzykwartylny 1,5 46 4 30,67% 2,67% 2 11 1 7,33% 0,67% 3 1 0 0,67% 0% 1,5 207 219 30% 31,7%

14 Eksperymenty metody oparte na analizie skupień k-średnich Nazwa zbioru p 0,1 Iris 0,2 Credit Approval 0, Autorska Najlepsza iteracja 33,31% 0% 5,65% Klasyczna Najlepsza iteracja 67,33% 0% 23,4% Car Evaluation Movement Libras 0,2 0,1 0,2 0,1 0, ,58% 26,79% 1,39% 1,11% 0% ,16% 35,59% 19,91% 1,11% 0% 14

Klasyczna Najlepsza iteracja 67,33% 0% 23,4% Car Evaluation Movement Libras 0,2 0,1 0,2

15 Eksperymenty - podsumowanie Wraz ze wzrostem parametru p (mocy testu) zmniejsza się liczba wykrytych odchyleń. Metody statystyczne dały satysfakcjonujące wyniki dopiero dla największej mocy testu (p = 3). Metody statystyczne nie poradziły sobie z typowo jakościowym zbiorem danych Car Evaluation. Zaproponowana metoda wykrywania odchyleń w oparciu o algorytm k-średnich zwróciła rozsądne wyniki. Należy określić przeznaczenie wykonywanego testu, ponieważ ma to kluczowe znaczeniu w traktowaniu zbioru w sposób binarny lub niebinarny. Metody oparte na analizie skupień mogą być uważane za rozwiązanie kompleksowe. Wartym przeanalizowania jest binaryzacja autorskiej metody wykrywania odchyleń opartej na analizie skupień. 15

Metody statystyczne nie poradziły sobie z typowo jakościowym zbiorem danych Car Evaluation.

16 Nowe badania Ze względu na niską złożoność obliczeniową metody oparte na rozkładzie danych doskonale nadają się do wykrywania odchyleń w metadanych monitoringów. 16

17 Bibliografia Larose D.: Odkrywanie wiedzy z danych, wprowadzenie do eksploracji danych, Wydawnictwo PWN, Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and Techniques, Elsevier, Nowak-Brzezińska A.: Eksploracja odchyleń w regułowych bazach wiedzy, Studia Informatica, Hawkins D.: Identification of Outliers, Chapman and Hall, Tomkowicz M.: Wpływ odchyleń na jakość grupowania danych wielowymiarowych. Praca magisterska, Uniwersytet Śląski, Nowak-Brzezińska A.: Wykrywanie reguł nietypowych metody oparte na analizie skupień, Studia Informatica, Turos A.: Analiza metod wykrywania odchyleń w danych wielowymiarowych, praca magisterska, Uniwersytet Śląski, MacQueen J.: Some Methods for classification and Analysis of Multivariate Observations, University of California, Tryon R.: Cluster Analysis, Xu R., Wunsch D.: Clustering, Willey, Myatt G., Johnson W.: Making sense of data, Willey,

: Identification of Outliers, Chapman and Hall, 1980. Tomkowicz M.: Wpływ odchyleń na jakość grupowania danych wielowymiarowych. Praca magisterska, Uniwersytet Śląski, 2013. Nowak-Brzezińska A.

18 Dane kontaktowe dr Agnieszka NOWAK-BRZEZIŃSKA Uniwersytet Śląski Instytut Informatyki Zakład Systemów Informatycznych ul. Będzińska Sosnowiec mgr Artur TUROS 18

pl Uniwersytet Śląski Instytut Informatyki Zakład

19 Nowe podejście do wykrywania odchyleń z k-means Odchyleniem jest każde skupienie odstające K s = {x 1, x 2,,x i }, którego liczność j 2 (i) jest nie większa niż, gdzie: K s to s-te skupienie, k j- liczba dziesiątek liczby n obiektów w zbiorze, i liczba obiektów należących do skupienia, x i - i-ty obiekt należący do skupienia K s, k liczba skupień. Odchyleniem jest każdy obiekt wpływowy x is, którego podobieństwo jest p razy mniejsze od średniego podobieństwa jego skupienia K s : p( xis, K s ) (( p( K s ) ( p p( K, s gdzie p( x is, K- s ) podobieństwo i-tego obiektu do centrum jego s-tego skupienia, p( K - średnie podobieństwo w s-tym skupieniu, p parametr. Odchyleniem jest każde skupienie wpływowe K j, którego średnie podobieństwo do pozostałych skupień jest p j razy mniejsze od średniego podobieństwa pomiędzy skupieniami K: p( K, K s ) (( p( K ) ( p ( j ) p( K ))), gdzie: ( p( K ))- średnie podobieństwo skupienia K s z osiąganych podobieństw do pozostałych skupień, p( K, K s ) - średnie podobieństwo pomiędzy skupieniami, p parametr, j liczba dziesiątek n liczby obiektów. ))) ( s )) 19

Odchyleniem jest każdy obiekt wpływowy x is, którego podobieństwo jest p razy mniejsze od średniego podobieństwa jego skupienia K s : p( xis, K s ) (( p( K s ) ( p p( K, s gdzie p( x is, K- s )

20 Miara Gowera Miara uniwersalna radząca sobie z danymi ilościowymi jak również jakościowymi. gdzie: W ijk waga jest równa 0, gdy wartość k-tej zmiennej nie jest znana dla jednego lub dla obu obiektów o i oraz o j, natomiast 1 w przeciwnym przypadku S ijk wartość ocen podobieństwa ze względu na k-tą zmienną zależy od typu danych: Dla danych ilościowych: gdzie: R k rozstęp zmiennej k, x ik, x jk wartość k-tej zmiennej dla obiektów i, j. Dla danych jakościowych: gdy obiekty i, j maja taką samą k-tą zmienną, gdy obiekty i, j maja taką różną k-tą zmienną. 20

przeciwnym przypadku S ijk wartość ocen podobieństwa ze względu na k-tą zmienną zależy od typu danych: Dla danych ilościowych: gdzie: R k

Podobne dokumenty

Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4

Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4 Co z danymi oddalonymi? Błędne dane typu dochód z minusem na początku: to błąd we wprowadzaniu danych, czy faktyczny