Wykrywanie nietypowości w danych rzeczywistych



Podobne dokumenty
Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4

Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu

Typy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe

Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

Hierarchiczna analiza skupień

Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)

Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633

Laboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:

STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)

CLUSTERING. Metody grupowania danych

Metody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania

Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.

Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część

Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.

Wykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy

1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:

Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej

Miary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018

Wydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła

Eksploracja danych - wykład II

Laboratorium 3 - statystyka opisowa

MIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy

Plan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii

-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak

Sieci Kohonena Grupowanie

Zadania ze statystyki, cz.6

STATYSTYKA I DOŚWIADCZALNICTWO

Inteligentna analiza danych

Statystyczne metody analizy danych przy użyciu środowiska R

Przykład Rezygnacja z usług operatora

Statystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41

1. Grupowanie Algorytmy grupowania:

Rozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26

Wykład 10 Skalowanie wielowymiarowe

W1. Wprowadzenie. Statystyka opisowa

Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1

W kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:

1 Podstawy rachunku prawdopodobieństwa

Statystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34

Parametry statystyczne

Statystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),

Podstawy grupowania danych w programie RapidMiner Michał Bereta

Analiza zróżnicowania, asymetrii i koncentracji

Mail: Pokój 214, II piętro

Ewaluacja sprawdzianu 2009 klas szóstych szkoły podstawowej na podstawie sprawozdania sporządzonego przez OKE w Jaworznie

SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.

Agnieszka Nowak Brzezińska

Statystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA

STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE

Wykład 5: Statystyki opisowe (część 2)

Algorytm grupowania danych typu kwantyzacji wektorów

TEORETYCZNE PODSTAWY INFORMATYKI

Statystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33

Wykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia

Elementy statystyki wielowymiarowej

Czym jest analiza skupień?

Sztuczna inteligencja : Algorytm KNN

Wykład 4: Statystyki opisowe (część 1)

Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa

STATYSTYKA I DOŚWIADCZALNICTWO

Miary statystyczne w badaniach pedagogicznych

Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34

Skalowanie wielowymiarowe idea

Algorytm grupowania danych typu kwantyzacji wektorów

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd

Wstęp do grupowania danych

MODELE LINIOWE. Dr Wioleta Drobik

METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA

Przestrzeń algorytmów klastrowania

ALGORYTM RANDOM FOREST

Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817

Z-0033z Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki. Stacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta

ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel

ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH

STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;

STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE

Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi

Statystyka. Opisowa analiza zjawisk masowych

Analiza wariancji. dr Janusz Górczyński

OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp

Statystyki opisowe i szeregi rozdzielcze

Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV

Statystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28

BANK NAJLEPSZY DLA ROLNIKA

Z-LOGN1-006 Statystyka Statistics

Statystyka Matematyczna Anna Janicka

TRANSFORMACJE I JAKOŚĆ DANYCH

Wykrywanie anomalii w zbiorze danych o dużym wymiarze

Statystyczne sterowanie procesem

SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization

Statystyka matematyczna i ekonometria

KLASYFIKACJA. Słownik języka polskiego

Statystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski

2.Wstępna analiza danych c.d.- wykład z Populacja i próba

Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska

Co to jest grupowanie

Analiza skupień. Idea

Transkrypt:

Wykrywanie nietypowości w danych rzeczywistych dr Agnieszka NOWAK-BRZEZIŃSKA, mgr Artur TUROS 1

Agenda 1 2 3 4 5 6 Cel badań Eksploracja odchyleń Metody wykrywania odchyleń Eksperymenty Wnioski Nowe badania 2

Cel badań ODCHYLENIE! ODCHYLENIA? ODCHYLENIA! ODCHYLENIE! 3

Odchylenia błędy czy istotne informacje (I) Odchylenie - obiekt tak bardzo odstający od reszty obserwacji, że istnieje podejrzenie, iż wygenerował go odmienny mechanizm.[hawkins] 4

Odchylenia błędy czy istotne informacje (II) Należy pamiętać o naturalnej zmienności danych. Nie zawsze znajdowane odchylenia muszą świadczyć o wykrytym błędzie! Wynagrodzenie prezesa spółki różni się od wynagrodzenia pozostałych pracowników, Nieautoryzowane wejścia do systemów, Metadane monitoringów IT, Wykrywanie oszustw (pranie brudnych pieniędzy, nietypowe użycia kart kredytowych), Specyficzne zachowania grup konsumentów, Identyfikacja wadliwych serii produkcyjnych. 5

Eksploracja odchyleń podział metod Oparte na rozkładzie danych (ang. distribution-based), Oparte na odległości danych (ang. distance-based), Oparte na gęstości (ang. density-based), Oparte na grupowaniu (ang. clustering-based). 6

Metody bazujące na rozkładzie danych Metoda ze średniej i odchylenia standardowego elementem odstającym V jest każda obserwacja V i oddalona o więcej niż p odchylenia od średniej: gdzie: srednia srednia(a) wartość średnia atrybutu, σ A odchylenie standardowe atrybutu, p parametr mocy testu (najczęstsze wartości w literaturze [2,3]), V i i-ta wartość atrybutu, V i i-ta wartość atrybutu po standaryzacji. Metoda z rozstępu międzykwartylnego elementem odstającym jest każda wartość, która jest położona przynajmniej o p razy IQR poniżej Q 1 lub p razy IQR powyżej Q 3 Q1 p IQR, Q3 p IQR gdzie: Q 1 kwartyl pierwszy, Q 3 kwartyl trzeci, A p A, srednia A p A IQR= Q 3 -Q 1, p parametr mocy testu (najczęstsze wartości w literaturze [1.5,3]. 7

Algorytm k-średnich 1. Podziel zbiór na k wstępnych skupień, 2. Oblicz centroidy dla każdej z grup, 3. Dokonaj ponownego podziału obiektów, przypisując je do tej grupy, której centroid leży najbliżej, 4. Powtarzaj kroki 2 3 dopóki następują zmiany przyporządkowania. MIARA GOWERA Dobrze sobie radzi ze zbiorami wielowymiarowymi Wspiera cechy jakościowe Elastyczność metody: łatwo dostosowuje się do danych binarnych, ciągłych, dyskretnych ODLEGŁOŚĆ EUKLIDESOWA Nie radzi sobie ze zbiorami wielowymiarowymi Brak wsparcia dla cech jakościowych (pomijanie w analizie cech jakościowych, bądź niemożliwość zastosowania algorytmu) Raczej do zastosowania przy analizie danych ciągłych 8

Metody oparte na grupowaniu danych (I) Odchylenie obiekt, który w przeciwieństwie do regularnych danych nie wchodzi w skład większego skupienia. Obiekt wpływowy (ang. influential outlier) definiowany jako obiekt odchylony o p od średniego podobieństwa/odległości w jego grupie. Skupienie wpływowe (ang. influential cluster) definiowane jako skupienie odchylone od średniego podobieństwa/odległości pomiędzy skupieniami o wartość wyrażaną jako p j dla parametru p i liczby dziesiątek liczby n obiektów w zbiorze (j), Skupienie odstające (ang. cluster outlier) definiowane jako skupienie, którego liczebność jest nie większa niż 2 j k, gdzie j liczba dziesiątek z liczby oznaczającej liczbę n obiektów w zbiorze zaś k oznacza liczbę skupień. 9

Metody oparte na grupowaniu danych (II) Przykładowo dla zbioru liczącego 110 tysięcy obserwacji, dla k=3 minimalna liczność skupienia by nie uznać go za odstające wynosi 2 6 3 = 21,33 22, zaś dla k=33, skupienie małoliczne to zawierające 2 lub 1 obiekt (bo 26 33 = 1,93), itd. Wykrycie odchyleń możliwe bazując na macierzy podobieństwa/odległości między obiektami a środkami skupień (centroidami) dla najlepszej iteracji (dostarczającej największej wartości sumy kwadratów różnic, TC). Podejście niebinarne do zbioru danych. Możliwość zbinaryzowania metody poprzez przeprowadzenie analizy dla poszczególnych atrybutów z osobna. Szukanie błędów w danych (podejście binarne), a wykrywanie danych nietypowych (podejście niebinarne). 10

Implementacja w R Nazwa funkcji quanqual.check() quanqual.freqdiagram() missing.insert() missing.remove() detectoutlier.meanstd, medianstd, quartile() detectoutlier.kmeans, kmeans2() removeoutlier.meanstd, medianstd, quartile() removeoutlier.kmeans, kmeans2() opis funkcji bada typy cech w zbiorze (jakosciowe i ilosciowe) graficzna reprezentacja rozłozenia typów cech w zbiorze danych (wykres kołowy (type= p ) lub słupkowy (type = b ) uzupełnia braki w danych srednia lub modalna, badz dowolnym symbolem usuwa obiekty z brakujacymi wartosciami identyfikuje obserwacje nietypowe przy użyciu metod: średniej arytmetycznej bądź mediany i odchylenia standardowego lub rozstępu międzykwartylowego wykrywa obiekty nietypowe przy uzyciu metody opartej o algorytm k-srednich usuwa odchylenia j.w. dla metody k-srednich summaryoutlier.meanstd,medianstd, quartile() summaryoutlier.kmeans,kmeans2() podsumowanie elementów nietypowych w danych j.w. dla metody k-średnich. 3 typy odchyleń są wykrywane: InfluentialOutlier (odchylenie wewnątrz grupy), InfluentialCluster (obiekty odchylonej grupy od pozostałych skupień), ClusterOutlier (małoliczne skupienie). 11

Plan eksperymentów Przeanalizowano 36 przypadków na zbiorach danych o różnym rozkładzie, wielkości i typie atrybutów. Cztery zbiory danych: Iris, Car Evaluation, Credit Approval, Movement Libras - dostępne w UCI Machine Learning Repository. Cztery metody wykrywania odchyleń: ze średniej i odchylenia standardowego, z rozstępu międzykwartylowego, oparte na analizie skupień (metoda klasyczna oraz autorska). Pięć mocy testu: 1,5;2;3 (dla metod opartych na rozkładzie danych); 0,1 ; 0,2 (dla metod opartych na analizie skupień). 12

Eksperymenty metody oparte na rozkładzie danych Nazwa zbioru Iris Credit Approval Car Evaluation Movement Libras p Średnia arytmetyczna i odchylenie standardowe Rozstęp międzykwartylny 1,5 46 4 30,67% 2,67% 2 11 1 7,33% 0,67% 3 1 0 0,67% 0% 1,5 207 219 30% 31,7% 2 111 182 16% 26,3% 3 52 116 7,54% 16,81% 1 0 0 0% 0% 1,5 283 4 78,6% 1,11% 2 119 0 33,1% 0% 3 2 0 0,6% 0,6% 13

Eksperymenty metody oparte na analizie skupień k-średnich Nazwa zbioru p 0,1 Iris 0,2 Credit Approval 0,1 50 0 39 Autorska Najlepsza iteracja 33,31% 0% 5,65% 101 0 162 Klasyczna Najlepsza iteracja 67,33% 0% 23,4% Car Evaluation Movement Libras 0,2 0,1 0,2 0,1 0,2 4 463 24 4 0 0,58% 26,79% 1,39% 1,11% 0% 8 615 344 4 0 1,16% 35,59% 19,91% 1,11% 0% 14

Eksperymenty - podsumowanie Wraz ze wzrostem parametru p (mocy testu) zmniejsza się liczba wykrytych odchyleń. Metody statystyczne dały satysfakcjonujące wyniki dopiero dla największej mocy testu (p = 3). Metody statystyczne nie poradziły sobie z typowo jakościowym zbiorem danych Car Evaluation. Zaproponowana metoda wykrywania odchyleń w oparciu o algorytm k-średnich zwróciła rozsądne wyniki. Należy określić przeznaczenie wykonywanego testu, ponieważ ma to kluczowe znaczeniu w traktowaniu zbioru w sposób binarny lub niebinarny. Metody oparte na analizie skupień mogą być uważane za rozwiązanie kompleksowe. Wartym przeanalizowania jest binaryzacja autorskiej metody wykrywania odchyleń opartej na analizie skupień. 15

Nowe badania Ze względu na niską złożoność obliczeniową metody oparte na rozkładzie danych doskonale nadają się do wykrywania odchyleń w metadanych monitoringów. 16

Bibliografia Larose D.: Odkrywanie wiedzy z danych, wprowadzenie do eksploracji danych, Wydawnictwo PWN, 2006. Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and Techniques, Elsevier, 2012. Nowak-Brzezińska A.: Eksploracja odchyleń w regułowych bazach wiedzy, Studia Informatica, 2012. Hawkins D.: Identification of Outliers, Chapman and Hall, 1980. Tomkowicz M.: Wpływ odchyleń na jakość grupowania danych wielowymiarowych. Praca magisterska, Uniwersytet Śląski, 2013. Nowak-Brzezińska A.: Wykrywanie reguł nietypowych metody oparte na analizie skupień, Studia Informatica, 2013. Turos A.: Analiza metod wykrywania odchyleń w danych wielowymiarowych, praca magisterska, Uniwersytet Śląski, 2013. MacQueen J.: Some Methods for classification and Analysis of Multivariate Observations, University of California, 1967. Tryon R.: Cluster Analysis, 1939. Xu R., Wunsch D.: Clustering, Willey, 2008. Myatt G., Johnson W.: Making sense of data, Willey, 2009. 17

Dane kontaktowe dr Agnieszka NOWAK-BRZEZIŃSKA agnieszka.nowak@us.edu.pl Uniwersytet Śląski Instytut Informatyki Zakład Systemów Informatycznych ul. Będzińska 39 41-200 Sosnowiec mgr Artur TUROS turos.artur@gmail.com 18

Nowe podejście do wykrywania odchyleń z k-means Odchyleniem jest każde skupienie odstające K s = {x 1, x 2,,x i }, którego liczność j 2 (i) jest nie większa niż, gdzie: K s to s-te skupienie, k j- liczba dziesiątek liczby n obiektów w zbiorze, i liczba obiektów należących do skupienia, x i - i-ty obiekt należący do skupienia K s, k liczba skupień. Odchyleniem jest każdy obiekt wpływowy x is, którego podobieństwo jest p razy mniejsze od średniego podobieństwa jego skupienia K s : p( xis, K s ) (( p( K s ) ( p p( K, s gdzie p( x is, K- s ) podobieństwo i-tego obiektu do centrum jego s-tego skupienia, p( K - średnie podobieństwo w s-tym skupieniu, p parametr. Odchyleniem jest każde skupienie wpływowe K j, którego średnie podobieństwo do pozostałych skupień jest p j razy mniejsze od średniego podobieństwa pomiędzy skupieniami K: p( K, K s ) (( p( K ) ( p ( j ) p( K ))), gdzie: ( p( K ))- średnie podobieństwo skupienia K s z osiąganych podobieństw do pozostałych skupień, p( K, K s ) - średnie podobieństwo pomiędzy skupieniami, p parametr, j liczba dziesiątek n liczby obiektów. ))) ( s )) 19

Miara Gowera Miara uniwersalna radząca sobie z danymi ilościowymi jak również jakościowymi. gdzie: W ijk waga jest równa 0, gdy wartość k-tej zmiennej nie jest znana dla jednego lub dla obu obiektów o i oraz o j, natomiast 1 w przeciwnym przypadku S ijk wartość ocen podobieństwa ze względu na k-tą zmienną zależy od typu danych: Dla danych ilościowych: gdzie: R k rozstęp zmiennej k, x ik, x jk wartość k-tej zmiennej dla obiektów i, j. Dla danych jakościowych: gdy obiekty i, j maja taką samą k-tą zmienną, gdy obiekty i, j maja taką różną k-tą zmienną. 20