Wykrywanie nietypowości w danych rzeczywistych
|
|
- Alicja Kamińska
- 8 lat temu
- Przeglądów:
Transkrypt
1 Wykrywanie nietypowości w danych rzeczywistych dr Agnieszka NOWAK-BRZEZIŃSKA, mgr Artur TUROS 1
2 Agenda Cel badań Eksploracja odchyleń Metody wykrywania odchyleń Eksperymenty Wnioski Nowe badania 2
3 Cel badań ODCHYLENIE! ODCHYLENIA? ODCHYLENIA! ODCHYLENIE! 3
4 Odchylenia błędy czy istotne informacje (I) Odchylenie - obiekt tak bardzo odstający od reszty obserwacji, że istnieje podejrzenie, iż wygenerował go odmienny mechanizm.[hawkins] 4
5 Odchylenia błędy czy istotne informacje (II) Należy pamiętać o naturalnej zmienności danych. Nie zawsze znajdowane odchylenia muszą świadczyć o wykrytym błędzie! Wynagrodzenie prezesa spółki różni się od wynagrodzenia pozostałych pracowników, Nieautoryzowane wejścia do systemów, Metadane monitoringów IT, Wykrywanie oszustw (pranie brudnych pieniędzy, nietypowe użycia kart kredytowych), Specyficzne zachowania grup konsumentów, Identyfikacja wadliwych serii produkcyjnych. 5
6 Eksploracja odchyleń podział metod Oparte na rozkładzie danych (ang. distribution-based), Oparte na odległości danych (ang. distance-based), Oparte na gęstości (ang. density-based), Oparte na grupowaniu (ang. clustering-based). 6
7 Metody bazujące na rozkładzie danych Metoda ze średniej i odchylenia standardowego elementem odstającym V jest każda obserwacja V i oddalona o więcej niż p odchylenia od średniej: gdzie: srednia srednia(a) wartość średnia atrybutu, σ A odchylenie standardowe atrybutu, p parametr mocy testu (najczęstsze wartości w literaturze [2,3]), V i i-ta wartość atrybutu, V i i-ta wartość atrybutu po standaryzacji. Metoda z rozstępu międzykwartylnego elementem odstającym jest każda wartość, która jest położona przynajmniej o p razy IQR poniżej Q 1 lub p razy IQR powyżej Q 3 Q1 p IQR, Q3 p IQR gdzie: Q 1 kwartyl pierwszy, Q 3 kwartyl trzeci, A p A, srednia A p A IQR= Q 3 -Q 1, p parametr mocy testu (najczęstsze wartości w literaturze [1.5,3]. 7
8 Algorytm k-średnich 1. Podziel zbiór na k wstępnych skupień, 2. Oblicz centroidy dla każdej z grup, 3. Dokonaj ponownego podziału obiektów, przypisując je do tej grupy, której centroid leży najbliżej, 4. Powtarzaj kroki 2 3 dopóki następują zmiany przyporządkowania. MIARA GOWERA Dobrze sobie radzi ze zbiorami wielowymiarowymi Wspiera cechy jakościowe Elastyczność metody: łatwo dostosowuje się do danych binarnych, ciągłych, dyskretnych ODLEGŁOŚĆ EUKLIDESOWA Nie radzi sobie ze zbiorami wielowymiarowymi Brak wsparcia dla cech jakościowych (pomijanie w analizie cech jakościowych, bądź niemożliwość zastosowania algorytmu) Raczej do zastosowania przy analizie danych ciągłych 8
9 Metody oparte na grupowaniu danych (I) Odchylenie obiekt, który w przeciwieństwie do regularnych danych nie wchodzi w skład większego skupienia. Obiekt wpływowy (ang. influential outlier) definiowany jako obiekt odchylony o p od średniego podobieństwa/odległości w jego grupie. Skupienie wpływowe (ang. influential cluster) definiowane jako skupienie odchylone od średniego podobieństwa/odległości pomiędzy skupieniami o wartość wyrażaną jako p j dla parametru p i liczby dziesiątek liczby n obiektów w zbiorze (j), Skupienie odstające (ang. cluster outlier) definiowane jako skupienie, którego liczebność jest nie większa niż 2 j k, gdzie j liczba dziesiątek z liczby oznaczającej liczbę n obiektów w zbiorze zaś k oznacza liczbę skupień. 9
10 Metody oparte na grupowaniu danych (II) Przykładowo dla zbioru liczącego 110 tysięcy obserwacji, dla k=3 minimalna liczność skupienia by nie uznać go za odstające wynosi = 21,33 22, zaś dla k=33, skupienie małoliczne to zawierające 2 lub 1 obiekt (bo = 1,93), itd. Wykrycie odchyleń możliwe bazując na macierzy podobieństwa/odległości między obiektami a środkami skupień (centroidami) dla najlepszej iteracji (dostarczającej największej wartości sumy kwadratów różnic, TC). Podejście niebinarne do zbioru danych. Możliwość zbinaryzowania metody poprzez przeprowadzenie analizy dla poszczególnych atrybutów z osobna. Szukanie błędów w danych (podejście binarne), a wykrywanie danych nietypowych (podejście niebinarne). 10
11 Implementacja w R Nazwa funkcji quanqual.check() quanqual.freqdiagram() missing.insert() missing.remove() detectoutlier.meanstd, medianstd, quartile() detectoutlier.kmeans, kmeans2() removeoutlier.meanstd, medianstd, quartile() removeoutlier.kmeans, kmeans2() opis funkcji bada typy cech w zbiorze (jakosciowe i ilosciowe) graficzna reprezentacja rozłozenia typów cech w zbiorze danych (wykres kołowy (type= p ) lub słupkowy (type = b ) uzupełnia braki w danych srednia lub modalna, badz dowolnym symbolem usuwa obiekty z brakujacymi wartosciami identyfikuje obserwacje nietypowe przy użyciu metod: średniej arytmetycznej bądź mediany i odchylenia standardowego lub rozstępu międzykwartylowego wykrywa obiekty nietypowe przy uzyciu metody opartej o algorytm k-srednich usuwa odchylenia j.w. dla metody k-srednich summaryoutlier.meanstd,medianstd, quartile() summaryoutlier.kmeans,kmeans2() podsumowanie elementów nietypowych w danych j.w. dla metody k-średnich. 3 typy odchyleń są wykrywane: InfluentialOutlier (odchylenie wewnątrz grupy), InfluentialCluster (obiekty odchylonej grupy od pozostałych skupień), ClusterOutlier (małoliczne skupienie). 11
12 Plan eksperymentów Przeanalizowano 36 przypadków na zbiorach danych o różnym rozkładzie, wielkości i typie atrybutów. Cztery zbiory danych: Iris, Car Evaluation, Credit Approval, Movement Libras - dostępne w UCI Machine Learning Repository. Cztery metody wykrywania odchyleń: ze średniej i odchylenia standardowego, z rozstępu międzykwartylowego, oparte na analizie skupień (metoda klasyczna oraz autorska). Pięć mocy testu: 1,5;2;3 (dla metod opartych na rozkładzie danych); 0,1 ; 0,2 (dla metod opartych na analizie skupień). 12
13 Eksperymenty metody oparte na rozkładzie danych Nazwa zbioru Iris Credit Approval Car Evaluation Movement Libras p Średnia arytmetyczna i odchylenie standardowe Rozstęp międzykwartylny 1, ,67% 2,67% ,33% 0,67% ,67% 0% 1, % 31,7% % 26,3% ,54% 16,81% % 0% 1, ,6% 1,11% ,1% 0% ,6% 0,6% 13
14 Eksperymenty metody oparte na analizie skupień k-średnich Nazwa zbioru p 0,1 Iris 0,2 Credit Approval 0, Autorska Najlepsza iteracja 33,31% 0% 5,65% Klasyczna Najlepsza iteracja 67,33% 0% 23,4% Car Evaluation Movement Libras 0,2 0,1 0,2 0,1 0, ,58% 26,79% 1,39% 1,11% 0% ,16% 35,59% 19,91% 1,11% 0% 14
15 Eksperymenty - podsumowanie Wraz ze wzrostem parametru p (mocy testu) zmniejsza się liczba wykrytych odchyleń. Metody statystyczne dały satysfakcjonujące wyniki dopiero dla największej mocy testu (p = 3). Metody statystyczne nie poradziły sobie z typowo jakościowym zbiorem danych Car Evaluation. Zaproponowana metoda wykrywania odchyleń w oparciu o algorytm k-średnich zwróciła rozsądne wyniki. Należy określić przeznaczenie wykonywanego testu, ponieważ ma to kluczowe znaczeniu w traktowaniu zbioru w sposób binarny lub niebinarny. Metody oparte na analizie skupień mogą być uważane za rozwiązanie kompleksowe. Wartym przeanalizowania jest binaryzacja autorskiej metody wykrywania odchyleń opartej na analizie skupień. 15
16 Nowe badania Ze względu na niską złożoność obliczeniową metody oparte na rozkładzie danych doskonale nadają się do wykrywania odchyleń w metadanych monitoringów. 16
17 Bibliografia Larose D.: Odkrywanie wiedzy z danych, wprowadzenie do eksploracji danych, Wydawnictwo PWN, Jiawei Han, Micheline Kamber, Jian Pei: Data Mining: Concepts and Techniques, Elsevier, Nowak-Brzezińska A.: Eksploracja odchyleń w regułowych bazach wiedzy, Studia Informatica, Hawkins D.: Identification of Outliers, Chapman and Hall, Tomkowicz M.: Wpływ odchyleń na jakość grupowania danych wielowymiarowych. Praca magisterska, Uniwersytet Śląski, Nowak-Brzezińska A.: Wykrywanie reguł nietypowych metody oparte na analizie skupień, Studia Informatica, Turos A.: Analiza metod wykrywania odchyleń w danych wielowymiarowych, praca magisterska, Uniwersytet Śląski, MacQueen J.: Some Methods for classification and Analysis of Multivariate Observations, University of California, Tryon R.: Cluster Analysis, Xu R., Wunsch D.: Clustering, Willey, Myatt G., Johnson W.: Making sense of data, Willey,
18 Dane kontaktowe dr Agnieszka NOWAK-BRZEZIŃSKA Uniwersytet Śląski Instytut Informatyki Zakład Systemów Informatycznych ul. Będzińska Sosnowiec mgr Artur TUROS 18
19 Nowe podejście do wykrywania odchyleń z k-means Odchyleniem jest każde skupienie odstające K s = {x 1, x 2,,x i }, którego liczność j 2 (i) jest nie większa niż, gdzie: K s to s-te skupienie, k j- liczba dziesiątek liczby n obiektów w zbiorze, i liczba obiektów należących do skupienia, x i - i-ty obiekt należący do skupienia K s, k liczba skupień. Odchyleniem jest każdy obiekt wpływowy x is, którego podobieństwo jest p razy mniejsze od średniego podobieństwa jego skupienia K s : p( xis, K s ) (( p( K s ) ( p p( K, s gdzie p( x is, K- s ) podobieństwo i-tego obiektu do centrum jego s-tego skupienia, p( K - średnie podobieństwo w s-tym skupieniu, p parametr. Odchyleniem jest każde skupienie wpływowe K j, którego średnie podobieństwo do pozostałych skupień jest p j razy mniejsze od średniego podobieństwa pomiędzy skupieniami K: p( K, K s ) (( p( K ) ( p ( j ) p( K ))), gdzie: ( p( K ))- średnie podobieństwo skupienia K s z osiąganych podobieństw do pozostałych skupień, p( K, K s ) - średnie podobieństwo pomiędzy skupieniami, p parametr, j liczba dziesiątek n liczby obiektów. ))) ( s )) 19
20 Miara Gowera Miara uniwersalna radząca sobie z danymi ilościowymi jak również jakościowymi. gdzie: W ijk waga jest równa 0, gdy wartość k-tej zmiennej nie jest znana dla jednego lub dla obu obiektów o i oraz o j, natomiast 1 w przeciwnym przypadku S ijk wartość ocen podobieństwa ze względu na k-tą zmienną zależy od typu danych: Dla danych ilościowych: gdzie: R k rozstęp zmiennej k, x ik, x jk wartość k-tej zmiennej dla obiektów i, j. Dla danych jakościowych: gdy obiekty i, j maja taką samą k-tą zmienną, gdy obiekty i, j maja taką różną k-tą zmienną. 20
Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4
Metody wykrywania odchyleo w danych. Metody wykrywania braków w danych. Korelacja. PED lab 4 Co z danymi oddalonymi? Błędne dane typu dochód z minusem na początku: to błąd we wprowadzaniu danych, czy faktyczny
Bardziej szczegółowoData Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Bardziej szczegółowoTypy zmiennych. Zmienne i rekordy. Rodzaje zmiennych. Graficzne reprezentacje danych Statystyki opisowe
Typy zmiennych Graficzne reprezentacje danych Statystyki opisowe Jakościowe charakterystyka przyjmuje kilka możliwych wartości, które definiują klasy Porządkowe: odpowiedzi na pytania w ankiecie ; nigdy,
Bardziej szczegółowoMetody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin. Henryk Bujak
Metody statystyczne wykorzystywane do oceny zróżnicowania kolekcji genowych roślin Henryk Bujak e-mail: h.bujak@ihar.edu.pl Ocena różnorodności fenotypowej Różnorodność fenotypowa kolekcji roślinnych zasobów
Bardziej szczegółowoSTATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)
STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) Praca z danymi zaczyna się od badania rozkładu liczebności (częstości) zmiennych. Rozkład liczebności (częstości) zmiennej to jakie wartości zmienna
Bardziej szczegółowoHierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Bardziej szczegółowoCharakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej)
Charakterystyki liczbowe (estymatory i parametry), które pozwalają opisać właściwości rozkładu badanej cechy (zmiennej) 1 Podział ze względu na zakres danych użytych do wyznaczenia miary Miary opisujące
Bardziej szczegółowoGrupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
Bardziej szczegółowoLaboratorium nr Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby:
Laboratorium nr 1 CZĘŚĆ I : STATYSTYKA OPISOWA : 1. Wyznaczyć podstawowe statystyki (średnia, mediana, IQR, min, max) dla próby: 6,9,1,2,5,2,6,2,1,0,1,4,5,6,3,7,3,2,2,3,8,5,3,4,8,0,8,0,5,1,6,4,8,0,3,2
Bardziej szczegółowoSTATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY)
STATYSTYKA OPISOWA. LICZBOWE CHARAKTERYSTYKI(MIARY) Dla opisania rozkładu badanej zmiennej, korzystamy z pewnych charakterystyk liczbowych. Dzielimy je na cztery grupy.. Określenie przeciętnej wartości
Bardziej szczegółowoCLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Bardziej szczegółowoMetody analizy skupień Wprowadzenie Charakterystyka obiektów Metody grupowania Ocena poprawności grupowania
Wielowymiarowe metody segmentacji CHAID Metoda Automatycznej Detekcji Interakcji CHAID Cele CHAID Dane CHAID Przebieg analizy CHAID Parametry CHAID Wyniki Metody analizy skupień Wprowadzenie Charakterystyka
Bardziej szczegółowoOutlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej.
Temat: WYKRYWANIE ODCHYLEO W DANYCH Outlier to dana (punkt, obiekt, wartośd w zbiorze) znacznie odstająca od reszty. prezentacji punktów odstających jest rysunek poniżej. Przykładem Box Plot wygodną metodą
Bardziej szczegółowoPopulacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część
Populacja generalna (zbiorowość generalna) zbiór obejmujący wszystkie elementy będące przedmiotem badań Próba (podzbiór zbiorowości generalnej) część populacji, którą podaje się badaniu statystycznemu
Bardziej szczegółowoStatystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych.
Statystyka hydrologiczna i prawdopodobieństwo zjawisk hydrologicznych. Statystyka zajmuje się prawidłowościami zaistniałych zdarzeń. Teoria prawdopodobieństwa dotyczy przewidywania, jak często mogą zajść
Bardziej szczegółowoWykład 1. Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy
Wykład Podstawowe pojęcia Metody opisowe w analizie rozkładu cechy Zbiorowość statystyczna - zbiór elementów lub wyników jakiegoś procesu powiązanych ze sobą logicznie (tzn. posiadających wspólne cechy
Bardziej szczegółowo1 n. s x x x x. Podstawowe miary rozproszenia: Wariancja z populacji: Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel:
Wariancja z populacji: Podstawowe miary rozproszenia: 1 1 s x x x x k 2 2 k 2 2 i i n i1 n i1 Czasem stosuje się też inny wzór na wariancję z próby, tak policzy Excel: 1 k 2 s xi x n 1 i1 2 Przykład 38,
Bardziej szczegółowoMiary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej
Miary położenia wskazują miejsce wartości najlepiej reprezentującej wszystkie wielkości danej zmiennej. Mówią o przeciętnym poziomie analizowanej cechy. Średnia arytmetyczna suma wartości zmiennej wszystkich
Bardziej szczegółowoMiary zmienności STATYSTYKA OPISOWA. Dr Alina Gleska. Instytut Matematyki WE PP. 6 marca 2018
STATYSTYKA OPISOWA Dr Alina Gleska Instytut Matematyki WE PP 6 marca 2018 1 MIARY ZMIENNOŚCI (inaczej: rozproszenia, rozrzutu, zróżnicowania, dyspersji) informuja o zróżnicowaniu jednostek zbiorowości
Bardziej szczegółowoWydział Inżynierii Produkcji. I Logistyki. Statystyka opisowa. Wykład 3. Dr inż. Adam Deptuła
12.03.2017 Wydział Inżynierii Produkcji I Logistyki Statystyka opisowa Wykład 3 Dr inż. Adam Deptuła METODY OPISU DANYCH ILOŚCIOWYCH SKALARNYCH Wykresy: diagramy, histogramy, łamane częstości, wykresy
Bardziej szczegółowoEksploracja danych - wykład II
- wykład 1/29 wykład - wykład Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Październik 2015 - wykład 2/29 W kontekście odkrywania wiedzy wykład - wykład 3/29 CRISP-DM - standaryzacja
Bardziej szczegółowoLaboratorium 3 - statystyka opisowa
dla szeregu rozdzielczego Laboratorium 3 - statystyka opisowa Agnieszka Mensfelt 11 lutego 2019 dla szeregu rozdzielczego Statystyka opisowa dla szeregu rozdzielczego Przykład wyniki maratonu Wyniki 18.
Bardziej szczegółowoMIARY KLASYCZNE Miary opisujące rozkład badanej cechy w zbiorowości, które obliczamy na podstawie wszystkich zaobserwowanych wartości cechy
MIARY POŁOŻENIA Opisują średni lub typowy poziom wartości cechy. Określają tą wartość cechy, wokół której skupiają się wszystkie pozostałe wartości badanej cechy. Wśród nich można wyróżnić miary tendencji
Bardziej szczegółowoPlan wykładu. Statystyka opisowa. Statystyka matematyczna. Dane statystyczne miary położenia miary rozproszenia miary asymetrii
Plan wykładu Statystyka opisowa Dane statystyczne miary położenia miary rozproszenia miary asymetrii Statystyka matematyczna Podstawy estymacji Testowanie hipotez statystycznych Żródła Korzystałam z ksiażek:
Bardziej szczegółowo-> Średnia arytmetyczna (5) (4) ->Kwartyl dolny, mediana, kwartyl górny, moda - analogicznie jak
Wzory dla szeregu szczegółowego: Wzory dla szeregu rozdzielczego punktowego: ->Średnia arytmetyczna ważona -> Średnia arytmetyczna (5) ->Średnia harmoniczna (1) ->Średnia harmoniczna (6) (2) ->Średnia
Bardziej szczegółowoSieci Kohonena Grupowanie
Sieci Kohonena Grupowanie http://zajecia.jakubw.pl/nai UCZENIE SIĘ BEZ NADZORU Załóżmy, że mamy za zadanie pogrupować następujące słowa: cup, roulette, unbelievable, cut, put, launderette, loveable Nie
Bardziej szczegółowoZadania ze statystyki, cz.6
Zadania ze statystyki, cz.6 Zad.1 Proszę wskazać, jaką część pola pod krzywą normalną wyznaczają wartości Z rozkładu dystrybuanty rozkładu normalnego: - Z > 1,25 - Z > 2,23 - Z < -1,23 - Z > -1,16 - Z
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 9 Analiza skupień wielowymiarowa klasyfikacja obiektów Metoda, a właściwie to zbiór metod pozwalających na grupowanie obiektów pod względem wielu cech jednocześnie.
Bardziej szczegółowoInteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
Bardziej szczegółowoStatystyczne metody analizy danych przy użyciu środowiska R
Statystyczne metody analizy danych przy użyciu środowiska R Agnieszka Nowak - Brzezińska Instytut Informatyki, Uniwersytet Śląski Wybrane zagadnienia Plan wystąpienia 1. Wprowadzenie. 2. Środowisko R.
Bardziej szczegółowoPrzykład Rezygnacja z usług operatora
Przykład Rezygnacja z usług operatora Zbiór CHURN Zbiór zawiera dane o 3333 klientach firmy telefonicznej razem ze wskazaniem, czy zrezygnowali z usług tej firmy Dane pochodzą z UCI Repository of Machine
Bardziej szczegółowoStatystyka. Wykład 4. Magdalena Alama-Bućko. 13 marca Magdalena Alama-Bućko Statystyka 13 marca / 41
Statystyka Wykład 4 Magdalena Alama-Bućko 13 marca 2017 Magdalena Alama-Bućko Statystyka 13 marca 2017 1 / 41 Na poprzednim wykładzie omówiliśmy następujace miary rozproszenia: Wariancja - to średnia arytmetyczna
Bardziej szczegółowo1. Grupowanie Algorytmy grupowania:
1. 1.1. 2. 3. 3.1. 3.2. Grupowanie...1 Algorytmy grupowania:...1 Grupowanie metodą k-średnich...3 Grupowanie z wykorzystaniem Oracle Data Miner i Rapid Miner...3 Grupowanie z wykorzystaniem algorytmu K-Means
Bardziej szczegółowoRozkład normalny. Marcin Zajenkowski. Marcin Zajenkowski () Rozkład normalny 1 / 26
Rozkład normalny Marcin Zajenkowski Marcin Zajenkowski () Rozkład normalny 1 / 26 Rozkład normalny Krzywa normalna, krzywa Gaussa, rozkład normalny Rozkłady liczebności wielu pomiarów fizycznych, biologicznych
Bardziej szczegółowoWykład 10 Skalowanie wielowymiarowe
Wykład 10 Skalowanie wielowymiarowe Wrocław, 30.05.2018r Skalowanie wielowymiarowe (Multidimensional Scaling (MDS)) Główne cele MDS: przedstawienie struktury badanych obiektów przez określenie treści wymiarów
Bardziej szczegółowoW1. Wprowadzenie. Statystyka opisowa
W1. Wprowadzenie. Statystyka opisowa dr hab. Jerzy Nakielski Zakład Biofizyki i Morfogenezy Roślin Plan wykładu: 1. O co chodzi w statystyce 2. Etapy badania statystycznego 3. Zmienna losowa, rozkład
Bardziej szczegółowoEksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie
Bardziej szczegółowoW kolejnym kroku należy ustalić liczbę przedziałów k. W tym celu należy wykorzystać jeden ze wzorów:
Na dzisiejszym wykładzie omówimy najważniejsze charakterystyki liczbowe występujące w statystyce opisowej. Poszczególne wzory będziemy podawać w miarę potrzeby w trzech postaciach: dla szeregu szczegółowego,
Bardziej szczegółowo1 Podstawy rachunku prawdopodobieństwa
1 Podstawy rachunku prawdopodobieństwa Dystrybuantą zmiennej losowej X nazywamy prawdopodobieństwo przyjęcia przez zmienną losową X wartości mniejszej od x, tzn. F (x) = P [X < x]. 1. dla zmiennej losowej
Bardziej szczegółowoStatystyka. Wykład 2. Magdalena Alama-Bućko. 5 marca Magdalena Alama-Bućko Statystyka 5 marca / 34
Statystyka Wykład 2 Magdalena Alama-Bućko 5 marca 2018 Magdalena Alama-Bućko Statystyka 5 marca 2018 1 / 34 Banki danych: Bank danych lokalnych : Główny urzad statystyczny: Baza Demografia : https://bdl.stat.gov.pl/
Bardziej szczegółowoParametry statystyczne
I. MIARY POŁOŻENIA charakteryzują średni lub typowy poziom wartości cechy, wokół nich skupiają się wszystkie pozostałe wartości analizowanej cechy. I.1. Średnia arytmetyczna x = x 1 + x + + x n n = 1 n
Bardziej szczegółowoStatystyka. Podstawowe pojęcia: populacja (zbiorowość statystyczna), jednostka statystyczna, próba. Cechy: ilościowe (mierzalne),
Statystyka zbiór przetworzonych i zsyntetyzowanych danych liczbowych, nauka o ilościowych metodach badania zjawisk masowych, zmienna losowa będąca funkcją próby. Podstawowe pojęcia: populacja (zbiorowość
Bardziej szczegółowoPodstawy grupowania danych w programie RapidMiner Michał Bereta
Podstawy grupowania danych w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Grupowanie hierarchiczne Grupowanie (analiza skupieo, ang. clustering) ma na celu automatyczne wykrycie grup istniejących
Bardziej szczegółowoAnaliza zróżnicowania, asymetrii i koncentracji
Analiza zróżnicowania, asymetrii i koncentracji Miary zróżnicowania Miary średnie, chociaż reprezentują wszystkie jednostki badanej zbiorowości, nie dają wyczerpującej charakterystyki szeregu statystycznego,
Bardziej szczegółowoMail: Pokój 214, II piętro
Wykład 2 Mail: agnieszka.nowak@us.edu.pl Pokój 214, II piętro http://zsi.tech.us.edu.pl/~nowak Predykcja zdolność do wykorzystania wiedzy zgromadzonej w systemie do przewidywania wartości dla nowych danych,
Bardziej szczegółowoEwaluacja sprawdzianu 2009 klas szóstych szkoły podstawowej na podstawie sprawozdania sporządzonego przez OKE w Jaworznie
Zespół Szkolno - Przedszkolny w Rudzicy im. Jana Pawła II Ewaluacja sprawdzianu 2009 klas szóstych szkoły podstawowej na podstawie sprawozdania sporządzonego przez OKE w Jaworznie Rudzica 2009 SPIS TREŚCI
Bardziej szczegółowoSCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
Bardziej szczegółowoAgnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Bardziej szczegółowoStatystyka opisowa PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA
Statystyka opisowa PRZEDMIOT: PODSTAWY STATYSTYKI PROWADZĄCY: DR LUDMIŁA ZA JĄC -LAMPARSKA Statystyka opisowa = procedury statystyczne stosowane do opisu właściwości próby (rzadziej populacji) Pojęcia:
Bardziej szczegółowoSTATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE
STATYSTYKA - PRZYKŁADOWE ZADANIA EGZAMINACYJNE 1 W trakcie badania obliczono wartości średniej (15,4), mediany (13,6) oraz dominanty (10,0). Określ typ asymetrii rozkładu. 2 Wymień 3 cechy rozkładu Gauss
Bardziej szczegółowoWykład 5: Statystyki opisowe (część 2)
Wykład 5: Statystyki opisowe (część 2) Wprowadzenie Na poprzednim wykładzie wprowadzone zostały statystyki opisowe nazywane miarami położenia (średnia, mediana, kwartyle, minimum i maksimum, modalna oraz
Bardziej szczegółowoAlgorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, rozważane dotychczas problemy koncentrowały się na nauczeniu na podstawie zbioru treningowego i zbioru etykiet klasyfikacji
Bardziej szczegółowoTEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana II stopień studiów Wykład 13a 2 Eksploracja danych Co to są dane W jaki sposób zbieramy dane W jaki sposób reprezentujemy dane W jaki
Bardziej szczegółowoStatystyka. Wykład 4. Magdalena Alama-Bućko. 19 marca Magdalena Alama-Bućko Statystyka 19 marca / 33
Statystyka Wykład 4 Magdalena Alama-Bućko 19 marca 2018 Magdalena Alama-Bućko Statystyka 19 marca 2018 1 / 33 Analiza struktury zbiorowości miary położenia ( miary średnie) miary zmienności (rozproszenia,
Bardziej szczegółowoWykład 2. Statystyka opisowa - Miary rozkładu: Miary położenia
Wykład 2 Statystyka opisowa - Miary rozkładu: Miary położenia Podział miar Miary położenia (measures of location): 1. Miary tendencji centralnej (measures of central tendency, averages): Średnia arytmetyczna
Bardziej szczegółowoElementy statystyki wielowymiarowej
Wnioskowanie_Statystyczne_-_wykład Spis treści 1 Elementy statystyki wielowymiarowej 1.1 Kowariancja i współczynnik korelacji 1.2 Macierz kowariancji 1.3 Dwumianowy rozkład normalny 1.4 Analiza składowych
Bardziej szczegółowoCzym jest analiza skupień?
Statystyczna analiza danych z pakietem SAS Analiza skupień metody hierarchiczne Czym jest analiza skupień? wielowymiarowa technika pozwalająca wykrywać współzależności między obiektami; ściśle związana
Bardziej szczegółowoSztuczna inteligencja : Algorytm KNN
Instytut Informatyki Uniwersytetu Śląskiego 23 kwietnia 2012 1 Algorytm 1 NN 2 Algorytm knn 3 Zadania Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr
Bardziej szczegółowoWykład 4: Statystyki opisowe (część 1)
Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można
Bardziej szczegółowoMetody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty
Bardziej szczegółowoSTATYSTYKA I DOŚWIADCZALNICTWO
STATYSTYKA I DOŚWIADCZALNICTWO Wykład 6 Test niezależności chi-kwadrat (χ 2 ) Cel: ocena występowania zależności między dwiema cechami jakościowymi/skategoryzowanymi X- pierwsza cecha; Y druga cecha Przykłady
Bardziej szczegółowoMiary statystyczne w badaniach pedagogicznych
Miary statystyczne w badaniach pedagogicznych Szeregi statystyczne Szczegółowy - gdzie materiał uporządkowany jest rosnąco lub malejąco Rozdzielczy - gdzie poszczególnym wariantom zmiennej przyporządkowane
Bardziej szczegółowoPo co nam charakterystyki liczbowe? Katarzyna Lubnauer 34
Po co nam charakterystyki liczbowe? Katarzyna Lubnauer 34 Def. Charakterystyki liczbowe to wielkości wyznaczone na podstawie danych statystycznych, charakteryzujące własności badanej cechy. Klasyfikacja
Bardziej szczegółowoSkalowanie wielowymiarowe idea
Skalowanie wielowymiarowe idea Jedną z wad metody PCA jest możliwość używania jedynie zmiennych ilościowych, kolejnym konieczność posiadania pełnych danych z doświadczenia(nie da się użyć PCA jeśli mamy
Bardziej szczegółowoAlgorytm grupowania danych typu kwantyzacji wektorów
Algorytm grupowania danych typu kwantyzacji wektorów Wstęp Definicja problemu: Typowe, problemem często spotykanym w zagadnieniach eksploracji danych (ang. data mining) jest zagadnienie grupowania danych
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Algorytmy klastujące Problem 3 Mając daną chmurę punktów chcielibyśmy zrozumieć ich
Bardziej szczegółowoWYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd
WYKŁADY ZE STATYSTYKI MATEMATYCZNEJ wykład 2 - statystyka opisowa cd Agata Boratyńska Agata Boratyńska Statystyka matematyczna, wykład 2 1 / 20 MIARY ROZPROSZENIA, Wariancja Wariancją z próby losowej X
Bardziej szczegółowoWstęp do grupowania danych
Eksploracja zasobów internetowych Wykład 5 Wstęp do grupowania danych mgr inż. Maciej Kopczyński Białystok 2014 Wstęp Istnieją dwie podstawowe metody klasyfikowania obiektów: metoda z nauczycielem, metoda
Bardziej szczegółowoMODELE LINIOWE. Dr Wioleta Drobik
MODELE LINIOWE Dr Wioleta Drobik MODELE LINIOWE Jedna z najstarszych i najpopularniejszych metod modelowania Zależność między zbiorem zmiennych objaśniających, a zmienną ilościową nazywaną zmienną objaśnianą
Bardziej szczegółowoMETODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
Bardziej szczegółowoPrzestrzeń algorytmów klastrowania
20 listopada 2008 Plan prezentacji 1 Podstawowe pojęcia Przykłady algorytmów klastrowania 2 Odległość algorytmów klastrowania Odległość podziałów 3 Dane wejściowe Eksperymenty Praca źródłowa Podstawowe
Bardziej szczegółowoALGORYTM RANDOM FOREST
SKRYPT PRZYGOTOWANY NA ZAJĘCIA INDUKOWANYCH REGUŁ DECYZYJNYCH PROWADZONYCH PRZEZ PANA PAWŁA WOJTKIEWICZA ALGORYTM RANDOM FOREST Katarzyna Graboś 56397 Aleksandra Mańko 56699 2015-01-26, Warszawa ALGORYTM
Bardziej szczegółowoAnaliza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817
Analiza Danych Sprawozdanie regresja Marek Lewandowski Inf 59817 Zadanie 1: wiek 7 8 9 1 11 11,5 12 13 14 14 15 16 17 18 18,5 19 wzrost 12 122 125 131 135 14 142 145 15 1 154 159 162 164 168 17 Wykres
Bardziej szczegółowoZ-0033z Statystyka. Zarządzanie i Inżynieria Produkcji I stopień Ogólnoakademicki. Stacjonarne Wszystkie Katedra Matematyki dr Zdzisław Piasta
KARTA MODUŁU / KARTA PRZEDMIOTU Z-0033z Statystyka Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Statistics Obowiązuje od roku akademickiego 2012/2013 A. USYTUOWANIE MODUŁU W SYSTEMIE STUDIÓW
Bardziej szczegółowoZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA. dr inż. Aleksander Astel
ZASTOSOWANIE TECHNIK CHEMOMETRYCZNYCH W BADANIACH ŚRODOWISKA dr inż. Aleksander Astel Gdańsk, 22.12.2004 CHEMOMETRIA dziedzina nauki i techniki zajmująca się wydobywaniem użytecznej informacji z wielowymiarowych
Bardziej szczegółowoALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie
Bardziej szczegółowoSTATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych;
STATYSTYKA OPISOWA Przykłady problemów statystycznych: - badanie opinii publicznej na temat preferencji wyborczych; - badanie skuteczności nowego leku; - badanie stopnia zanieczyszczenia gleb metalami
Bardziej szczegółowoSTATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE
STATYSTYKA IV SEMESTR ALK (PwZ) STATYSTYKA OPISOWA RODZAJE CECH W POPULACJACH I SKALE POMIAROWE CECHY mogą być: jakościowe nieuporządkowane - skala nominalna płeć, rasa, kolor oczu, narodowość, marka samochodu,
Bardziej szczegółowoOdchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi
Odchudzamy serię danych, czyli jak wykryć i usunąć wyniki obarczone błędami grubymi Piotr Konieczka Katedra Chemii Analitycznej Wydział Chemiczny Politechnika Gdańska D syst D śr m 1 3 5 2 4 6 śr j D 1
Bardziej szczegółowoStatystyka. Opisowa analiza zjawisk masowych
Statystyka Opisowa analiza zjawisk masowych Typy rozkładów empirycznych jednej zmiennej Rozkładem empirycznym zmiennej nazywamy przyporządkowanie kolejnym wartościom zmiennej (x i ) odpowiadających im
Bardziej szczegółowoAnaliza wariancji. dr Janusz Górczyński
Analiza wariancji dr Janusz Górczyński Wprowadzenie Powiedzmy, że badamy pewną populację π, w której cecha Y ma rozkład N o średniej m i odchyleniu standardowym σ. Powiedzmy dalej, że istnieje pewien czynnik
Bardziej szczegółowoOBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA. z wykorzystaniem programu obliczeniowego Q maxp
tel.: +48 662 635 712 Liczba stron: 15 Data: 20.07.2010r OBLICZENIE PRZEPŁYWÓW MAKSYMALNYCH ROCZNYCH O OKREŚLONYM PRAWDOPODOBIEŃSTWIE PRZEWYŻSZENIA z wykorzystaniem programu obliczeniowego Q maxp DŁUGIE
Bardziej szczegółowoStatystyki opisowe i szeregi rozdzielcze
Statystyki opisowe i szeregi rozdzielcze - ćwiczenia ĆWICZENIA Piotr Ciskowski ramka-wąsy przykład 1. krwinki czerwone Stanisz W eksperymencie farmakologicznym analizowano oddziaływanie pewnego preparatu
Bardziej szczegółowoKlasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Bardziej szczegółowoStatystyka. Wykład 3. Magdalena Alama-Bućko. 6 marca Magdalena Alama-Bućko Statystyka 6 marca / 28
Statystyka Wykład 3 Magdalena Alama-Bućko 6 marca 2017 Magdalena Alama-Bućko Statystyka 6 marca 2017 1 / 28 Szeregi rozdzielcze przedziałowe - kwartyle - przypomnienie Po ustaleniu przedziału, w którym
Bardziej szczegółowoBANK NAJLEPSZY DLA ROLNIKA
2017 BANK NAJLEPSZY DLA ROLNIKA 2017 Martin & Jacob przygotował ranking Bank Najlepszy dla Rolnika. Wstęp Ranking Bank Najlepszy dla Rolnika jest pierwszym tego typu rankingiem w Polsce. Zrealizowała go
Bardziej szczegółowoZ-LOGN1-006 Statystyka Statistics
KARTA MODUŁU / KARTA PRZEDMIOTU Kod modułu Nazwa modułu Nazwa modułu w języku angielskim Z-LOGN-006 Statystyka Statistics Obowiązuje od roku akademickiego 0/0 A. USYTUOWANIE MODUŁU W SYSTEMIE STUDIÓW Kierunek
Bardziej szczegółowoStatystyka Matematyczna Anna Janicka
Statystyka Matematyczna Anna Janicka wykład I, 22.02.2016 STATYSTYKA OPISOWA, cz. I Kwestie techniczne Kontakt: ajanicka@wne.uw.edu.pl Dyżur: strona z materiałami z przedmiotu: wne.uw.edu.pl/azylicz akson.sgh.waw.pl/~aborata
Bardziej szczegółowoTRANSFORMACJE I JAKOŚĆ DANYCH
METODY INŻYNIERII WIEDZY KNOWLEDGE ENGINEERING AND DATA MINING TRANSFORMACJE I JAKOŚĆ DANYCH Adrian Horzyk Akademia Górniczo-Hutnicza Wydział Elektrotechniki, Automatyki, Informatyki i Inżynierii Biomedycznej
Bardziej szczegółowoWykrywanie anomalii w zbiorze danych o dużym wymiarze
Wykrywanie anomalii w zbiorze danych o dużym wymiarze Piotr Kroll Na podstawie pracy: Very Fast Outlier Detection In Large Multidimensional Data Set autorstwa: A. Chandhary, A. Shalay, A. Moore Różne rozwiązania
Bardziej szczegółowoStatystyczne sterowanie procesem
Statystyczne sterowanie procesem SPC (ang. Statistical Process Control) Trzy filary SPC: 1. sporządzenie dokładnego diagramu procesu produkcji; 2. pobieranie losowych próbek (w regularnych odstępach czasu
Bardziej szczegółowoSPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization
Wrocław University of Technology SPOTKANIE 6: Klasteryzacja: K-Means, Expectation Maximization Jakub M. Tomczak Studenckie Koło Naukowe Estymator jakub.tomczak@pwr.wroc.pl 4.1.213 Klasteryzacja Zmienne
Bardziej szczegółowoStatystyka matematyczna i ekonometria
Statystyka matematyczna i ekonometria Wykład 11 Anna Skowrońska-Szmer lato 2016/2017 Powtórzenie materiału 2 Zadanie 1 Wykład 1 Eksperyment polega na pojedynczym rzucie symetryczną kostką. Przestrzeń zdarzeń
Bardziej szczegółowoKLASYFIKACJA. Słownik języka polskiego
KLASYFIKACJA KLASYFIKACJA Słownik języka polskiego Klasyfikacja systematyczny podział przedmiotów lub zjawisk na klasy, działy, poddziały, wykonywany według określonej zasady Klasyfikacja polega na przyporządkowaniu
Bardziej szczegółowoStatystyka opisowa. Literatura STATYSTYKA OPISOWA. Wprowadzenie. Wprowadzenie. Wprowadzenie. Plan. Tomasz Łukaszewski
Literatura STATYSTYKA OPISOWA A. Aczel, Statystyka w Zarządzaniu, PWN, 2000 A. Obecny, Statystyka opisowa w Excelu dla szkół. Ćwiczenia praktyczne, Helion, 2002. A. Obecny, Statystyka matematyczna w Excelu
Bardziej szczegółowo2.Wstępna analiza danych c.d.- wykład z 5.03.2006 Populacja i próba
2.Wstępna analiza danych c.d.- wykład z 5.03.2006 Populacja i próba Populacja- zbiorowość skończona lub nieskończona, w stosunku do której mają być formułowane wnioski. Próba- skończony podzbiór populacji
Bardziej szczegółowoMetody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
Bardziej szczegółowoCo to jest grupowanie
Grupowanie danych Co to jest grupowanie 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Szukanie grup, obszarów stanowiących lokalne gromady punktów Co to jest grupowanie
Bardziej szczegółowoAnaliza skupień. Idea
Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.
Bardziej szczegółowo