Analiza Skupień - Grupowanie Zaawansowana Eksploracja Danych
|
|
- Sabina Antczak
- 9 lat temu
- Przeglądów:
Transkrypt
1 Analiza Skupień - Grupowanie Zaawansowana Eksploracja Danych JERZY STEFANOWSKI Inst. Informatyki PP Wersja dla TPD 29 Jerzy.Stefanowski@cs.put.poznan.pl
2 Organizacja wykładu Wprowadzenie. Możliwe zastosowania Podstawy (odległości, ). Przegląd algorytmów: k - średnich Hierarchiczne Rozszerzenia dla analizy danych o większych rozmiarach. Podsumowanie 25
3 Polish aspects in clustering Polish terminology: Cluster Analysis Analiza skupień, Grupowanie. Numerical taxonomy Metody taksonomiczne (ekonomia) Uwaga: znaczenie taksonomii w biologii może mieć inny kontest (podział systematyczny oparty o taksony). Cluster Skupienie, skupisko, grupa/klasa/pojęcie Nigdy nie mów: klaster, klastering, klastrowanie! History:
4 More on Polish History Jan Czekanowski ( ) - wybitny polski antropolog, etnograf, demograf i statystyk, profesor Uniwersytetu Lwowskiego ( ) oraz Uniwersytetu Poznańskiego ( ). Nowe odległości i metody przetwarzania macierzy odległości w algorytmach,, tzw. metoda Czekanowskiego. Kontynuacja Jerzy Fierich ( ) Kraków Hugo Steinhaus, (matematycy Lwów i Wrocław) Wrocławska szkoła taksonomiczna (metoda dendrytowa) Zdzisław Hellwig (Wrocław) wielowymiarowa analizą porównawcza, i inne Współczesnie Sekcja Klasyfikacji i Analizy Danych (SKAD) Polskiego Towarzystwa Statystycznego
5 Referencje do literatury (przykładowe) Koronacki J. Statystyczne systemy uczące się, WNT 25. Pociecha J., Podolec B., Sokołowski A., Zając K. Metody taksonomiczne w badaniach społeczno-ekonomicznych. PWN, Warszawa 1988, Stąpor K. Automatyczna klasyfikacja obiektów Akademicka Oficyna Wydawnicza EXIT, Warszawa 25. Hand, Mannila, Smyth, Eksploracja danych, WNT 25. Larose D: Odkrywania wiedzy z danych, PWN 26. Kucharczyk J. Algorytmy analizy skupień w języku ALGOL 6 PWN Warszawa, 1982, Materiały szkoleniowe firmy Statsoft.
6 Problem Statement Given a set of records, organize the records into clusters (classes) Clustering: the process of grouping physical or abstract objects into classes of similar objects
7 Przykłady zastosowań analizy skupień Zastosowania ekonomiczne: Identyfikacja grup klientów bankowych (np. właścicieli kart kredytowych wg. sposobu wykorzystania kart oraz stylu życia, danych osobowych, demograficznych) cele marketingowe. Systemy rekomendacji produktów i usług. Rynek usług ubezpieczeniowych (podobne grupy klientów). Analiza sieci sprzedaży (np. czy punkty sprzedaży podobne pod względem społecznego sąsiedztwa liczby personelu, itp., przynoszą podobne obroty). Poszukiwanie wspólnych rynków dla produktów. Planowanie, np. nieruchomości. Badania naukowe (biologia, medycyna, nauki społeczne). Analiza zachowań użytkowników serwisów WWW. Rozpoznawanie obrazów, dźwięku Wiele innych
8 Poszukiwanie zrozumiałych struktur w danych Ma ułatwiać odnalezienie pewnych spójnych podobszarów danych Lecz nadal wiele możliowości
9 Nadzorowane vs. nienadzorowane problemy
10 Ocena grupowania Inna niż w przypadku uczenia nadzorowanego (predykcji wartości) Poprawność grupowania zależna od oceny obserwatora / analityka Różne metody AS są skuteczne przy różnych rodzajach skupień i założeniach, co do danych: Co rozumie się przez skupienie, jaki ma kształt, dobór miary odległości sferyczne vs. inne Dla pewnych metod i zastosowań: Miary zmienności wewnątrz i między skupieniowych Idea zbiorów kategorii odniesienia (np.trec)
11 Oceny poprzez porównanie do zbioru referencyjnego (ground truth) Przykład tekstowy
12 Różne sposoby reprezentacji skupień (a) a d k g j h e i f c b (b) a d k g j h e i f c b (c) (d) a b c d e f g h g a c i e d k b j f h
13 Main Categories of Clustering Methods Partitioning algorithms: Construct various partitions and then evaluate them by some criterion. Hierarchy algorithms: Create a hierarchical decomposition of the set of data (or objects) using some criterion. Density-based: based on connectivity and density functions Grid-based: based on a multiple-level granularity structure Model-based: A model is hypothesized for each of the clusters and the idea is to find the best fit of that model to each other.
14 Jeszcze inny podział Za Jain s tutorial Ponadto: Crisp vs. Fuzzy Inceremental vs. batch
15 Partitioning Algorithms: Basic Concept Partitioning method: Construct a partition of a database D of n objects into a set of k clusters Given a k, find a partition of k clusters that optimizes the chosen partitioning criterion. Global optimal: exhaustively enumerate all partitions. Heuristic methods: k-means and k-medoids algorithms. k-means (MacQueen 67): Each cluster is represented by the center of the cluster k-medoids or PAM (Partition around medoids) (Kaufman & Rousseeuw 87): Each cluster is represented by one of the objects in the cluster.
16 Algorytmy podziałowo - optymalizacyjne Zadanie: Podzielenie zbioru obserwacji na K zbiorów elementów (skupień C), które są jak najbardziej jednorodne. Jednorodność funkcja oceny. Intuicja zmienność wewnątrzskupieniowa wc(c) i zmienność międzyskupieniowa bc(c) Możliwe są różne sposoby zdefiniowania Np. wybierzmy środki skupień r k (centroidy) Wtedy wc( C) = K k= 1 x C k d( x, r k 2 ) rk = 1 nk x C k x bc( C) = d( r, r 1 j< k K j k 2 )
17 Podstawowe algorytmy podziałowe Metoda K - średnich minimalizacja wc(c) Przeszukiwanie przestrzeni możliwych przypisań bardzo kosztowne (oszacowanie w ks. Koronackiego) Problem optymalizacji kombinatorycznej systematyczne przeszukiwanie metodą iteracyjnego udoskonalania: Rozpocznij od rozwiązania początkowego (losowego). Ponownie przypisz punkty do skupień tak, aby otrzymać największą zmianę w funkcji oceny. Przelicz zaktualizowane środki skupień, Postępuj aż do momentu, w którym nie ma już żadnych zmian w funkcji oceny lub w składzie grup. Zachłanne przeszukiwanie proste i prowadzi do co najmniej lokalnego minimum. Różne modyfikacje, np. rozpoczynania od kilku rozwiązań startowych Złożoność algorytmy K - średnich O(KnI)
18 Simple Clustering: K-means Basic version works with numeric data only 1) Pick a number (K) of cluster centers - centroids (at random) 2) Assign every item to its nearest cluster center (e.g. using Euclidean distance) 3) Move each cluster center to the mean of its assigned items 4) Repeat steps 2,3 until convergence (change in cluster assignments less than a threshold)
19 Przykład (z macierzą początkową) Zbiór danych: Początkowy przydział Przeliczenie centroidów Przeliczenie odległości Ponowny przydział do skupień: = = = = = x x x x x = = = = = x x x x x = B() = R() = (1) B = D(1)
20 Przykład cd. Przeliczenie centroidów Ponowny przydział do skupień: Warunek końcowy: B(2) = B(1) = R(1) = B(2) },, { x x x G = },, { x x x G = },,, { x x x x G =
21 K-means example, step 1 Y k 1 Pick 3 initial cluster centers (randomly) k 2 k 3 X
22 K-means example, step 2 Y k 1 Assign each point to the closest cluster center k 2 k 3 X
23 K-means example, step 3 Y k 1 k 1 Move each cluster center to the mean of each cluster k 2 k 2 k 3 k 3 X
24 K-means example, step 4 Reassign points Y closest to a different new cluster center Q: Which points are reassigned? k 1 k 2 k 3 X
25 K-means example, step 4 A: three points with animation Y k 2 k 1 k 3 X
26 K-means example, step 4b re-compute cluster means Y k 2 k 1 k 3 X
27 K-means example, step 5 k 1 Y move cluster centers to cluster means k 2 k 3 X
28 Discussion Result can vary significantly depending on initial choice of seeds Can get trapped in local minimum Example: initial cluster centers instances To increase chance of finding global optimum: restart with different random seeds
29 K-means clustering summary Advantages Simple, understandable items automatically assigned to clusters Disadvantages Must pick number of clusters before hand Often terminates at a local optimum. All items forced into a cluster Too sensitive to outliers
30 The K-Medoids Clustering Method Find representative objects, called medoids, in clusters To achieve this goal, only the definition of distance from any two objects is needed. PAM (Partitioning Around Medoids, 1987) starts from an initial set of medoids and iteratively replaces one of the medoids by one of the non-medoids if it improves the total distance of the resulting clustering. PAM works effectively for small data sets, but does not scale well for large data sets. CLARA (Kaufmann & Rousseeuw, 199) CLARANS (Ng & Han, 1994): Randomized sampling. Focusing + spatial data structure (Ester et al., 1995).
31 *Hierarchical clustering Bottom up (aglomerative) Start with single-instance clusters At each step, join the two closest clusters Design decision: distance between clusters e.g. two closest instances in clusters vs. distance between means Top down (divisive approach) Start with one universal cluster Find two clusters Proceed recursively on each subset Can be very fast Both methods produce a dendrogram g a c i e d k b j f h
32 Hierarchical Clustering Use distance matrix as clustering criteria. This method does not require the number of clusters k as an input, but needs a termination condition. The distance between clusters should also be chosen. Step Step 1 Step 2 Step 3 Step 4 a a b b a b c d e c c d e d d e e Step 4 Step 3 Step 2 Step 1 Step agglomerative (AGNES) divisive (DIANA)
33 Distance between Clusters Single linkage minimum distance: Complete linkage maximum distance: mean distance: average distance: dmin ( Ci, Cj) = min ' p p dmax ( Ci, Cj) = max ' p p p C, p C d ( C, C ) = m m mean i j i j d ( C C ) = 1/( nn ) p p ave i, j i j p C, p C i i j p C p C i j ' j ' ' ' m i is the mean for cluster C i n i is the number of points in C i
34 Problem doboru miary odległości / podobieństwa Nietrywialny i silnie wpływa na wynik Różne miary odległości
35 Single Link Example
36 Complete Link Example
37 Changing Linkage Methods Diagram dla 22 przyp. Pojedyncze wiązanie Odległości euklidesowe ACURA AUDI MERCEDES CHRYSLER DODGE VW HONDA PONTIAC SAAB VOLVO NISSAN BMW MITSUB. BUICK OLDS MAZDA TOYOTA CORVETTE FORD PORSCHE ISUZU EAGLE,,5 1, 1,5 2, 2,5 3, 3,5 4, 4,5 Odległość wiąz. ACURA OLDS CHRYSLER DODGE VW HONDA PONTIAC NISSAN MITSUB. AUDI MERCEDES BMW SAAB VOLVO BUICK MAZDA TOYOTA FORD CORVETTE PORSCHE EAGLE ISUZU Diagram dla 22 przyp. Metoda Warda Odległości euklidesowe Odległość wiąz.
38 Maning texts single linkage
39 Maning texts / complete linkage
40 Single vs. Complete Linkage A.Jain et al.: Data Clustering. A Review.
41 Single vs. complete linkage
42 Pamiętaj o doborze cech Za Jain s tutorial
43 Expectation-Maximization (EM) Log likelihood with a mixture model L ( ) ( t Φ X = log p x Φ) = t t log k i= 1 p ( t x G ) P( G ) i i Assume hidden variables z, which when known, make optimization much simpler Complete likelihood, L c (Φ X,Z), in terms of x and z Incomplete likelihood, L(Φ X), in terms of x
44 Jain zbiorcze porównanie
45 Algorytmy analizy skupień dla baz danych o wielkich rozmiarach Scalability Dealing with different types of attributes Discovery of clusters with arbitrary shape Minimal requirements for domain knowledge to determine input parameters Able to deal with noise and outliers Insensitive to order of input records High dimensionality Interpretability and usability.
46 Algorytm K-Medoids Znajdź medoidy - obiekty reprezentujące skupienia Wykorzystuje się odległości par obiektów. PAM (Partitioning Around Medoids, 1987) Zacznij od początkowego zbioru medoidów i krokowo zamieniaj jeden z obiektów - medoidów przez obiekt, nie będący aktulanie medoidem, jeśli to polepsza całkowitą odległość skupień. PAM efektywny dla małych zbiorów, lecz nieskalowalny dla dużych zbiorów przykładów. CLARA (Kaufmann & Rousseeuw, 199) CLARANS (Ng & Han, 1994): Randomized sampling.
47 Metody hierarchiczne dla dużych zbiorów danych Niektóre z ograniczeń metod aglomeracyjnych: słaba skalowalność: złożoność czasowa przynajmniej O(n 2 ), gdzie n jest liczbą obiektów, krytyczne znaczenie decyzji o wyborze punktu połączenia kolejnych skupień w trakcie budowania drzewa hierarchii, algorytmy nie zmieniają, ani nie poprawiają, wcześniej podjętych decyzji. Rozwinięcia algorytmów hierarchicznych oraz ich integracja z metodami gęstościowymi: BIRCH (1996): użycie drzew CF-tree, uczenie przyrostowe i stopniowa poprawa jakości pod-skupień. CURE (1998): wybór losowy odpowiednio rozproszonych punktów, wstępne grupowanie z określeniem ich punktów reprezentatywnych, łączenie grup w nowe skupienia wraz z przesuwaniem punktów reprezentatywnych w stronę środków tworzonego skupienia zgodnie z shrinking factor α ; eliminacja wpływu outliners.
48 BIRCH ang. Balanced Iterative Reducing and Clustering using Hierarchies Zhang et al. (1996) Wykorzystuje hierarchiczne drzewo CF (Clustering Feature) Działanie algorytmu: Faza 1: przyrostowo przeczytaj raz DB w celu zbudowania w pamięci początkowej struktury drzewa CF (rodzaj wielopoziomowej kompresji danych zachowującej wewnętrzną strukturę zgrupowań danych). Faza 2: zastosuj wybrany (inny) algorytm skupień dla lepszego pogrupowania obiektów w liściach drzewa CF. Dobra skalowalność: znajduje zadawalające grupowanie po jednokrotnym przeczytaniu bazy danych i ulepsza je wykorzystując niedużo dodatkowych operacji odczytu DB. Ograniczenia: zaproponowany dla danych liczbowych, wrażliwość wyników na kolejność prezentacji przykładów.
49 BIRCH - Clustering Feature Vector Clustering Feature: CF = (N, LS, SS) N: liczba grupowanych obiektów LS: N i=1=x i SS: N i=1=x i 2 CF = (5, (16,3),(54,19)) (3,4) (2,6) (4,5) (4,7) (3,8)
50 CF Tree B = 7 L = 6 CF 1 CF 2 Root child 1 child 2 child 3 child 6 CF 3 CF 6 CF 1 CF 2 Non-leaf node child 1 child 2 child 3 child 5 CF 3 CF 5 Leaf node Leaf node prev CF 1 CF 2 CF 6 next prev CF 1 CF 2 CF 4 next
51 Wstawianie elementów do drzewa CF Parametery drzewa CF: Branching factor B max. liczba potomków w węźle (non-leaf node), Threshold T max. średnica podskupienia skojarzonego z liściem drzewa. Kolejno wczytywany obiekt przydziel do najbliższego podskupienia (leaf entry) zgodnie z wybraną miarą odległości Dokonaj modyfikacji liści jeśli średnica liścia > T, to dokonaj podziału (być może także inne liście powinny być podzielone) Dokonaj modyfikacji ścieżki do liścia Uaktualnij wektory CF w węzłach drzewa. Dokonaj podziału węzłów jeśli to konieczne. Jeżeli rozmiar drzewa CF jest zbyt duży w stosunku do dostępnej pamięci operacyjnej, dokonuje się modyfikacji parametrów algorytmu.
52 BIRCH: dalsze szczegóły algorytmu 1: Utwórz drzewo CF w pamięci operacyjnej przeczytaj przyrostowo DB i buduj początkową strukturę drzew 2: (Opcjonalnie) Dokonaj kompresji poprzez budowę mniejszego drzewa CF zmieniając zakres parametrów przejrzyj leaf entries w początkowym drzewie CF w celu zbudowania mniejszego drzewa. 3: Globalne grupowanie grupuj wykorzystując leaf entries drzewa 4: (opcjonalne, off line ) Ulepszanie struktury skupień Użyj centroidów z etapu 3, rozdzielając obiekty Complexity: O(N) czy O(N 2 )?
53 Metody gęstościowe Podstawowe metody wykorzystują miary odległości między obiektami Inne metody wykorzystują pojęcie gęstości (ang. density) lokalne sąsiedztwo punktu/skupienia, a także gęsto połączonych punktów Właściwości metod gęstościowych: Wykrywanie skupień o dowolnych kształtach (niesferycznych) Odporność na szum informacyjny Jednokrotne przeglądanie DB Potrzebna parametryzacja oceny gęstości i warunków zatrzymania Interesujące algorytmy: DBSCAN: Ester, et al. (KDD 96) OPTICS: Ankerst, et al (SIGMOD 99). DENCLUE: Hinneburg & D. Keim (KDD 98) CLIQUE: Agrawal, et al. (SIGMOD 98)
54 DBSCAN: Algorytm gęstościowy DBSCAN: Density Based Spatial Clustering of Applications with Noise. Wykorzystuje pojęcie density-based cluster : Skupienie będące maksymalnym zbiorem punktów gęsto połączonych density-connected points. Poszukuje się zgrupowań odpowiednio gęsto (blisko siebie) położonych obiektów (dense regions/clusters) odzielonych od siebie obszarami o niskiej gęstości ( noise ) Możliwość wykrywania skupień o dowolnym kształcie w obecności szumu informacyjnego
55 Bardziej nieregularne kształty
56 DBSCAN: Podstawowe pojęcia Parametry: Eps: Maksymalny promień sąsiedztwa MinPts: minimalna liczba punktów (obiektów) w Eps-sąsiedztwie badanego punktu N Eps (p): {punkt q należy do D dist(p,q) <= Eps} Directly density-reachable: A point p is directly densityreachable from a point q wrt. Eps, MinPts if 1) p belongs to N Eps (q) 2) core point condition: N Eps (q) >= MinPts q p MinPts = 5 Eps = 1 cm
57 DBSCAN: Podstawowe pojęcia (II) Density-reachable: A point p is density-reachable from a point q wrt. Eps, MinPts if there is a chain of points p 1,, p n, p 1 = q, p n = p such that p i+1 is directly density-reachable from p i q p 1 p Density-connected A point p is density-connected to a point q wrt. Eps, MinPts if there is a point o such that both, p and q are density-reachable from o wrt. Eps and MinPts. p o q
58 DBSCAN: jak poszukuje skupień? Outlier Border Core Eps = 1cm MinPts = 5
59 DBSCAN: Zarys algorytmu Wybierz punkt startowy p Odnajdź wszystkie punkty do gęstościowego osiągnięcia z p (density-reachable from p wrt Eps and MinPts). Jeśli p jest rdzeniem (core point), utwórz skupienie. Jeśli p jest punktem granicznym (border point) i żadne punkty nie są z niego gęstościowo osiągalne, DBSCAN wybiera następny punkt z bazy danych Proces jest konytuowany dopóki żaden nowy punkt nie może być dodany to dowolnego skupienia. Złożoność: O(nlog n) w przypadku użycia specjalnego spatial index, w przeciwnym razie O(n 2 ).
60 Soft Clustering Clustering typically assumes that each instance is given a hard assignment to exactly one cluster. Does not allow uncertainty in class membership or for an instance to belong to more than one cluster. Soft clustering gives probabilities that an instance belongs to each of a set of clusters. Each instance is assigned a probability distribution across a set of discovered categories (probabilities of all categories must sum to 1). d e a k g j h i f c b
61 Expectation Maximization (EM Algorithm) Probabilistic method for soft clustering. Direct method that assumes k clusters:{c 1, c 2, c k } Soft version of k-means. Assumes a probabilistic model of categories that allows computing P(c i E) for each category, c i, for a given example, E. For text, typically assume a naïve-bayes category model. Parameters θ = {P(c i ), P(w j c i ): i {1, k}, j {1,, V }}
62 Model-Based Clustering Methods Attempt to optimize the fit between the data and some mathematical model Statistical and AI approach Conceptual clustering A form of clustering in machine learning Produces a classification scheme for a set of unlabeled objects Finds characteristic description for each concept (class) COBWEB (Fisher 87) A popular a simple method of incremental conceptual learning Creates a hierarchical clustering in the form of a classification tree Each node refers to a concept and contains a probabilistic description of that concept
63 COBWEB Clustering Method A classification tree
64 *Incremental clustering (COBWEB based) Heuristic approach (COBWEB/CLASSIT) Form a hierarchy of clusters incrementally Start: tree consists of empty root node Then: add instances one by one update tree appropriately at each stage to update, find the right leaf for an instance May involve restructuring the tree Base update decisions on category utility
65 World countries data Kraj C1 C2 C3 C4 C5 C6 C7 C8 C9 Afganistan M AP S N N N N N S Argentyna K AL. U N S W W W N Armenia O SW SM S S W W W N Australia P OECD S N S W W W N Austria K OECD U N W W W W N Azerbejdżan M SW S N W W W W N Belgia K OCED U W S W W W N Białoruś O EW U N W W S S N Boliwia K A SM N W S S S S
66 COBWB results Selected classes K1: Rosja, Portugalia, Polska, Litwa, Łotwa, Węgry, Grecja, Gruzja, Estonia, Czechy, Chorwacja K2: USA, Szwajcaria, Hiszpania, Norwegia, Holandia, Włochy, Irlandia, Niemcy, Francja, Dania, Belgia, Austria K3: Szwecja, Korea Płd., Nowa Zelandia, Finlandia, Kanada, Australia, Islandia... K17: Somalia, Gambia, Etiopia, Kambodża K18: Uganda, Tanzania, Ruanda, Haiti, Burundi... K1 K2 K3 K4 K5 K6 K7 K8 K9 K1 K11 K12 K13 K14 K15 K16 K17 K18 K19
67 Other Model-Based Clustering Methods Neural network approaches Represent each cluster as an exemplar, acting as a prototype of the cluster New objects are distributed to the cluster whose exemplar is the most similar according to some dostance measure Competitive learning (Kohonen, SOM) Involves a hierarchical architecture of several units (neurons) Neurons compete in a winner-takes-all fashion for the object currently being presented
68 Self-Organizing Feature Map (SOM) SOMs, also called topological ordered maps, or Kohonen Self- Organizing Feature Map (KSOMs) It maps all the points in a high-dimensional source space into a 2 to 3-d target space, s.t., the distance and proximity relationship (i.e., topology) are preserved as much as possible Similar to k-means: cluster centers tend to lie in a low-dimensional manifold in the feature space Clustering is performed by having several units competing for the current object The unit whose weight vector is closest to the current object wins The winner and its neighbors learn by having their weights adjusted SOMs are believed to resemble processing that can occur in the brain Useful for visualizing high-dimensional data in 2- or 3-D space
69 Self-Organizing Maps - more Data: vectors X T = (X 1,... X d ) from d-dimensional space. Grid of nodes, with local processor (called neuron) in each node. Local processor # j has d adaptive parameters W (j). Goal: change W (j) parameters to recover data clusters in X space.
70 An example of analysing olive oil in Italy An example of SOM application: 572 samples of olive oil were collected from 9 Italian provinces. Content of 8 fats was determine for each oil. SOM 2 x 2 network, Maps 8D => 2D. Classification accuracy was around 95-97%. Note that topographical relations are preserved, region 3 is most diverse.
71 Quality of life data WorldBank data 1992, 39 quality of life indicators. SOM map and the same colors on the world map. More examples of business applications from
72 Clustering High-Dimensional Data Clustering high-dimensional data Many applications: text documents, DNA micro-array data Major challenges: Many irrelevant dimensions may mask clusters Distance measure becomes meaningless due to equi-distance Clusters may exist only in some subspaces Methods Feature transformation: only effective if most dimensions are relevant PCA & SVD useful only when features are highly correlated/redundant Feature selection: wrapper or filter approaches useful to find a subspace where the data have nice clusters Subspace-clustering: find clusters in all the possible subspaces CLIQUE, ProClus, and frequent pattern-based clustering
73 Clustering Evaluation Manual inspection Benchmarking on existing labels Comparing clusters with ground-truth categories Cluster quality measures distance measures high similarity within a cluster, low across clusters
74 Could we analyse an objective single measure? Some opinions
75 Dopowiedzieć miary zmienności Homogenuous clusters. Intuition zmienność wewnątrzskupieniowa wc(c) i zmienność międzyskupieniowa bc(c) May be defined in many ways Take average of clusters r k (centroids) Then wc( C) = K k= 1 x C k 1 j< k K d( x, r bc( C) = d( r, r j k 2 ) k 2 ) r k = 1 n k x Ck x
76 Measure of Clustering Accuracy Accuracy Measured by manually labeled data We manually assign tuples into clusters according to their properties (e.g., professors in different research areas) Accuracy of clustering: Percentage of pairs of tuples in the same cluster that share common label This measure favors many small clusters We let each approach generate the same number of clusters
77 Analiza skupień - podsumowanie Liczne i ważne zastosowanie praktyczne analizy skupień (AS). AS używana samodzielnie w zgłębianiu danych, lub jako jedno z narzędzi podczas wstępnego przetwarzania w procesie KDD. Jakość skupień i działanie wielu algorytmów związane są określeniem miary odległości obiektów. Podstawowe klasy metod: hierarchiczne, podziałowo/optymalizacyjne, gęstościowe, grid-based, wykorzystujące modele matematyczne (np. probabilistyczne lub neuronowe). Ważne zagadnienie to także wykrywanie obiektów nietypowych (outliers discovery).
78 Problemy i wyzwania Znaczący postęp w zakresie skalowalnych algorytmów: Partitioning: k-means, k-medoids, CLARANS Hierarchical: BIRCH, CURE Density-based: DBSCAN, CLIQUE, OPTICS Grid-based: STING, WaveCluster. Model-based: Autoclass, Denclue, Cobweb. Obecne techniki ciągle nie spełniają wystarczająco dobrze stawianych wymagań. Otwarte problemy i wyzwania badawcze; zwłaszcza dla nietypowych i żłożonych danych.
79 Clustering in Data Mining przegląd
80 Exercise: Clustering in Statsoft -Statistica
81 Analiza Skupień Statistica; więcej na Przykład analizy danych o parametrach samochodów
82
83 Dendrogram for Single Linkage ACURA AUDI MERCEDES CHRYSLER DODGE VW HONDA PONTIAC SAAB VOLVO NISSAN BMW MITSUB. BUICK OLDS MAZDA TOYOTA CORVETTE FORD PORSCHE ISUZU EAGLE Diagram dla 22 przyp. Pojedyncze wiązanie Odległości euklidesowe,,5 1, 1,5 2, 2,5 3, 3,5 4, 4,5 Odległość wiąz.
84
85 Analysing Agglomeration Steps Figure find a cut point ( kolanko / knee) 5, Wykres odległości wiązania względem etapów wiązania Odległości euklidesowe 4,5 4, 3,5 Odległość wiązan 3, 2,5 2, 1,5 1,,5, Wiązania Odległ. Etap
86 Analiza Skupień optymalizacja k-średnich
87 Profile - visulization
88 Exercise: Clustering in WEKA
89 Exercise: Clustering in WEKA
90 WEKA Clustering Implemented methods k-means EM Cobweb X-means FarthestFirst Clusters can be visualized and compared to true clusters (if given)
91 Exercise 1. K-means clustering in WEKA The exercise illustrates the use of the k-means algorithm. The example sample of customers of the bank Bank data (bank-data.cvs -> bank.arff) All preprocessing has been performed on cvs 6 instances described by 11 attributes id,age,sex,region,income,married,children,car,save_act,current_act,mortgage,pep ID1211,48,FEMALE,INNER_CITY,17546.,NO,1,NO,NO,NO,NO,YES ID1212,4,MALE,TOWN,385.1,YES,3,YES,NO,YES,YES,NO ID1213,51,FEMALE,INNER_CITY, ,YES,,YES,YES,YES,NO,NO ID1214,23,FEMALE,TOWN,2375.4,YES,3,NO,NO,YES,NO,NO ID1215,57,FEMALE,RURAL,5576.3,YES,,NO,YES,NO,NO,NO... Cluster customers and characterize the resulting customer segments
92 Loading the file and analysing the data
93 Preprocessing for clustering What about non-numerical attributes? Remember about Filters Should we normalize or standarize attributes? How it is handled in WEKA k-means?
94 Choosing Simple k-means Tune proper parameters
95 Clustering results Analyse the result window
96 Characterizing cluster How to describe clusters? What about descriptive statistics for centroids?
97 Understanding the cluster characterization through visualization
98 Finally, cluster assignments
99 Różne nietypowe zastosowanie AS
100 Grupowanie opisów stron Komercyjne Vivisimo / Clusty Otwarte Carrot D.Weiss (S.Osinski + JS)
101 Projekt Open source Carrot 2
102 Web Search Result Clustering Carrot2
103 Specific data mining applications
104 Time-Series Similarities specific data mining Given a database of time-series. Group similar time-series time time Investor Fund A Investor Fund B
Analiza Skupień - Grupowanie Zaawansowana Eksploracja Danych
Analiza Skupień - Grupowanie Zaawansowana Eksploracja Danych JERZY STEFANOWSKI Inst. Informatyki PP Wersja dla TPD 2013 Część II Organizacja wykładu Przypomnienie wyboru liczby skupień Studium przypadku
CLUSTERING II. Efektywne metody grupowania danych
CLUSTERING II Efektywne metody grupowania danych Plan wykładu Wstęp: Motywacja i zastosowania Metody grupowania danych Algorytmy oparte na podziałach (partitioning algorithms) PAM Ulepszanie: CLARA, CLARANS
Hard-Margin Support Vector Machines
Hard-Margin Support Vector Machines aaacaxicbzdlssnafiyn9vbjlepk3ay2gicupasvu4iblxuaw2hjmuwn7ddjjmxm1bkcg1/fjqsvt76fo9/gazqfvn8y+pjpozw5vx8zkpvtfxmlhcwl5zxyqrm2vrg5zw3vxmsoezi4ogkr6phieky5crvvjhriqvdom9l2xxftevuwcekj3lktmhghgniauiyutvrwxtvme34a77kbvg73gtygpjsrfati1+xc8c84bvraowbf+uwnipyehcvmkjrdx46vlykhkgykm3ujjdhcyzqkxy0chur6ax5cbg+1m4bbjptjcubuz4kuhvjoql93hkin5hxtav5x6yyqopnsyuneey5ni4keqrxbar5wqaxbik00icyo/iveiyqqvjo1u4fgzj/8f9x67bzmxnurjzmijtlybwfgcdjgfdtajwgcf2dwaj7ac3g1ho1n4814n7wwjgjmf/ys8fenfycuzq==
Analiza Skupień - Grupowanie Zaawansowana Eksploracja Danych. JERZY STEFANOWSKI Inst. Informatyki PP Wersja dla TPD 2009
Analiza Skupień - Grupowanie Zaawansowana Eksploracja Danych JERZY STEFANOWSKI Inst. Informatyki PP Wersja dla TPD 29 Poprawiona 22 Organizacja wykładu Wprowadzenie i możliwe zastosowania Podstawy (odległości,
Analiza Skupień - Grupowanie Zaawansowana Eksploracja Danych
Analiza Skupień - Grupowanie Zaawansowana Eksploracja Danych JERZY STEFANOWSKI Inst. Informatyki PP Wersja dla TPD 2009, Aktualizacja 2010 Email: Jerzy.Stefanowski@cs.put.poznan.pl Elementy terminologiczne
Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
Machine Learning for Data Science (CS4786) Lecture11. Random Projections & Canonical Correlation Analysis
Machine Learning for Data Science (CS4786) Lecture11 5 Random Projections & Canonical Correlation Analysis The Tall, THE FAT AND THE UGLY n X d The Tall, THE FAT AND THE UGLY d X > n X d n = n d d The
Linear Classification and Logistic Regression. Pascal Fua IC-CVLab
Linear Classification and Logistic Regression Pascal Fua IC-CVLab 1 aaagcxicbdtdbtmwfafwdgxlhk8orha31ibqycvkdgpshdqxtwotng2pxtvqujmok1qlky5xllzrnobbediegwcap4votk2kqkf+/y/tnphdschtadu/giv3vtea99cfma8fpx7ytlxx7ckns4sylo3doom7jguhj1hxchmy/irhrlgh67lxb5x3blis8jjqynmedqujiu5zsqqagrx+yjcfpcrydusshmzeluzsg7tttiew5khhcuzm5rv0gn1unw6zl3gbzlpr3liwncyr6aaqinx4wnc/rpg6ix5szd86agoftuu0g/krjxdarph62enthdey3zn/+mi5zknou2ap+tclvhob9sxhwvhaqketnde7geqjp21zvjsfrcnkfhtejoz23vq97elxjlpbtmxpl6qxtl1sgfv1ptpy/yq9mgacrzkgje0hjj2rq7vtywnishnnkzsqekucnlblrarlh8x8szxolrrxkb8n6o4kmo/e7siisnozcfvsedlol60a/j8nmul/gby8mmssrfr2it8lkyxr9dirxxngzthtbaejv
Plan wykładów. Co to jest analiza skupień i grupowanie Zastosowania Podział algorytmów Szczegóły:
Analiza skupień JERZY STEFANOWSKI Institute of Computing Sciences Poznan University of Technology Poznan Wersja dla TWO 29 Hurtownie i eksploracja danych Popraw. 2 Plan wykładów Co to jest analiza skupień
CLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 9: Inference in Structured Prediction
TTIC 31210: Advanced Natural Language Processing Kevin Gimpel Spring 2019 Lecture 9: Inference in Structured Prediction 1 intro (1 lecture) Roadmap deep learning for NLP (5 lectures) structured prediction
Rozpoznawanie twarzy metodą PCA Michał Bereta 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów
Rozpoznawanie twarzy metodą PCA Michał Bereta www.michalbereta.pl 1. Testowanie statystycznej istotności różnic między jakością klasyfikatorów Wiemy, że możemy porównywad klasyfikatory np. za pomocą kroswalidacji.
Machine Learning for Data Science (CS4786) Lecture 11. Spectral Embedding + Clustering
Machine Learning for Data Science (CS4786) Lecture 11 Spectral Embedding + Clustering MOTIVATING EXAMPLE What can you say from this network? MOTIVATING EXAMPLE How about now? THOUGHT EXPERIMENT For each
Zarządzanie sieciami telekomunikacyjnymi
SNMP Protocol The Simple Network Management Protocol (SNMP) is an application layer protocol that facilitates the exchange of management information between network devices. It is part of the Transmission
Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska
Michał Kozielski Łukasz Warchał Instytut Informatyki, Politechnika Śląska Algorytm DBSCAN Algorytm OPTICS Analiza gęstego sąsiedztwa w grafie Wstępne eksperymenty Podsumowanie Algorytm DBSCAN Analiza gęstości
Tychy, plan miasta: Skala 1: (Polish Edition)
Tychy, plan miasta: Skala 1:20 000 (Polish Edition) Poland) Przedsiebiorstwo Geodezyjno-Kartograficzne (Katowice Click here if your download doesn"t start automatically Tychy, plan miasta: Skala 1:20 000
Zagadnienie klasyfikacji (dyskryminacji)
Zagadnienie klasyfikacji (dyskryminacji) Przykład Bank chce klasyfikować klientów starających się o pożyczkę do jednej z dwóch grup: niskiego ryzyka (spłacających pożyczki terminowo) lub wysokiego ryzyka
MS Visual Studio 2005 Team Suite - Performance Tool
MS Visual Studio 2005 Team Suite - Performance Tool przygotował: Krzysztof Jurczuk Politechnika Białostocka Wydział Informatyki Katedra Oprogramowania ul. Wiejska 45A 15-351 Białystok Streszczenie: Dokument
Sieci samoorganizujące się na zasadzie współzawodnictwa
Sieci samoorganizujące się na zasadzie współzawodnictwa JERZY STEFANOWSKI Instytut Informatyki Politechnika Poznańska Plan 1. Wprowadzenie 2. Wykrywanie grup sieci LVQ 3. Reguły uczenia się konkurencyjnego
ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL
Read Online and Download Ebook ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA JEZYKOWA) BY DOUGLAS KENT HALL DOWNLOAD EBOOK : ARNOLD. EDUKACJA KULTURYSTY (POLSKA WERSJA Click link bellow and free register
Zakopane, plan miasta: Skala ok. 1: = City map (Polish Edition)
Zakopane, plan miasta: Skala ok. 1:15 000 = City map (Polish Edition) Click here if your download doesn"t start automatically Zakopane, plan miasta: Skala ok. 1:15 000 = City map (Polish Edition) Zakopane,
TTIC 31210: Advanced Natural Language Processing. Kevin Gimpel Spring Lecture 8: Structured PredicCon 2
TTIC 31210: Advanced Natural Language Processing Kevin Gimpel Spring 2019 Lecture 8: Structured PredicCon 2 1 Roadmap intro (1 lecture) deep learning for NLP (5 lectures) structured predic+on (4 lectures)
Machine Learning for Data Science (CS4786) Lecture 24. Differential Privacy and Re-useable Holdout
Machine Learning for Data Science (CS4786) Lecture 24 Differential Privacy and Re-useable Holdout Defining Privacy Defining Privacy Dataset + Defining Privacy Dataset + Learning Algorithm Distribution
Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska
Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition) Robert Respondowski Click here if your download doesn"t start automatically Wojewodztwo Koszalinskie:
Network Services for Spatial Data in European Geo-Portals and their Compliance with ISO and OGC Standards
INSPIRE Conference 2010 INSPIRE as a Framework for Cooperation Network Services for Spatial Data in European Geo-Portals and their Compliance with ISO and OGC Standards Elżbieta Bielecka Agnieszka Zwirowicz
MATLAB Neural Network Toolbox przegląd
MATLAB Neural Network Toolbox przegląd WYKŁAD Piotr Ciskowski Neural Network Toolbox: Neural Network Toolbox - zastosowania: przykłady zastosowań sieci neuronowych: The 1988 DARPA Neural Network Study
Helena Boguta, klasa 8W, rok szkolny 2018/2019
Poniższy zbiór zadań został wykonany w ramach projektu Mazowiecki program stypendialny dla uczniów szczególnie uzdolnionych - najlepsza inwestycja w człowieka w roku szkolnym 2018/2019. Składają się na
Wprowadzenie do technologii informacyjnej.
Wprowadzenie do technologii informacyjnej. Data mining i jego biznesowe zastosowania dr Tomasz Jach Definicje Eksploracja danych polega na torturowaniu danych tak długo, aż zaczną zeznawać. Eksploracja
Wprowadzenie do programu RapidMiner, część 5 Michał Bereta
Wprowadzenie do programu RapidMiner, część 5 Michał Bereta www.michalbereta.pl 1. Przekształcenia atrybutów (ang. attribute reduction / transformation, feature extraction). Zamiast wybierad częśd atrybutów
Revenue Maximization. Sept. 25, 2018
Revenue Maximization Sept. 25, 2018 Goal So Far: Ideal Auctions Dominant-Strategy Incentive Compatible (DSIC) b i = v i is a dominant strategy u i 0 x is welfare-maximizing x and p run in polynomial time
Gradient Coding using the Stochastic Block Model
Gradient Coding using the Stochastic Block Model Zachary Charles (UW-Madison) Joint work with Dimitris Papailiopoulos (UW-Madison) aaacaxicbvdlssnafj3uv62vqbvbzwarxjsqikaboelgzux7gcaeywtsdp1mwsxeaepd+ctuxcji1r9w5984bbpq1gmxdufcy733bcmjutn2t1fawl5zxsuvvzy2t7z3zn29lkwyguktjywrnqbjwigntuuvi51uebqhjlsdwfxebz8qiwnc79uwjv6mepxgfcoljd88uiox0m1hvlnzwzgowymjn7tjyzertmvpareju5aqkndwzs83thawe64wq1j2httvxo6eopirccxnjekrhqae6wrkuuykl08/gmnjryqwsoqurubu/t2ro1jkyrzozhipvpz3juj/xjdt0ywxu55mina8wxrldkoetukairuekzbubgfb9a0q95fawonqkjoez/7lrdi6trzbcm7pqvwrio4yoarh4aq44bzuwq1ogcba4be8g1fwzjwzl8a78tfrlrnfzd74a+pzb2h+lzm=
DBSCAN segmentacja danych punktowych oraz rastrowych w środowisku wolnodostępnego oprogramowania R
DBSCAN segmentacja danych punktowych oraz rastrowych w środowisku wolnodostępnego oprogramowania R Mgr inż. Agnieszka Ochałek Narzędzia informatyczne w badaniach naukowych Wydział Geodezji Górniczej i
Proposal of thesis topic for mgr in. (MSE) programme in Telecommunications and Computer Science
Proposal of thesis topic for mgr in (MSE) programme 1 Topic: Monte Carlo Method used for a prognosis of a selected technological process 2 Supervisor: Dr in Małgorzata Langer 3 Auxiliary supervisor: 4
deep learning for NLP (5 lectures)
TTIC 31210: Advanced Natural Language Processing Kevin Gimpel Spring 2019 Lecture 6: Finish Transformers; Sequence- to- Sequence Modeling and AJenKon 1 Roadmap intro (1 lecture) deep learning for NLP (5
CLUSTERING METODY GRUPOWANIA DANYCH
CLUSTERING METODY GRUPOWANIA DANYCH Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
Presented by. Dr. Morten Middelfart, CTO
Meeting Big Data challenges in Leadership with Human-Computer Synergy. Presented by Dr. Morten Middelfart, CTO Big Data Data that exists in such large amounts or in such unstructured form that it is difficult
Latent Dirichlet Allocation Models and their Evaluation IT for Practice 2016
Latent Dirichlet Allocation Models and their Evaluation IT for Practice 2016 Paweł Lula Cracow University of Economics, Poland pawel.lula@uek.krakow.pl Latent Dirichlet Allocation (LDA) Documents Latent
MaPlan Sp. z O.O. Click here if your download doesn"t start automatically
Mierzeja Wislana, mapa turystyczna 1:50 000: Mikoszewo, Jantar, Stegna, Sztutowo, Katy Rybackie, Przebrno, Krynica Morska, Piaski, Frombork =... = Carte touristique (Polish Edition) MaPlan Sp. z O.O Click
Supervised Hierarchical Clustering with Exponential Linkage. Nishant Yadav
Supervised Hierarchical Clustering with Exponential Linage Nishant Yadav Ari Kobren Nicholas Monath Andrew McCallum At train time, learn A :2 X! Y Supervised Clustering aaab8nicbvdlssnafl2pr1pfvzdugvwvrirdfl147kcfuabymq6aydozslmjvbcp8onc0xc+jxu/bsnbrbaemdgcm69zlntaq36hnftmltfwnzq7xd2dnd2z+ohh61juo1zs2qhnldbgmugqt5chyn9gmxkfgnxbyl/udj6ynv/irpwlyjkspokuojv6/zjgmbkr3cwg1zpx9+zwv4lfbouaa6qx/2homnmjfjbjon5xojbrjryktis08nswidbhrwspjzeyqzspp3dordn1iafsunp190zgymomcwgn84hm2cvf/7xeitf1hgzpmgxxwupcjf5eb3u0ouguuxtyrqzw1wl46jjhrtsxvbgr988ippx9r9yx8ua43boo4ynmapnimpv9cae2hccygoeizxehpqexheny/fampdo7hd5zph3bqvc=
Instructions for student teams
The EduGIS Academy Use of ICT and GIS in teaching of the biology and geography subjects and environmental education (junior high-school and high school level) Instructions for student teams Additional
SubVersion. Piotr Mikulski. SubVersion. P. Mikulski. Co to jest subversion? Zalety SubVersion. Wady SubVersion. Inne różnice SubVersion i CVS
Piotr Mikulski 2006 Subversion is a free/open-source version control system. That is, Subversion manages files and directories over time. A tree of files is placed into a central repository. The repository
utrzymania swoich obecnych klientów i dowiedzia la sie, że metody data mining moga
Imiȩ i nazwisko: Nr indeksu: Egzamin z Wyk ladu Monograficznego p.t. DATA MINING 1. (6 pkt.) Firma X jest dostawca us lug po l aczeń bezprzewodowych (wireless) w USA, która ma 34.6 milionów klientów. Firma
tum.de/fall2018/ in2357
https://piazza.com/ tum.de/fall2018/ in2357 Prof. Daniel Cremers From to Classification Categories of Learning (Rep.) Learning Unsupervised Learning clustering, density estimation Supervised Learning learning
Dolny Slask 1: , mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition)
Dolny Slask 1:300 000, mapa turystycznosamochodowa: Plan Wroclawia (Polish Edition) Click here if your download doesn"t start automatically Dolny Slask 1:300 000, mapa turystyczno-samochodowa: Plan Wroclawia
Previously on CSCI 4622
More Naïve Bayes aaace3icbvfba9rafj7ew423vr998obg2gpzkojyh4rcx3ys4lafzbjmjifdototmhoilml+hf/mn3+kl+jkdwtr64gbj+8yl2/ywklhsfircg/dvnp33s796mhdr4+fdj4+o3fvywvorkuqe5zzh0oanjakhwe1ra5zhaf5xvgvn35f62rlvtcyxpnm50awundy1hzwi46jbmgprbtrrvidrg4jre4g07kak+picee6xfgiwvfaltorirucni64eeigkqhpegbwaxglabftpyq4gjbls/hw2ci7tr2xj5ddfmfzwtazj6ubmyddgchbzpf88dmrktfonct6vazputos5zakunhfweow5ukcn+puq8m1ulm7kq+d154pokysx4zgxw4nwq6dw+rcozwnhbuu9et/tgld5cgslazuci1yh1q2ynca/u9ais0kukspulds3xxegvtyfycu8iwk1598e0z2xx/g6ef94ehbpo0d9ok9yiowsvfskh1ix2zcbpsdvaxgww7wj4zdn+he2hogm8xz9s+e7/4cuf/ata==
SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1. Fry #65, Zeno #67. like
SSW1.1, HFW Fry #20, Zeno #25 Benchmark: Qtr.1 I SSW1.1, HFW Fry #65, Zeno #67 Benchmark: Qtr.1 like SSW1.2, HFW Fry #47, Zeno #59 Benchmark: Qtr.1 do SSW1.2, HFW Fry #5, Zeno #4 Benchmark: Qtr.1 to SSW1.2,
Analiza skupień (Cluster analysis)
Analiza skupień (Cluster analysis) Analiza skupień jest to podział zbioru obserwacji na podzbiory (tzw. klastry) tak, że obiekty (obserwacje) w tym samym klastrze były podobne (w pewnym sensie). Jest to
Katowice, plan miasta: Skala 1: = City map = Stadtplan (Polish Edition)
Katowice, plan miasta: Skala 1:20 000 = City map = Stadtplan (Polish Edition) Polskie Przedsiebiorstwo Wydawnictw Kartograficznych im. Eugeniusza Romera Click here if your download doesn"t start automatically
Analiza Sieci Społecznych Pajek
Analiza Sieci Społecznych Pajek Dominik Batorski Instytut Socjologii UW 25 marca 2005 1 Wprowadzenie Regularności we wzorach relacji często są nazywane strukturą. Analiza sieci społecznych jest zbiorem
1945 (96,1%) backlinks currently link back. 1505 (74,4%) links bear full SEO value. 0 links are set up using embedded object
Website Backlinks Analysis Report 2023 backlinks from 224 domains Report created: Jan 3, 2015 Website: http://wpisz.stronę.odbiorcy Compared with: 7 day(s) old Domain Statistics The domain seo.zgred.pl
Testy jednostkowe - zastosowanie oprogramowania JUNIT 4.0 Zofia Kruczkiewicz
Testy jednostkowe - zastosowanie oprogramowania JUNIT 4.0 http://www.junit.org/ Zofia Kruczkiewicz 1. Aby utworzyć test dla jednej klasy, należy kliknąć prawym przyciskiem myszy w oknie Projects na wybraną
Wprowadzenie do programu RapidMiner, część 2 Michał Bereta 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów
Wprowadzenie do programu RapidMiner, część 2 Michał Bereta www.michalbereta.pl 1. Wykorzystanie wykresu ROC do porównania modeli klasyfikatorów Zaimportuj dane pima-indians-diabetes.csv. (Baza danych poświęcona
Configuring and Testing Your Network
Configuring and Testing Your Network Network Fundamentals Chapter 11 Version 4.0 1 Konfigurowanie i testowanie Twojej sieci Podstawy sieci Rozdział 11 Version 4.0 2 Objectives Define the role of the Internetwork
Grupowanie. Iteracyjno-optymalizacyjne metody grupowania Algorytm k-średnich Algorytm k-medoidów. Eksploracja danych. Grupowanie wykład 2
Grupowanie Iteracyjno-optymalizacyjne metody grupowania Algorytm k-średnich Algorytm k-medoidów Grupowanie wykład 2 Tematem wykładu są iteracyjno-optymalizacyjne algorytmy grupowania. Przedstawimy i omówimy
Weronika Mysliwiec, klasa 8W, rok szkolny 2018/2019
Poniższy zbiór zadań został wykonany w ramach projektu Mazowiecki program stypendialny dla uczniów szczególnie uzdolnionych - najlepsza inwestycja w człowieka w roku szkolnym 2018/2019. Tresci zadań rozwiązanych
Analiza skupień. Idea
Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.
Stargard Szczecinski i okolice (Polish Edition)
Stargard Szczecinski i okolice (Polish Edition) Janusz Leszek Jurkiewicz Click here if your download doesn"t start automatically Stargard Szczecinski i okolice (Polish Edition) Janusz Leszek Jurkiewicz
Agnostic Learning and VC dimension
Agnostic Learning and VC dimension Machine Learning Spring 2019 The slides are based on Vivek Srikumar s 1 This Lecture Agnostic Learning What if I cannot guarantee zero training error? Can we still get
OSI Network Layer. Network Fundamentals Chapter 5. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1
OSI Network Layer Network Fundamentals Chapter 5 Version 4.0 1 OSI Network Layer Network Fundamentals Rozdział 5 Version 4.0 2 Objectives Identify the role of the Network Layer, as it describes communication
A Zadanie
where a, b, and c are binary (boolean) attributes. A Zadanie 1 2 3 4 5 6 7 8 9 10 Punkty a (maks) (2) (2) (2) (2) (4) F(6) (8) T (8) (12) (12) (40) Nazwisko i Imiȩ: c Uwaga: ta część zostanie wypełniona
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition) Robert Respondowski Click here if your download doesn"t start automatically Wojewodztwo Koszalinskie:
archivist: Managing Data Analysis Results
archivist: Managing Data Analysis Results https://github.com/pbiecek/archivist Marcin Kosiński 1,2, Przemysław Biecek 2 1 IT Research and Development Grupa Wirtualna Polska 2 Faculty of Mathematics, Informatics
Analiza Sieci Społecznych Pajek
Analiza Sieci Społecznych Pajek Dominik Batorski Instytut Socjologii UW 3 czerwca 2016 1 Wprowadzenie Regularności we wzorach relacji często są nazywane strukturą. Analiza sieci społecznych jest zbiorem
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Zmiany techniczne wprowadzone w wersji Comarch ERP Altum
Zmiany techniczne wprowadzone w wersji 2018.2 Copyright 2016 COMARCH SA Wszelkie prawa zastrzeżone Nieautoryzowane rozpowszechnianie całości lub fragmentu niniejszej publikacji w jakiejkolwiek postaci
Strategic planning. Jolanta Żyśko University of Physical Education in Warsaw
Strategic planning Jolanta Żyśko University of Physical Education in Warsaw 7S Formula Strategy 5 Ps Strategy as plan Strategy as ploy Strategy as pattern Strategy as position Strategy as perspective Strategy
Eksploracja danych. Grupowanie. Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne. Grupowanie wykład 1
Grupowanie Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Grupowanie wykład 1 Sformułowanie problemu Dany jest zbiór obiektów (rekordów). Znajdź naturalne pogrupowanie
Fig 5 Spectrograms of the original signal (top) extracted shaft-related GAD components (middle) and
Fig 4 Measured vibration signal (top). Blue original signal. Red component related to periodic excitation of resonances and noise. Green component related. Rotational speed profile used for experiment
Compressing the information contained in the different indexes is crucial for performance when implementing an IR system
4.2 Compression Compressing the information contained in the different indexes is crucial for performance when implementing an IR system on current hardware it is typically much faster to read compressed
PODOBIEŃSTWA RYNKÓW PRACY W GRUPIE KRAJÓW UE-28
Studia Ekonomiczne. Zeszyty Naukowe Uniwersytetu Ekonomicznego w Katowicach ISSN 2083-8611 Nr 289 2016 Uniwersytet Ekonomiczny w Katowicach Wydział Ekonomii Katedra Analiz i Prognozowania Rynku Pracy jaroslaw.wasowicz@ue.katowice.pl
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Algorytmy klastujące Problem 3 Mając daną chmurę punktów chcielibyśmy zrozumieć ich
Cracow University of Economics Poland. Overview. Sources of Real GDP per Capita Growth: Polish Regional-Macroeconomic Dimensions 2000-2005
Cracow University of Economics Sources of Real GDP per Capita Growth: Polish Regional-Macroeconomic Dimensions 2000-2005 - Key Note Speech - Presented by: Dr. David Clowes The Growth Research Unit CE Europe
Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2
Analysis of Movie Profitability STAT 469 IN CLASS ANALYSIS #2 aaaklnictzzjb9tgfmcnadpg7oy0lxa9edva9kkapdarhyk2k7gourinlwsweyzikuyiigvyleiv/cv767fpf/5crc1xt9va5mx7w3m/ecuqw1kuztpx/rl3/70h73/w4cog9dhhn3z62d6jzy+yzj766txpoir9nzszisjynetqr+rvlfvyoozu5xbybpsxb1wahul8phczdt2v4zgchb7uecwphlyigrgkjcyiflfyci0kxnmr4z6kw0jsokvot8isntpa3gbknlcufiv/h+hh+eur4fomd417rvtfjoit5pfju6yxiab2fmwk0y/feuybobqk+axnke8xzjjhfyd8kkpl9zdoddkazd5j6bzpemjb64smjb6vb4xmehysu08lsrszopxftlzee130jcb0zjxy7r5wa2f1s2off2+dyatrughnrtpkuprlcpu55zlxpss/yqe2eamjkcf0jye8w8yas0paf6t0t2i9stmcua+inbi2rt01tz22tubbqwidypvgz6piynkpobirkxgu54ibzoti4pkw2i5ow9lnuaoabhuxfxqhvnrj6w15tb3furnbm+scyxobjhr5pmj5j/w5ix9wsa2tlwx9alpshlunzjgnrwvqbpwzjl9wes+ptyn+ypy/jgskavtl8j0hz1djdhzwtpjbbvpr1zj7jpg6ve7zxfngj75zee0vmp9qm2uvgu/9zdofq6r+g8l4xctvo+v+xdrfr8oxiwutycu0qgyf8icuyvp/sixfi9zxe11vp6mrjjovpmxm6acrtbia+wjr9bevlgjwlz5xd3rfna9g06qytaoofk8olxbxc7xby2evqjmmk6pjvvzxmpbnct6+036xp5vdbrnbdqph8brlfn/n/khnfumhf6z1v7h/80yieukkd5j0un82t9mynxzmk0s/bzn4tacdziszdhwrl8x5ako8qp1n1zn0k6w2em0km9zj1i4yt1pt3xiprw85jmc2m1ut2geum6y6es2fwx6c+wlrpykblopbuj5nnr2byygfy5opllv4+jmm7s6u+tvhywbnb0kv2lt5th4xipmiij+y1toiyo7bo0d+vzvovjkp6aoejsubhj3qrp3fjd/m23pay8h218ibvx3nicofvd1xi86+kh6nb/b+hgsjp5+qwpurzlir15np66vmdehh6tyazdm1k/5ejtuvurgcqux6yc+qw/sbsaj7lkt4x9qmtp7euk6zbdedyuzu6ptsu2eeu3rxcz06uf6g8wyuveznhkbzynajbb7r7cbmla+jbtrst0ow2v6ntkwv8svnwqnu5pa3oxfeexf93739p93chq/fv+jr8r0d9brhpcxr2w88bvqbr41j6wvrb+u5dzjpvx+veoaxwptzp/8cen+xbg==
MoA-Net: Self-supervised Motion Segmentation. Pia Bideau, Rakesh R Menon, Erik Learned-Miller
MoA-Net: Self-supervised Motion Segmentation Pia Bideau, Rakesh R Menon, Erik Learned-Miller University of Massachusetts Amherst College of Information and Computer Science Motion Segmentation P Bideau,
Raport bieżący: 44/2018 Data: g. 21:03 Skrócona nazwa emitenta: SERINUS ENERGY plc
Raport bieżący: 44/2018 Data: 2018-05-23 g. 21:03 Skrócona nazwa emitenta: SERINUS ENERGY plc Temat: Zawiadomienie o zmianie udziału w ogólnej liczbie głosów w Serinus Energy plc Podstawa prawna: Inne
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner. rok akademicki 2014/2015
Zastosowanie metod eksploracji danych Data Mining w badaniach ekonomicznych SAS Enterprise Miner rok akademicki 2014/2015 Sieci Kohonena Sieci Kohonena Sieci Kohonena zostały wprowadzone w 1982 przez fińskiego
ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS.
ERASMUS + : Trail of extinct and active volcanoes, earthquakes through Europe. SURVEY TO STUDENTS. Strona 1 1. Please give one answer. I am: Students involved in project 69% 18 Student not involved in
SNP SNP Business Partner Data Checker. Prezentacja produktu
SNP SNP Business Partner Data Checker Prezentacja produktu Istota rozwiązania SNP SNP Business Partner Data Checker Celem produktu SNP SNP Business Partner Data Checker jest umożliwienie sprawdzania nazwy
PRACA DYPLOMOWA Magisterska
POLITECHNIKA WARSZAWSKA Wydział Samochodów i Maszyn Roboczych PRACA DYPLOMOWA Magisterska Studia stacjonarne dzienne Semiaktywne tłumienie drgań w wymuszonych kinematycznie układach drgających z uwzględnieniem
Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition)
Miedzy legenda a historia: Szlakiem piastowskim z Poznania do Gniezna (Biblioteka Kroniki Wielkopolski) (Polish Edition) Piotr Maluskiewicz Click here if your download doesn"t start automatically Miedzy
OpenPoland.net API Documentation
OpenPoland.net API Documentation Release 1.0 Michał Gryczka July 11, 2014 Contents 1 REST API tokens: 3 1.1 How to get a token............................................ 3 2 REST API : search for assets
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition)
Wojewodztwo Koszalinskie: Obiekty i walory krajoznawcze (Inwentaryzacja krajoznawcza Polski) (Polish Edition) Robert Respondowski Click here if your download doesn"t start automatically Wojewodztwo Koszalinskie:
Convolution semigroups with linear Jacobi parameters
Convolution semigroups with linear Jacobi parameters Michael Anshelevich; Wojciech Młotkowski Texas A&M University; University of Wrocław February 14, 2011 Jacobi parameters. µ = measure with finite moments,
Few-fermion thermometry
Few-fermion thermometry Phys. Rev. A 97, 063619 (2018) Tomasz Sowiński Institute of Physics of the Polish Academy of Sciences Co-authors: Marcin Płodzień Rafał Demkowicz-Dobrzański FEW-BODY PROBLEMS FewBody.ifpan.edu.pl
Krytyczne czynniki sukcesu w zarządzaniu projektami
Seweryn SPAŁEK Krytyczne czynniki sukcesu w zarządzaniu projektami MONOGRAFIA Wydawnictwo Politechniki Śląskiej Gliwice 2004 SPIS TREŚCI WPROWADZENIE 5 1. ZARZĄDZANIE PROJEKTAMI W ORGANIZACJI 13 1.1. Zarządzanie
Wybrzeze Baltyku, mapa turystyczna 1: (Polish Edition)
Wybrzeze Baltyku, mapa turystyczna 1:50 000 (Polish Edition) Click here if your download doesn"t start automatically Wybrzeze Baltyku, mapa turystyczna 1:50 000 (Polish Edition) Wybrzeze Baltyku, mapa
Sargent Opens Sonairte Farmers' Market
Sargent Opens Sonairte Farmers' Market 31 March, 2008 1V8VIZSV7EVKIRX8(1MRMWXIVSJ7XEXIEXXLI(ITEVXQIRXSJ%KVMGYPXYVI *MWLIVMIWERH*SSHTIVJSVQIHXLISJJMGMEPSTIRMRKSJXLI7SREMVXI*EVQIVW 1EVOIXMR0E]XS[R'S1IEXL
Instrukcja obsługi User s manual
Instrukcja obsługi User s manual Konfigurator Lanberg Lanberg Configurator E-mail: support@lanberg.pl support@lanberg.eu www.lanberg.pl www.lanberg.eu Lanberg 2015-2018 WERSJA VERSION: 2018/11 Instrukcja
WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU
WYDZIAŁ MATEMATYKI KARTA PRZEDMIOTU Nazwa w języku polskim: Eksploracja Danych Nazwa w języku angielskim: Data Mining Kierunek studiów (jeśli dotyczy): MATEMATYKA I STATYSTYKA Stopień studiów i forma:
Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition)
Karpacz, plan miasta 1:10 000: Panorama Karkonoszy, mapa szlakow turystycznych (Polish Edition) J Krupski Click here if your download doesn"t start automatically Karpacz, plan miasta 1:10 000: Panorama
Badanie zróżnicowania krajów członkowskich i stowarzyszonych Unii Europejskiej w oparciu o wybrane zmienne społeczno-gospodarcze
Barbara Batóg Jacek Batóg Uniwersytet Szczeciński Badanie zróżnicowania krajów członkowskich i stowarzyszonych Unii Europejskiej w oparciu o wybrane zmienne społeczno-gospodarcze W 2004 roku planowane
Analiza Skupień Cluster analysis
Metody Eksploracji Danych w wykładzie wykorzystano: 1. materiały dydaktyczne przygotowane w ramach projektu Opracowanie programów nauczania na odległość na kierunku studiów wyższych Informatyka http://wazniak.mimuw.edu.pl
Liczbę 29 możemy zaprezentować na siedem różnych sposobów:
Numeryczna analiza rozkładu liczb naturalnych na określoną sumę liczb pierwszych Świerczewski Ł. Od blisko 200 lat matematycy poszukują odpowiedzi na pytanie zadane przez Christiana Goldbacha, który w
Bayesian graph convolutional neural networks
Bayesian graph convolutional neural networks Mark Coates Collaborators: Soumyasundar Pal, Yingxue Zhang, Deniz Üstebay McGill University, Huawei Noah s Ark Lab February 13, 2019 Montreal 2 / 36 Introduction
Jak działa grawitacja?
Nazwa projektu: Kreatywni i innowacyjni uczniowie konkurencyjni na rynku pracy DZIAŁANIE 3.2 EDUKACJA OGÓLNA PODDZIAŁANIE 3.2.1 JAKOŚĆ EDUKACJI OGÓLNEJ Projekt współfinansowany przez Unię Europejską w
SWPS Uniwersytet Humanistycznospołeczny. Wydział Zamiejscowy we Wrocławiu. Karolina Horodyska
SWPS Uniwersytet Humanistycznospołeczny Wydział Zamiejscowy we Wrocławiu Karolina Horodyska Warunki skutecznego promowania zdrowej diety i aktywności fizycznej: dobre praktyki w interwencjach psychospołecznych
Akademia Morska w Szczecinie. Wydział Mechaniczny
Akademia Morska w Szczecinie Wydział Mechaniczny ROZPRAWA DOKTORSKA mgr inż. Marcin Kołodziejski Analiza metody obsługiwania zarządzanego niezawodnością pędników azymutalnych platformy pływającej Promotor:
Installation of EuroCert software for qualified electronic signature
Installation of EuroCert software for qualified electronic signature for Microsoft Windows systems Warsaw 28.08.2019 Content 1. Downloading and running the software for the e-signature... 3 a) Installer
Zaawansowane metody programowania. Algorytmy
Zaawansowane metody programowania Dr Zbigniew Kozioł - wykład Mgr Mariusz Woźny - laboratorium Wykład IV Algorytmy Drzewa, grafy, etc... Najpierw o algorytmach General Feldmarschall Albrecht Theodor Emil