GĘSTOŚCIOWA METODA GRUPOWANIA I WIZUALIZACJI DANYCH ZŁOŻONYCH
|
|
- Aleksander Stankiewicz
- 8 lat temu
- Przeglądów:
Transkrypt
1 STUDIA INFORMATICA 2012 Volume 33 Number 2A (105) Agnieszka NOWAK-BRZEZIŃSKA, Tomasz XIĘSKI Uniwersytet Śląski, Instytut Informatyki GĘSTOŚCIOWA METODA GRUPOWANIA I WIZUALIZACJI DANYCH ZŁOŻONYCH Streszczenie. Artykuł dokonuje przeglądu dotychczas stosowanych rozwiązań implementacyjnych w zakresie grupowania dużych wolumenów danych oraz opisuje problematykę doboru parametrów startowych dla algorytmu gęstościowego DBSCAN. Ponadto stanowi on wprowadzenie w tematykę wizualizacji struktury złożonych skupień, wykorzystując w tym celu algorytm oparty na idei gęstości OPTICS. Słowa kluczowe: wizualizacja skupień, grupowanie, OPTICS, DBSCAN DENSITY-BASED METHOD FOR CLUSTERING AND VISUALIZATION OF COMPLEX DATA Summary. This work reviews currently used implementation solutions for clustering large volumes of data, and describes the problem of choosing proper initial values for the density-based DBSCAN algorithm. Furthermore it should be also treated as an introduction to the topic of visualization of complex clusters using another densitybased algorithm OPTICS. Keywords: cluster visualization, clustering, OPTICS, DBSCAN 1. Wprowadzenie Wybór algorytmu analizy skupień do zadania grupowania dużych wolumenów danych złożonych nie jest zadaniem łatwym. Algorytm taki powinien charakteryzować się możliwie najmniejszą złożonością obliczeniową, wysoką odpornością na występowanie w danych szumu informacyjnego czy pozwalać na odkrywanie skupień o dowolnych kształtach. Jak wykazano w pracach [7, 9], większość z tych wymogów spełnia algorytm gęstościowy DBSCAN (ang. Density-Based Spatial Clustering of Applications with Noise). Jego siła tkwi w natural-
2 454 A. Nowak-Brzezińska, T. Xięski nie pojmowanej definicji skupienia jako gęsto upakowanego obszaru, zawierającego podobne obiekty. Niestety, choć intuicyjnie rzecz biorąc założenie to wydaje się logiczne i pozwalające na jasne określenie granic grup, to jednak w praktyce może ono stanowić jedną z dwóch głównych wad algorytmu nie jest on w stanie wykryć hierarchii skupień, jeśli taka występuje w danych źródłowych. Ponadto rezultat działania tego algorytmu (jakość utworzonych skupień) zależy od właściwego doboru parametrów startowych (Eps rozważanego promienia sąsiedztwa i MinPts liczby obiektów w grupie). Sposób doboru tych parametrów (zaprezentowany m.in. w [8]), polegający na wykonywaniu co najmniej kilku zgrupowań i wyborze tych parametrów, dla których wyniki okazały się najlepsze, jest czasochłonny, przez co nie zawsze możliwy do zastosowania, szczególnie w kontekście analizy dużych, złożonych zbiorów. Dlatego też autorzy postanowili zbadać i zaimplementować inny algorytm, oparty na idei gęstości OPTICS (ang. Ordering Points To Identify the Clustering Structure). W przeciwieństwie do swojego pierwowzoru nie generuje on zgrupowania obiektów, a jedynie ich określone uporządkowanie na podstawie tzw. odległości osiągalnej. Niemniej na podstawie wygenerowanego uporządkowania można w bardzo prosty i, co ważniejsze, dość szybki sposób dokonać podziału zbioru danych na grupy (dla dowolnie ustalonego promienia sąsiedztwa). Dodatkowo uzyskane uporządkowanie obiektów pozwala na określenie i wizualizację wewnętrznej struktury i powiązań danych. 2. Podejścia stosowane do grupowania dużych wolumenów danych Ilość gromadzonych danych nieustannie rośnie, a co za tym idzie określenie duże zbiory danych również zmienia swoje znaczenie jeszcze niedawno dotyczyło ono kilkunastu tysięcy próbek, a dziś przetwarzane są miliony czy nawet miliardy danych. W literaturze przedmiotu [3, 5] spotykanych jest sześć głównych podejść do problematyki grupowania dużych wolumenów danych złożonych. Pierwsze z nich próbkowanie danych polega na wyborze losowej próbki obiektów ze zbioru danych i zastosowaniu danego algorytmu analizy skupień tylko na wybranej próbce. Następnie możliwe jest przyporządkowanie pozostałych obiektów do już utworzonych reprezentatywnych skupień. Stanowi ono esencję działania popularnego, niehierarchicznego algorytmu grupowania danych CLARA (ang. Clustering for Large Applications). Niestety operowanie wyłącznie na wybranych próbkach zamiast na pełnym zbiorze danych najczęściej skutkuje podziałem dalekim od optymalnego. To właśnie dobór rozmiaru czy liczności próbek ma największe znaczenie w jakości uzyskanego rezultatu [6]. Należy również pamiętać, że metoda ta generuje różne podziały w zależności od wybranych próbek.
3 Gęstościowa metoda grupowania i wizualizacji danych złożonych 455 Kolejną metodyką wykorzystywaną w celu zmniejszenia zajętości pamięci jest dyskretyzacja danych (głównie odnosząca się do danych ilościowych, ale możliwe jest aplikowanie jej w stosunku do danych jakościowych). Generalnie wykorzystywane są dwa typy dyskretyzacji: statyczna gdzie zestaw reguł i klas, na jakie należy podzielić zbiór wartości, jest ściśle określony, dynamiczna gdzie algorytm grupowania jest aplikowany tylko w odniesieniu do jednego atrybutu, a przedziały jego wartości są wyznaczane na podstawie utworzonych grup. Największym problemem przy dyskretyzacji danych jest wyznaczenie optymalnej liczby przedziałów. Nawet w przypadku zastosowania dyskretyzacji dynamicznej wygenerowany podział może być daleki od optymalnego. Niektóre publikacje naukowe [3, 5] wykorzystują metodę dziel i zwyciężaj. Zbiór danych przechowywany jest w większej pamięci pomocniczej (np. na dysku twardym) i jest on dzielony na wiele mniejszych porcji. Każda z tych porcji jest oddzielnie poddawana procesowi analizy skupień. Na końcu tej metody wyświetlane są zagregowane wyniki ze wszystkich zgrupowań. Algorytm CURE (ang. Clustering Using REpresentatives) jest popularnym przedstawicielem podejścia dziel i zwyciężaj. Operuje on na losowo wybranej próbce danych, która jest dodatkowo dzielona na mniejsze porcje. Następnie każda porcja zostaje poddana działaniu algorytmu hierarchicznego celem wyznaczenia reprezentantów przyszłych skupień. Pozostałe obiekty z całego zbioru danych są przyporządkowywane do skupień na podstawie stopnia ich korelacji z reprezentantami. Niestety metoda dziel i zwyciężaj nie jest możliwa do zastosowania w każdym przypadku: niektóre algorytmy (np. Agglomerative Hierarchical Clustering) wymagają, by operować na pełnym zbiorze danych. Ponadto w zależności od tego na ile i na jakie porcje zostanie podzielony zbiór danych, wygenerowane zgrupowanie może być lepszej lub gorszej jakości. Nie bez znaczenia jest też homogeniczność danych pożądana jest ich wysoka jednorodność. Innym rozwiązaniem problemu grupowania dużych, złożonych wolumenów danych jest wykorzystanie algorytmu inkrementalnego (o ile taka implementacja jest dostępna). Podstawowym założeniem, wykorzystywanym w tym podejściu, jest możliwość analizy każdego obiektu ze zbioru niezależnie od pozostałych. W pamięci głównej są przechowywani zazwyczaj jedynie reprezentanci skupień, natomiast każdy obiekt jest korelowany z istniejącymi reprezentantami celem określenia jego przynależności do danej grupy. BIRCH (ang. Balanced Iterative Reducing and Clustering Using Hierarchies) jest znanym przyrostowohierarchicznym algorytmem, często wykorzystywanym przy zadaniu grupowania. Daje on dobre wyniki w przypadku odkrywania skupień sferycznych o podobnej wielkości, niemniej taka sytuacja (w kontekście analizy danych złożonych) rzadko ma miejsce. Jest to również przykład algorytmu, w którym kolejność analizy obiektów ze zbioru ma duży wpływ na koń-
4 456 A. Nowak-Brzezińska, T. Xięski cowy rezultat (ang. order-dependent). Niestety dość duża grupa algorytmów przyrostowych charakteryzuje się tą cechą [5]. Jeżeli głównym problemem jest wysoka złożoność obliczeniowa algorytmu, to można dokonać jego zrównoleglenia i tutaj wyróżniane są dwa sposoby: przez wykorzystanie wielu procesorów CPU (najczęściej wielordzeniowych) lub też przez skorzystanie z mocy procesorów kart graficznych (GPU), które są wyspecjalizowane w wykonywaniu operacji zmiennoprzecinkowych. Można również dokonać dekompozycji obiektowej między wiele komputerów. Oczywiście implikuje to konieczność określenia i przydziału zadań poszczególnym jednostkom obliczeniowym. Może to uwzględniać podział zbioru danych na części (podobnie jak w metodzie dziel i zwyciężaj ), tak by każda jednostka dokonywała grupowania swojej porcji, lub przydział zadań, wynikający z budowy samego algorytmu analizy skupień. Niestety zrównoleglenie algorytmu nie zawsze jest możliwe. Jeżeli w tym celu wykorzystywany jest główny procesor komputera, to oczywiście największy wpływ na przyspieszenie obliczeń ma liczba dostępnych procesorów (i rdzeni) oraz częstość i sposób komunikacji między wątkami. Wykorzystując jednostki obliczeniowe zawarte na karcie graficznej można uzyskać dużo większe przyspieszenie (m.in. w publikacji [4] opisano przyspieszenia rzędu krotne), natomiast dużo bardziej skomplikowany jest proces optymalizacji kodu pod konkretną rodzinę kart graficznych niż pod dany procesor. Ponadto jeśli algorytm wymaga częstej wymiany danych z procesorem głównym, to jakiekolwiek korzyści z jego zrównoleglenia są najczęściej niwelowane bądź mocno ograniczane. Dodatkowo rzadko kiedy (w kontekście danych złożonych) da się wprowadzić cały zbiór danych do pamięci karty graficznej. Warto również wspomnieć, że różne karty graficzne (różnych firm) mają swoje unikalne biblioteki programistyczne, przez co istnieje tu dość duże przywiązanie do konkretnej platformy sprzętowej [4]. Jednak sytuację tę stara się poprawić standard OpenCL (ang. Open Computing Language). 3. Motywacja i zasada działania algorytmu OPTICS Podczas procesu grupowania danych złożonych, oprócz problemów związanych z przetwarzaniem dużej ilości danych, należy wziąć pod uwagę również ich wewnętrzną strukturę. Powiązania występujące w wielowymiarowych danych rzeczywistych mogą tworzyć hierarchie i mieć niejednorodną naturę. Zastosowane przez autorów podejście do grupowania danych odnośnie do telefonii komórkowej, z wykorzystaniem gęstościowego algorytmu DBSCAN (opisane w [8, 9]), uwypukliło dwa znaczące problemy tego algorytmu. Pierwszym problemem jest dobór właściwych parametrów startowych (Eps, MinPts). Zbyt duże wartości promienia sąsiedztwa (Eps) mogą skutkować tym, że dwa naturalnie wy-
5 Gęstościowa metoda grupowania i wizualizacji danych złożonych 457 stępujące, mniejsze skupienia zostaną niepoprawnie zinterpretowane przez algorytm jako jedno duże. Małe wartości tego parametru nie sprawdzą się w sytuacji, gdy zbiór danych będzie charakteryzował się niskim zagęszczeniem obiektów. Drugi parametr startowy (MinPts) ma największy wpływ na liczbę obiektów w grupach, a co za tym idzie na rozmiar grupy obiektów izolowanych im jest on większy, tym potencjalnie więcej obiektów może zostać zaklasyfikowanych jako szum informacyjny (jeśli naturalne skupienia są mało liczne). Najprostszym podejściem do rozwiązania tego problemu jest wykonanie wielu zgrupowań parametrów startowych z różnymi wartościami, ocena ich jakości oraz wybór najlepszego z dostępnych. Niestety już samo wykonywanie zgrupowań jest zadaniem dość czasochłonnym. Rys. 1. Występowanie hierarchii skupień Fig. 1. The presence of a hierarchy of clusters Kolejną wadą algorytmu DBSCAN (bezpośrednio związaną ze sposobem jego działania) jest niemożność wykrywania hierarchii skupień. Sytuacja taka została przedstawiona na rysunku 1. Dla zaprezentowanego zbioru danych nie jest możliwe wykrycie wszystkich czterech skupień (oznaczonych jako A, B, C 1, C 2 ) przy użyciu stałej wartości parametru sąsiedztwa (zagęszczenia obiektów). Algorytm DBSCAN wygenerowałby podział składający się z grup A, B, C lub grup C1, C2 w zależności od doboru wartości parametrów startowych. W drugim przypadku rzeczywiste skupienia A i B zostałyby potraktowane jako szum informacyjny. Wykorzystując ten fakt, można by było zmodyfikować algorytm DBSCAN tak, by tworzył w tym samym czasie skupienia o różnych zagęszczeniach (tj. wykorzystywałby różne wartości promienia sąsiedztwa). Jednakże by otrzymać spójny rezultat, należałoby zachować określony porządek, w jakim obiekty byłyby przetwarzane. Zawsze należałoby wybierać najpierw obiekt, który jest gęstościowo osiągalny przy najmniejszej wartości promienia sąsiedztwa Eps, by skupienia charakteryzujące się największym zagęszczeniem były wykrywane jako pierwsze. Algorytm OPTICS działa na podobnej zasadzie (biorąc pod uwagę wszystkie możliwe wartości promienia sąsiedztwa do pewnej ustalonej granicy), z tą różnicą, że do konkretnych grup nie są przypisywane identyfikatory przynależności obiektów. Zamiast tego zapa-
6 458 A. Nowak-Brzezińska, T. Xięski miętywany jest porządek, w jakim obiekty są przetwarzane, oraz informacja, która może posłużyć do określenia przynależności poszczególnych obiektów do grup. Informacja ta składa się z dwóch parametrów (wyliczanych dla każdego obiektu ze zbioru) odległości wewnętrznej (ang. core-distance) oraz odległości osiągalnej (ang. reachability-distance). Odległość wewnętrzna (dla obiektu p ze zbioru danych) jest najmniejszą odległością pomiędzy p i obiektem w jego Eps-sąsiedztwie, takim że p zostałby zaklasyfikowany jako obiekt wewnętrzny. W przeciwnym wypadku (tj. gdy p nie może zostać uznany za obiekt wewnętrzny) odległość wewnętrzna jest nieokreślona 1. Odległość osiągalna dla obiektu p (względem obiektu q) jest to najmniejsza odległość, taka że p jest gęstościowo osiągalny z q, jeżeli q jest obiektem wewnętrznym. W takim przypadku odległość osiągalna p nie może być mniejsza niż odległość wewnętrzna dla q, ponieważ dla mniejszych wartości p nie jest gęstościowo osiągalny z q. Natomiast jeżeli q nie jest obiektem wewnętrznym, odległość osiągalna dla obiektu p (względem q) jest nieokreślona. Biorąc pod uwagę przedstawione definicje, można określić uproszczony schemat działania algorytmu OPTICS. Jest on następujący: 1. Wybierz kolejny obiekt ze zbioru danych. 2. Wyznacz Eps-sąsiedztwo dla aktualnie analizowanego obiektu. 3. Wylicz odległość wewnętrzną dla analizowanego obiektu. 4. Jeżeli odległość wewnętrzna jest niezdefiniowana, przejdź do kroku pierwszego. 5. Wylicz odległości osiągalne dla obiektów znajdujących się w sąsiedztwie analizowanego (względem tego obiektu), a następnie posortuj te obiekty rosnąco według ich odległości osiągalnych. 6. Kontynuuj proces (od punktu pierwszego), dopóki nie zostaną przeanalizowane wszystkie obiekty ze zbioru danych. 7. Wypisz kolejność, w jakiej obiekty ze zbioru danych były przetwarzane, wraz z wartościami odległości wewnętrznej i osiągalnej. Na podstawie przedstawionego schematu można zauważyć duży stopień podobieństwa do algorytmu DBSCAN. Dla obu metod najważniejszym elementem jest wyznaczenie Epssąsiedztwa. Na jego podstawie algorytm DBSCAN określa przynależność obiektu do danego skupienia, natomiast OPTICS generuje określone uporządkowanie obiektów. Jak zostanie wykazane w następnej sekcji, uporządkowanie to może być wykorzystane nie tylko do przydziału obiektów ze zbioru danych do grup, ale również do wizualizacji ich struktury. Biorąc pod uwagę przedstawione podobieństwo, można stwierdzić, że czas działania algorytmu OPTICS (a w konsekwencji również jego złożoność obliczeniowa) nie różni się drastycznie 1 Szczegółowe definicje Eps-sąsiedztwa, gęstościowej osiągalności oraz związane z nimi terminy zostały opisane w pracach [1, 2, 10].
7 Gęstościowa metoda grupowania i wizualizacji danych złożonych 459 od czasu działania swojego pierwowzoru. Eksperymenty przeprowadzone w publikacji [1] wykazały, że czas działania algorytmu OPTICS jest równy 1,6-krotności czasu działania algorytmu DBSCAN. Nie jest to zaskakujący rezultat, ponieważ, jak zaznaczono wcześniej, złożoność obliczeniowa obu metod jest silnie uzależniona od procesu wyznaczania Epssąsiedztwa, który musi być przeprowadzony dla każdego obiektu ze zbioru danych wejściowych. Jeżeli nie jest wykorzystywane żadne indeksowanie danych, to by uzyskać odpowiedź na zapytanie odnośnie do sąsiedztwa danego obiektu należałoby dokonać przeglądu zupełnego całej bazy danych. W takim przypadku złożoność obliczeniowa dla algorytmu OPTICS wynosiłaby O(n 2 ). Sytuacja ulega znaczącej poprawie, jeśli zostanie użyte indeksowanie oparte na strukturach drzewiastych (ang. tree-based spatial index), gdyż wówczas średnia złożoność obliczeniowa całego algorytmu maleje do O(n logn) [1]. 4. Grupowanie wykorzystujące algorytm OPTICS Jak już zostało wspomniane wcześniej, sam algorytm OPTICS bezpośrednio nie generuje podziału na grupy, jednakże wyniki jego działania mogą być w łatwy sposób użyte do stworzenia takiego podziału. Mając określone uporządkowanie zbioru danych, można wygenerować zgrupowanie (dla dowolnego promienia sąsiedztwa Ei Eps) przez analizę tego uporządkowania i przypisanie identyfikatorów grup na podstawie wartości odległości wewnętrznych i osiągalnych. Poniższy kod przedstawia procedurę WydobądźSkupienia, realizującą opisane zadanie: WydobądźSkupienia(UporządkowaneObiekty, Ei, MinPts): skupienieid = SZUM foreach obj in UporządkowaneObiekty: if obj.odległość_osiągalna > Ei then if obj.odległość_wewnętrzna <= Ei then skupienieid = skupienieid + 1 obj.skupienieid = skupienieid else obj.skupienieid = SZUM else obj.skupienieid = skupienieid Najpierw sprawdzany jest warunek, czy osiągalna odległość aktualnie analizowanego obiektu jest większa niż ustalona przez użytkownika wartość promienia sąsiedztwa (oznaczona jako Ei), dla której należy wygenerować zgrupowanie. W takim przypadku obiekt ten nie jest gęstościowo osiągalny z żadnego innego obiektu umieszczonego przed nim w stworzonym wcześniej uporządkowaniu. Intuicyjnie rzecz ujmując, jeśli analizowany obiekt byłby gęstościowo osiągalny z poprzedzającego go w uporządkowaniu obiektu, jego odległość osiągalna miałaby co najwyżej wartość Ei. Jeżeli zatem odległość osiągalna jest większa od Ei, sprawdzana jest następnie odległość wewnętrzna tego obiektu i tworzone jest nowe sku-
8 460 A. Nowak-Brzezińska, T. Xięski pienie, jeśli analizowany obiekt jest obiektem wewnętrznym. W przeciwnym przypadku dany obiekt jest klasyfikowany jako szum informacyjny (reprezentowany fizycznie przez przypisanie wartości zero jako identyfikatora skupienia). Natomiast w sytuacji, gdy odległość osiągalna dla analizowanego obiektu jest mniejsza niż Ei, to jest on przypisywany do aktualnego skupienia (ponieważ jest on wówczas gęstościowo osiągalny z obiektu poprzedzającego go w wygenerowanym uporządkowaniu). Podział na grupy, wygenerowany przy użyciu przedstawionej procedury, jest niemalże nierozróżnialny w stosunku do działania algorytmu DBSCAN (dla tych samych wartości parametrów Eps i MinPts). Jedynie bardzo niewielka liczba obiektów krańcowych może być pominięta przez algorytm WydobądźSkupienia. Dzieje się tak w przypadku, gdy zostały one poddane analizie przez algorytm OPTICS, jeszcze zanim został znaleziony obiekt wewnętrzny, właściwy dla tego skupienia. Jednak, jak zapewniają autorzy samego algorytmu w pracy [1], jest to na tyle rzadko występująca sytuacja, że można pominąć etap naprawczy (tj. przydzielenia obiektów krańcowych do właściwego skupienia) bez znacznego pogorszenia jakości skupień. 5. Wizualizacja struktury zbioru danych Wizualizacja struktury zbioru danych może być wykorzystana, w przypadku gdy analityk chce poznać ogólny zarys danych na wysokim poziomie abstrakcji. Wówczas zwraca się uwagę na występowanie hierarchii czy poziom spójności powstałych grup. Istotny może być również fakt, czy występują pewne dominujące grupy (o bardzo dużej liczności w stosunku do całego zbioru) czy też struktura ta ma charakter jednorodny. Bardzo często tylko na podstawie wygenerowanego podziału na grupy (zwłaszcza w kontekście dużych, złożonych zbiorów) analityk może nie być w stanie wyjaśnić bądź poprawnie zinterpretować otrzymanych rezultatów. Dlatego też coraz większy nacisk kładzie się właśnie na narzędzia wizualizacyjne, mające wspomagać procesy analizy i interpretacji wyników grupowania danych. Aby zobaczyć szczegółową strukturę zbioru danych, należy stworzyć wykres wartości odległości osiągalnej dla każdego obiektu, zgodnie z uporządkowaniem wygenerowanym przez algorytm OPTICS. Taki wykres słupkowy nosi nazwę wykresu osiągalności (ang. reachability plot). Przykładowy wykres osiągalności dla sztucznie wygenerowanych danych dwuwymiarowych został przedstawiony na rysunku 2. Skupienia na wykresie reprezentowane są przez doliny. Im dana dolina jest węższa, tym mniej obiektów wchodzi w skład danego skupienia, natomiast im mniejsza jest wartość odległości osiągalnej, tym skupienie jest bardziej zagęszczone (bardziej spójne).
9 Gęstościowa metoda grupowania i wizualizacji danych złożonych 461 Rys. 2. Przykładowy wykres osiągalności Fig. 2. Example of a reachability plot Na podstawie wykresu osiągalności można w łatwy sposób wykryć istnienie hierarchii (zawierania się) skupień. Hierarchia grup jest widoczna na wykresie (rys. 2) jako szereg małych dolin zawarty w jednej głębszej. Podczas identyfikowania przypadków potencjalnego zawierania się skupień należy zwrócić uwagę na to, by doliny były bardzo płytkie. Niska wartość odległości osiągalnej mówi o tym, że kolejny obiekt znajduje się bardzo blisko poprzedniego w ustalonym porządku, co dla płytkich dolin implikuje, że dwa skupienia są rozmieszone bardzo blisko siebie. Jeśli dodatkowo te płytkie doliny znajdują się w obrębie innej, bardzo głębokiej, to z dużą dozą prawdopodobieństwa mamy do czynienia z sytuacją, gdy szereg małych, spójnych skupień jest zawarty w jednym większym (o dużo mniejszym zagęszczeniu). Niestety dla rzeczywistych zbiorów danych złożonych identyfikacja hierarchii skupień na podstawie wykresu osiągalności jest już dużo trudniejsza. Rysunek 3 przedstawia wykres osiągalności dla rzeczywistego zbioru danych 2 złożonych odnośnie do urządzeń nadawczo-odbiorczych telefonii komórkowej. Wykres ten jest jednak okrojony do pierwszych obiektów (uporządkowanych zgodnie z rezultatem działania algorytmu OPTICS) ze względu na czytelność oraz ograniczenia oprogramowania MS Excel, które nie umożliwia wizualizacji większej liczby danych na wykresie dwuwymiarowym w jednej serii. Z przedstawionego na rysunku 3 wykresie wynika, iż już w początkowych jego obszarach (między obiektami o numerach od 8000 do ok ) daje się zauważyć występowanie hierarchii skupień kilka mniejszych skupień jest zwartych w jednym większym. Zależności te nie są jednak tak łatwo identyfikowalne jak dla sztucznego zbioru danych (pokazanego na rys. 2). Ponadto mimo znacznego ograniczenia liczby obiektów przedstawionych na wykresie cały zbiór danych liczy 143 tysięcy obiektów jego ogólna czytelność nie jest na wysokim poziomie. Dlatego też należy opracować inne metody tworzenia wykresu osiągalności, aby 2 Zbiór danych poddawany analizie pozostaje niezmienny i został szczegółowo opisany w publikacji [8].
10 462 A. Nowak-Brzezińska, T. Xięski móc zaprezentować cały zbiór danych w formie zrozumiałej i czytelnej dla człowieka. Pewne prace w tym zakresie zostały już poczynione przez autorów samego algorytmu OPTICS używają oni specyficznego typu wykresu kołowego, w którym każda wartość odległości osiągalnej ma przyporządkowany pewien określony odcień koloru. Rozpoznawanie rozkładu skupień i struktury zbioru odbywa się na podstawie identyfikacji jaśniejszych i ciemniejszych obszarów na wykresie. Szczegółowe informacje na ten temat znajdują się w m.in. w publikacji [1]. Wykres osiągalności Rys. 3. Wykres osiągalności dla danych rzeczywistych Fig. 3. Reachability plot for real-world data Na czytelność wykresu osiągalności duży wpływ ma również użyta miara podobieństwa (odległości) obiektów. W tym przypadku miara podobieństwa była zdefiniowana jako liczba cech wspólnych. Implikuje to fakt, że jeżeli położone blisko siebie obiekty różnią się tylko wartościami dwóch cech, na przedstawionym wykresie jest to widoczne jako relatywnie duża zmiana. Z tego też powodu należy w przyszłości wykonać również testy przy użyciu innych miar odległości (które lepiej rozróżniają obiekty między sobą i mają większy zakres możliwych do przyjmowania wartości).
11 Gęstościowa metoda grupowania i wizualizacji danych złożonych Podsumowanie Celem niniejszego artykułu było przedstawienie dotychczas stosowanych rozwiązań implementacyjnych w zakresie grupowania dużych wolumenów danych, ze szczególnym uwzględnieniem ich wad i problemów. Kolejnym, istotnym celem artykułu były analiza i omówienie algorytmu OPTICS jako metody mającej zastosowanie przy grupowaniu oraz wizualizacji struktury dużych zbiorów danych złożonych. Szczególnym aspektem analizy było również porównanie algorytmu gęstościowego DBSCAN z algorytmem OPTICS. Porównanie to wykazało, że analizowane algorytmy mają wiele podobieństw, mimo że mogą być wykorzystywane w zupełnie różnych celach. Rozważania teoretyczne zostały poparte zastosowaniem algorytmu OPTICS do rzeczywistego zbioru danych odnośnie do telefonii komórkowej, w celu wizualizacji i interpretacji struktury tego zbioru. BIBLIOGRAFIA 1. Ankerst M., Breunig M. M., Kriegel H. P., Sander J.: Optics: Ordering points to identify the clustering structure. SIGMOD 1999, Proceedings ACM SIGMOD International Conference on Management of Data, Philadelphia, USA Ester M., Kriegel H. P., Sander J., Xu X.: A density-based algorithm for discovering clusters in large spatial databases with noise. Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining, USA Jain A. K., Murty M. N., Flynn P. J.: Data Clustering: A Review. ACM Computing Surveys, Vol. 31, No. 3, USA Böhm Ch., Noll R., Plant C., Wackersreuther B.: Density-based Clustering using Graphics Processors. Proceeding of the 18th ACM conference on Information and knowledge management, USA Berry M. W., Browne M.: Lecture notes in Data Mining. World Scientific Publishing Co. Pte. Ltd., Singapur Tufféry S.: Data Mining and Statistics for Decision Making. Wiley & Sons Ltd., UK Nowak-Brzezińska A., Xięski T.: Grupowanie danych złożonych. Studia Informatica, Vol. 32, No. 2A(96), Wydawnictwo Politechniki Śląskiej, Gliwice 2011, s Wakulicz-Deja A., Nowak-Brzezińska A., Xięski T.: Efficiency of complex data clustering. Lecture Notes in Artifitial Intelligence. Proceedings of 6th International Conference on Rough Sets and Knowledge Technology, RSKT 2011, Canada 2011.
12 464 A. Nowak-Brzezińska, T. Xięski 9. Xięski T.: Grupowanie danych złożonych, [w:] Wakulicz-Deja A. (red.): Systemy wspomagania decyzji. Wydawnictwo Uniwersytetu Śląskiego, Katowice Nowak-Brzezińska A., Jach T., Xięski T.: Wybór algorytmu grupowania a efektywność wyszukiwania dokumentów. Studia Informatica, Vol. 31, No. 2A(89), Wydawnictwo Politechniki Śląskiej, Gliwice 2010, s Wpłynęło do Redakcji 7 stycznia 2012 r. Abstract In this paper the topic of clustering and visualization of the data structure is discussed. Authors review currently found in literature algorithmic solutions that deal with clustering large volumes of data, focusing on their disadvantages and problems. What is more the authors introduce and analyze a density-based algorithms called OPTICS (Ordering Points To Identify the Clustering Structure) as a method for clustering a real-world data set about the functioning of transceivers of a cellular phone operator located in Poland. This algorithm is also presented as an relatively easy way for visualization of the data inner structure, relationships and hierarchies. The whole analysis is performed as a comparison to the well-known and described DBSCAN algorithm. Adresy Agnieszka NOWAK-BRZEZIŃSKA: Uniwersytet Śląski, Instytut Informatyki, ul. Będzińska 39, Sosnowiec, Polska, agnieszka.nowak@us.edu.pl. Tomasz XIĘSKI: Uniwersytet Śląski, Instytut Informatyki, ul. Będzińska 39, Sosnowiec, Polska, tomasz.xieski@us.edu.pl.
Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska
Michał Kozielski Łukasz Warchał Instytut Informatyki, Politechnika Śląska Algorytm DBSCAN Algorytm OPTICS Analiza gęstego sąsiedztwa w grafie Wstępne eksperymenty Podsumowanie Algorytm DBSCAN Analiza gęstości
Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
METODY REPREZENTACJI DANYCH ZŁOŻONYCH
STUDIA INFORMATICA 2013 Volume 34 Number 2A (111) Agnieszka NOWAK-BRZEZIŃSKA, Tomasz XIĘSKI Uniwersytet Śląski, Instytut Informatyki METODY REPREZENTACJI DANYCH ZŁOŻONYCH Streszczenie. Artykuł dokonuje
Metoda List Łańcuchowych
Metoda List Łańcuchowych mgr Tomasz Xięski, Instytut Informatyki, Uniwersytet Śląski Sosnowiec, 2010 Celem metody jest utrzymanie zalet MLI (dobre czasy wyszukiwania), ale wyeliminowanie jej wad (wysoka
CLUSTERING II. Efektywne metody grupowania danych
CLUSTERING II Efektywne metody grupowania danych Plan wykładu Wstęp: Motywacja i zastosowania Metody grupowania danych Algorytmy oparte na podziałach (partitioning algorithms) PAM Ulepszanie: CLARA, CLARANS
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
STUDIA INFORMATICA 2014 Volume 35 Number 2 (116)
STUDIA INFORMATICA 2014 Volume 35 Number 2 (116) Agnieszka NOWAK-BRZEZIŃSKA, Tomasz XIĘSKI Uniwersytet Śląski, Instytut Informatyki WYDOBYWANIE WIEDZY Z DANYCH ZŁOŻONYCH Streszczenie. Artykuł przedstawia
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych
dr Piotr Sulewski POMORSKA AKADEMIA PEDAGOGICZNA W SŁUPSKU KATEDRA INFORMATYKI I STATYSTYKI Porównanie generatorów liczb losowych wykorzystywanych w arkuszach kalkulacyjnych Wprowadzenie Obecnie bardzo
1 Wprowadzenie do algorytmiki
Teoretyczne podstawy informatyki - ćwiczenia: Prowadzący: dr inż. Dariusz W Brzeziński 1 Wprowadzenie do algorytmiki 1.1 Algorytm 1. Skończony, uporządkowany ciąg precyzyjnie i zrozumiale opisanych czynności
Sztuczna inteligencja : Algorytm KNN
Instytut Informatyki Uniwersytetu Śląskiego 23 kwietnia 2012 1 Algorytm 1 NN 2 Algorytm knn 3 Zadania Klasyfikacja obiektów w oparciu o najbliższe obiekty: Algorytm 1-NN - najbliższego sąsiada. Parametr
S O M SELF-ORGANIZING MAPS. Przemysław Szczepańczyk Łukasz Myszor
S O M SELF-ORGANIZING MAPS Przemysław Szczepańczyk Łukasz Myszor Podstawy teoretyczne Map Samoorganizujących się stworzył prof. Teuvo Kohonen (1982 r.). SOM wywodzi się ze sztucznych sieci neuronowych.
Sposoby prezentacji problemów w statystyce
S t r o n a 1 Dr Anna Rybak Instytut Informatyki Uniwersytet w Białymstoku Sposoby prezentacji problemów w statystyce Wprowadzenie W artykule zostaną zaprezentowane podstawowe zagadnienia z zakresu statystyki
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH
Małgorzata Szerszunowicz Uniwersytet Ekonomiczny w Katowicach ANALIZA ZDOLNOŚCI PROCESU O ZALEŻNYCH CHARAKTERYSTYKACH Wprowadzenie Statystyczna kontrola jakości ma na celu doskonalenie procesu produkcyjnego
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
MODELOWANIE POŁĄCZEŃ TYPU SWORZEŃ OTWÓR ZA POMOCĄ MES BEZ UŻYCIA ANALIZY KONTAKTOWEJ
Jarosław MAŃKOWSKI * Andrzej ŻABICKI * Piotr ŻACH * MODELOWANIE POŁĄCZEŃ TYPU SWORZEŃ OTWÓR ZA POMOCĄ MES BEZ UŻYCIA ANALIZY KONTAKTOWEJ 1. WSTĘP W analizach MES dużych konstrukcji wykonywanych na skalę
4.3 Grupowanie według podobieństwa
4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi
Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32
Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
DBSCAN segmentacja danych punktowych oraz rastrowych w środowisku wolnodostępnego oprogramowania R
DBSCAN segmentacja danych punktowych oraz rastrowych w środowisku wolnodostępnego oprogramowania R Mgr inż. Agnieszka Ochałek Narzędzia informatyczne w badaniach naukowych Wydział Geodezji Górniczej i
AiSD zadanie trzecie
AiSD zadanie trzecie Gliwiński Jarosław Marek Kruczyński Konrad Marek Grupa dziekańska I5 5 czerwca 2008 1 Wstęp Celem postawionym przez zadanie trzecie było tzw. sortowanie topologiczne. Jest to typ sortowania
Wykład 4: Statystyki opisowe (część 1)
Wykład 4: Statystyki opisowe (część 1) Wprowadzenie W przypadku danych mających charakter liczbowy do ich charakterystyki można wykorzystać tak zwane STATYSTYKI OPISOWE. Za pomocą statystyk opisowych można
Analiza skupień. Idea
Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.
Porównanie wydajności CUDA i OpenCL na przykładzie równoległego algorytmu wyznaczania wartości funkcji celu dla problemu gniazdowego
Porównanie wydajności CUDA i OpenCL na przykładzie równoległego algorytmu wyznaczania wartości funkcji celu dla problemu gniazdowego Mariusz Uchroński 3 grudnia 2010 Plan prezentacji 1. Wprowadzenie 2.
Programowanie dynamiczne
Programowanie dynamiczne Ciąg Fibonacciego fib(0)=1 fib(1)=1 fib(n)=fib(n-1)+fib(n-2), gdzie n 2 Elementy tego ciągu stanowią liczby naturalne tworzące ciąg o takiej własności, że kolejny wyraz (z wyjątkiem
Materiały dla finalistów
Materiały dla finalistów Malachoviacus Informaticus 2016 11 kwietnia 2016 Wprowadzenie Poniższy dokument zawiera opisy zagadnień, które będą niezbędne do rozwiązania zadań w drugim etapie konkursu. Polecamy
Przykładowe sprawozdanie. Jan Pustelnik
Przykładowe sprawozdanie Jan Pustelnik 30 marca 2007 Rozdział 1 Sformułowanie problemu Tematem pracy jest porównanie wydajności trzech tradycyjnych metod sortowania: InsertionSort, SelectionSort i BubbleSort.
Strategia "dziel i zwyciężaj"
Strategia "dziel i zwyciężaj" W tej metodzie problem dzielony jest na kilka mniejszych podproblemów podobnych do początkowego problemu. Problemy te rozwiązywane są rekurencyjnie, a następnie rozwiązania
Inteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA
OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 16.01.2003 Algorytmy i Struktury Danych PIŁA ALGORYTMY ZACHŁANNE czas [ms] Porównanie Algorytmów Rozwiązyjących problem TSP 100 000 000 000,000 10 000 000
Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle
Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA
METODY CHEMOMETRYCZNE W IDENTYFIKACJI ŹRÓDEŁ POCHODZENIA AMFETAMINY Waldemar S. Krawczyk Centralne Laboratorium Kryminalistyczne Komendy Głównej Policji, Warszawa (praca obroniona na Wydziale Chemii Uniwersytetu
CLUSTERING. Metody grupowania danych
CLUSTERING Metody grupowania danych Plan wykładu Wprowadzenie Dziedziny zastosowania Co to jest problem klastrowania? Problem wyszukiwania optymalnych klastrów Metody generowania: k centroidów (k - means
WYBÓR ALGORYTMU GRUPOWANIA A EFEKTYWNOŚĆ WYSZUKIWANIA DOKUMENTÓW
STUDIA INFORMATICA 2010 Volume 31 Number 2A (89) Agnieszka NOWAK BRZEZIŃSKA, Tomasz JACH, Tomasz XIĘSKI Uniwersytet Śląski, Wydział Informatyki i Nauki o Materiałach, Instytut Informatyki WYBÓR ALGORYTMU
Przestrzeń algorytmów klastrowania
20 listopada 2008 Plan prezentacji 1 Podstawowe pojęcia Przykłady algorytmów klastrowania 2 Odległość algorytmów klastrowania Odległość podziałów 3 Dane wejściowe Eksperymenty Praca źródłowa Podstawowe
Algorytm genetyczny (genetic algorithm)-
Optymalizacja W praktyce inżynierskiej często zachodzi potrzeba znalezienia parametrów, dla których system/urządzenie będzie działać w sposób optymalny. Klasyczne podejście do optymalizacji: sformułowanie
Systemy uczące się Lab 4
Systemy uczące się Lab 4 dr Przemysław Juszczuk Katedra Inżynierii Wiedzy, Uniwersytet Ekonomiczny 26 X 2018 Projekt zaliczeniowy Podstawą zaliczenia ćwiczeń jest indywidualne wykonanie projektu uwzględniającego
Wykrywanie nietypowości w danych rzeczywistych
Wykrywanie nietypowości w danych rzeczywistych dr Agnieszka NOWAK-BRZEZIŃSKA, mgr Artur TUROS 1 Agenda 1 2 3 4 5 6 Cel badań Eksploracja odchyleń Metody wykrywania odchyleń Eksperymenty Wnioski Nowe badania
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty
Matematyczne Podstawy Informatyki
Matematyczne Podstawy Informatyki dr inż. Andrzej Grosser Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Rok akademicki 2013/2014 Algorytm 1. Termin algorytm jest używany w informatyce
OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI
Autoreferat do rozprawy doktorskiej OPTYMALIZACJA HARMONOGRAMOWANIA MONTAŻU SAMOCHODÓW Z ZASTOSOWANIEM PROGRAMOWANIA W LOGICE Z OGRANICZENIAMI Michał Mazur Gliwice 2016 1 2 Montaż samochodów na linii w
Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych
Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Marcin Deptuła Julian Szymański, Henryk Krawczyk Politechnika Gdańska Wydział Elektroniki, Telekomunikacji i Informatyki Katedra Architektury
Wykrywanie twarzy na zdjęciach przy pomocy kaskad
Wykrywanie twarzy na zdjęciach przy pomocy kaskad Analiza i przetwarzanie obrazów Sebastian Lipnicki Informatyka Stosowana,WFIIS Spis treści 1. Wstęp... 3 2. Struktura i funkcjonalnośd... 4 3. Wyniki...
Nowe narzędzia zarządzania jakością
Nowe narzędzia zarządzania jakością Agnieszka Michalak 106947 Piotr Michalak 106928 Filip Najdek 106946 Co to jest? Nowe narzędzia jakości - grupa siedmiu nowych narzędzi zarządzania jakością, które mają
Algorytmy sortujące i wyszukujące
Algorytmy sortujące i wyszukujące Zadaniem algorytmów sortujących jest ułożenie elementów danego zbioru w ściśle określonej kolejności. Najczęściej wykorzystywany jest porządek numeryczny lub leksykograficzny.
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego
Klasyfikator. ˆp(k x) = 1 K. I(ρ(x,x i ) ρ(x,x (K) ))I(y i =k),k =1,...,L,
Klasyfikator Jedną z najistotniejszych nieparametrycznych metod klasyfikacji jest metoda K-najbliższych sąsiadów, oznaczana przez K-NN. W metodzie tej zaliczamy rozpoznawany obiekt do tej klasy, do której
STUDIA INFORMATICA 2011 Volume 32 Number 2A (96)
STUDIA INFORMATICA 2011 Volume 32 Number 2A (96) Agnieszka NOWAK-BRZEZIŃSKA, Tomasz XIĘSKI Uniwersytet Śląski, Instytut Informatyki GRUPOWANIE DANYCH ZŁOŻONYCH Streszczenie. Artykuł stanowi wprowadzenie
TEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI 16/01/2017 WFAiS UJ, Informatyka Stosowana I rok studiów, I stopień Repetytorium złożoność obliczeniowa 2 Złożoność obliczeniowa Notacja wielkie 0 Notacja Ω i Θ Rozwiązywanie
DROGA ROZWOJU OD PROJEKTOWANIA 2D DO 3D Z WYKORZYSTANIEM SYSTEMÓW CAD NA POTRZEBY PRZEMYSŁU SAMOCHODOWEGO
Marta KORDOWSKA, Andrzej KARACZUN, Wojciech MUSIAŁ DROGA ROZWOJU OD PROJEKTOWANIA 2D DO 3D Z WYKORZYSTANIEM SYSTEMÓW CAD NA POTRZEBY PRZEMYSŁU SAMOCHODOWEGO Streszczenie W artykule omówione zostały zintegrowane
SCENARIUSZ LEKCJI. TEMAT LEKCJI: Zastosowanie średnich w statystyce i matematyce. Podstawowe pojęcia statystyczne. Streszczenie.
SCENARIUSZ LEKCJI OPRACOWANY W RAMACH PROJEKTU: INFORMATYKA MÓJ SPOSÓB NA POZNANIE I OPISANIE ŚWIATA. PROGRAM NAUCZANIA INFORMATYKI Z ELEMENTAMI PRZEDMIOTÓW MATEMATYCZNO-PRZYRODNICZYCH Autorzy scenariusza:
7. Identyfikacja defektów badanego obiektu
7. Identyfikacja defektów badanego obiektu Pierwszym krokiem na drodze do identyfikacji defektów było przygotowanie tzw. odcisku palca poszczególnych defektów. W tym celu został napisany program Gaussian
Skalowalność obliczeń równoległych. Krzysztof Banaś Obliczenia Wysokiej Wydajności 1
Skalowalność obliczeń równoległych Krzysztof Banaś Obliczenia Wysokiej Wydajności 1 Skalowalność Przy rozważaniu wydajności przetwarzania (obliczeń, komunikacji itp.) często pojawia się pojęcie skalowalności
SQL SERVER 2012 i nie tylko:
SQL SERVER 2012 i nie tylko: Wstęp do planów zapytań Cezary Ołtuszyk coltuszyk.wordpress.com Kilka słów o mnie Starszy Administrator Baz Danych w firmie BEST S.A. (Bazy danych > 1TB) Konsultant z zakresu
Analiza ilościowa w przetwarzaniu równoległym
Komputery i Systemy Równoległe Jędrzej Ułasiewicz 1 Analiza ilościowa w przetwarzaniu równoległym 10. Analiza ilościowa w przetwarzaniu równoległym...2 10.1 Kryteria efektywności przetwarzania równoległego...2
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
dr inż. Jarosław Forenc
Informatyka 2 Politechnika Białostocka - Wydział Elektryczny Elektrotechnika, semestr III, studia stacjonarne I stopnia Rok akademicki 2010/2011 Wykład nr 7 (24.01.2011) dr inż. Jarosław Forenc Rok akademicki
Algorytm. a programowanie -
Algorytm a programowanie - Program komputerowy: Program komputerowy można rozumieć jako: kod źródłowy - program komputerowy zapisany w pewnym języku programowania, zestaw poszczególnych instrukcji, plik
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Algorytmy klastujące Problem 3 Mając daną chmurę punktów chcielibyśmy zrozumieć ich
Programowanie współbieżne Wykład 2. Iwona Kochańska
Programowanie współbieżne Wykład 2 Iwona Kochańska Miary skalowalności algorytmu równoległego Przyspieszenie Stały rozmiar danych N T(1) - czas obliczeń dla najlepszego algorytmu sekwencyjnego T(p) - czas
Algorytmy rozpoznawania obrazów. 11. Analiza skupień. dr inż. Urszula Libal. Politechnika Wrocławska
Algorytmy rozpoznawania obrazów 11. Analiza skupień dr inż. Urszula Libal Politechnika Wrocławska 2015 1 1. Analiza skupień Określenia: analiza skupień (cluster analysis), klasteryzacja (clustering), klasyfikacja
Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami
Równoległy algorytm wyznaczania bloków dla cyklicznego problemu przepływowego z przezbrojeniami dr inż. Mariusz Uchroński Wrocławskie Centrum Sieciowo-Superkomputerowe Agenda Cykliczny problem przepływowy
Jeśli czas działania algorytmu zależy nie tylko od rozmiaru danych wejściowych i przyjmuje różne wartości dla różnych danych o tym samym rozmiarze,
Oznaczenia: Jeśli czas działania algorytmu zależy nie tylko od rozmiaru danych wejściowych i przyjmuje różne wartości dla różnych danych o tym samym rozmiarze, to interesuje nas złożoność obliczeniowa
Programowanie dynamiczne
Programowanie dynamiczne Patryk Żywica 5 maja 2008 1 Spis treści 1 Problem wydawania reszty 3 1.1 Sformułowanie problemu...................... 3 1.2 Algorytm.............................. 3 1.2.1 Prosty
Badania biegłości laboratorium poprzez porównania międzylaboratoryjne
Badania biegłości laboratorium poprzez porównania międzylaboratoryjne Dr inż. Maciej Wojtczak, Politechnika Łódzka Badanie biegłości (ang. Proficienty testing) laboratorium jest to określenie, za pomocą
Instytut Mechaniki i Inżynierii Obliczeniowej Wydział Mechaniczny Technologiczny Politechnika Śląska
Instytut Mechaniki i Inżynierii Obliczeniowej www.imio.polsl.pl fb.com/imiopolsl @imiopolsl Wydział Mechaniczny Technologiczny Politechnika Śląska Języki programowania z programowaniem obiektowym Laboratorium
Zachowania odbiorców. Grupa taryfowa G
Zachowania odbiorców. Grupa taryfowa G Autor: Jarosław Tomczykowski Biuro PTPiREE ( Energia elektryczna luty 2013) Jednym z założeń wprowadzania smart meteringu jest optymalizacja zużycia energii elektrycznej,
Komputerowe Systemy Przemysłowe: Modelowanie - UML. Arkadiusz Banasik arkadiusz.banasik@polsl.pl
Komputerowe Systemy Przemysłowe: Modelowanie - UML Arkadiusz Banasik arkadiusz.banasik@polsl.pl Plan prezentacji Wprowadzenie UML Diagram przypadków użycia Diagram klas Podsumowanie Wprowadzenie Języki
Bazy danych. Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. Wykład 3: Model związków encji.
Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Bazy danych Wykład 3: Model związków encji. dr inż. Magdalena Krakowiak makrakowiak@wi.zut.edu.pl Co to jest model związków encji? Model związków
Testy nieparametryczne
Testy nieparametryczne Testy nieparametryczne możemy stosować, gdy nie są spełnione założenia wymagane dla testów parametrycznych. Stosujemy je również, gdy dane można uporządkować według określonych kryteriów
Badania w sieciach złożonych
Badania w sieciach złożonych Grant WCSS nr 177, sprawozdanie za rok 2012 Kierownik grantu dr. hab. inż. Przemysław Kazienko mgr inż. Radosław Michalski Instytut Informatyki Politechniki Wrocławskiej Obszar
INFORMATYKA W SZKOLE. Podyplomowe Studia Pedagogiczne. Dr inż. Grażyna KRUPIŃSKA. D-10 pokój 227
INFORMATYKA W SZKOLE Dr inż. Grażyna KRUPIŃSKA grazyna@fis.agh.edu.pl D-10 pokój 227 Podyplomowe Studia Pedagogiczne 2 Algorytmy Nazwa algorytm wywodzi się od nazwiska perskiego matematyka Muhamed ibn
Bazy danych TERMINOLOGIA
Bazy danych TERMINOLOGIA Dane Dane są wartościami przechowywanymi w bazie danych. Dane są statyczne w tym sensie, że zachowują swój stan aż do zmodyfikowania ich ręcznie lub przez jakiś automatyczny proces.
PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM
Mostefa Mohamed-Seghir Akademia Morska w Gdyni PROGRAMOWANIE DYNAMICZNE W ROZMYTYM OTOCZENIU DO STEROWANIA STATKIEM W artykule przedstawiono propozycję zastosowania programowania dynamicznego do rozwiązywania
Zaawansowane algorytmy i struktury danych
Zaawansowane algorytmy i struktury danych u dr Barbary Marszał-Paszek Opracowanie pytań teoretycznych z egzaminów. Strona 1 z 12 Pytania teoretyczne z egzaminu pisemnego z 25 czerwca 2014 (studia dzienne)
Przygotowanie kilku wersji kodu zgodnie z wymogami wersji zadania,
Przetwarzanie równoległe PROJEKT OMP i CUDA Temat projektu dotyczy analizy efektywności przetwarzania równoległego realizowanego przy użyciu komputera równoległego z procesorem wielordzeniowym z pamięcią
Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym
Diagramy ERD. Model struktury danych jest najczęściej tworzony z wykorzystaniem diagramów pojęciowych (konceptualnych). Najpopularniejszym konceptualnym modelem danych jest tzw. model związków encji (ERM
Algorytm poprawny jednoznaczny szczegółowy uniwersalny skończoność efektywność (sprawność) zmiennych liniowy warunkowy iteracyjny
Algorytm to przepis; zestawienie kolejnych kroków prowadzących do wykonania określonego zadania; to uporządkowany sposób postępowania przy rozwiązywaniu zadania, problemu, z uwzględnieniem opisu danych
dr inż. Olga Siedlecka-Lamch 14 listopada 2011 roku Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska Eksploracja danych
- Instytut Informatyki Teoretycznej i Stosowanej Politechnika Częstochowska 14 listopada 2011 roku 1 - - 2 3 4 5 - The purpose of computing is insight, not numbers Richard Hamming Motywacja - Mamy informację,
Luty 2001 Algorytmy (4) 2000/2001
Mając dany zbiór elementów, chcemy znaleźć w nim element największy (maksimum), bądź najmniejszy (minimum). We wszystkich naturalnych metodach znajdywania najmniejszego i największego elementu obecne jest
OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA
OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 20.11.2002 Algorytmy i Struktury Danych PIŁA ZŁOŻONE STRUKTURY DANYCH C za s tw or ze nia s tr uk tur y (m s ) TWORZENIE ZŁOŻONYCH STRUKTUR DANYCH: 00 0
Kurs programowania. Wykład 12. Wojciech Macyna. 7 czerwca 2017
Wykład 12 7 czerwca 2017 Czym jest UML? UML składa się z dwóch podstawowych elementów: notacja: elementy graficzne, składnia języka modelowania, metamodel: definicje pojęć języka i powiazania pomiędzy
TEORETYCZNE PODSTAWY INFORMATYKI
1 TEORETYCZNE PODSTAWY INFORMATYKI WFAiS UJ, Informatyka Stosowana II stopień studiów Wykład 13b 2 Eksploracja danych Co rozumiemy pod pojęciem eksploracja danych Algorytmy grupujące (klajstrujące) Graficzna
mgr inż. Magdalena Deckert Poznań, r. Metody przyrostowego uczenia się ze strumieni danych.
mgr inż. Magdalena Deckert Poznań, 30.11.2010r. Metody przyrostowego uczenia się ze strumieni danych. Plan prezentacji Wstęp Concept drift i typy zmian Algorytmy przyrostowego uczenia się ze strumieni
Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,
Bazy Danych Bazy Danych i SQL Podstawowe informacje o bazach danych Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl Oczekiwania? 2 3 Bazy danych Jak przechowywać informacje? Jak opisać rzeczywistość?
Wyszukiwanie binarne
Wyszukiwanie binarne Wyszukiwanie binarne to technika pozwalająca na przeszukanie jakiegoś posortowanego zbioru danych w czasie logarytmicznie zależnym od jego wielkości (co to dokładnie znaczy dowiecie
Statystyka w pracy badawczej nauczyciela
Statystyka w pracy badawczej nauczyciela Wykład 1: Terminologia badań statystycznych dr inż. Walery Susłow walery.suslow@ie.tu.koszalin.pl Statystyka (1) Statystyka to nauka zajmująca się zbieraniem, badaniem
PRACA DYPLOMOWA STUDIA PIERWSZEGO STOPNIA. Łukasz Kutyła Numer albumu: 5199
PRACA DYPLOMOWA STUDIA PIERWSZEGO STOPNIA Łukasz Kutyła Numer albumu: 5199 Temat pracy: Metody kompresji obrazu implementowane we współczesnych systemach telewizji cyfrowej opartej o protokół IP Cel i
Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Opracował Jan T. Biernat
Programowanie Strukturalne i Obiektowe Słownik podstawowych pojęć 1 z 5 Program, to lista poleceń zapisana w jednym języku programowania zgodnie z obowiązującymi w nim zasadami. Celem programu jest przetwarzanie
2.8. Algorytmy, schematy, programy
https://app.wsipnet.pl/podreczniki/strona/38766 2.8. Algorytmy, schematy, programy DOWIESZ SIĘ co oznaczają pojęcia: algorytm, schemat blokowy, język programowania, jakie są sposoby obliczania największego
Modelowanie procesów współbieżnych
Modelowanie procesów współbieżnych dr inż. Maciej Piotrowicz Katedra Mikroelektroniki i Technik Informatycznych PŁ piotrowi@dmcs.p.lodz.pl http://fiona.dmcs.pl/~piotrowi -> Modelowanie... Literatura M.
PROPOZYCJA ZASTOSOWANIA WYMIARU PUDEŁKOWEGO DO OCENY ODKSZTAŁCEŃ PRZEBIEGÓW ELEKTROENERGETYCZNYCH
Prace Naukowe Instytutu Maszyn, Napędów i Pomiarów Elektrycznych Nr 56 Politechniki Wrocławskiej Nr 56 Studia i Materiały Nr 24 2004 Krzysztof PODLEJSKI *, Sławomir KUPRAS wymiar fraktalny, jakość energii
Projektowanie systemów informatycznych. Roman Simiński siminskionline.pl. Modelowanie danych Diagramy ERD
Projektowanie systemów informatycznych Roman Simiński roman.siminski@us.edu.pl siminskionline.pl Modelowanie danych Diagramy ERD Modelowanie danych dlaczego? Od biznesowego gadania do magazynu na biznesowe
Julia 4D - raytracing
i przykładowa implementacja w asemblerze Politechnika Śląska Instytut Informatyki 27 sierpnia 2009 A teraz... 1 Fraktale Julia Przykłady Wstęp teoretyczny Rendering za pomocą śledzenia promieni 2 Implementacja
Metody uporządkowania
Metody uporządkowania W trakcie faktoryzacji macierzy rzadkiej ilość zapełnień istotnie zależy od sposobu numeracji równań. Powstaje problem odnalezienia takiej numeracji, przy której: o ilość zapełnień
Algorytmy sortujące. sortowanie kubełkowe, sortowanie grzebieniowe
Algorytmy sortujące sortowanie kubełkowe, sortowanie grzebieniowe Sortowanie kubełkowe (bucket sort) Jest to jeden z najbardziej popularnych algorytmów sortowania. Został wynaleziony w 1956 r. przez E.J.
Strefa pokrycia radiowego wokół stacji bazowych. Zasięg stacji bazowych Zazębianie się komórek
Problem zapożyczania kanałów z wykorzystaniem narzędzi optymalizacji Wprowadzenie Rozwiązanie problemu przydziału częstotliwości prowadzi do stanu, w którym każdej stacji bazowej przydzielono żądaną liczbę