STUDIA INFORMATICA 2011 Volume 32 Number 2A (96)
|
|
- Bronisław Wróblewski
- 8 lat temu
- Przeglądów:
Transkrypt
1 STUDIA INFORMATICA 2011 Volume 32 Number 2A (96) Agnieszka NOWAK-BRZEZIŃSKA, Tomasz XIĘSKI Uniwersytet Śląski, Instytut Informatyki GRUPOWANIE DANYCH ZŁOŻONYCH Streszczenie. Artykuł stanowi wprowadzenie do tematyki grupowania danych złożonych i przeszukiwania takiej struktury. Przedstawia problemy z tym związane, skupiając się przede wszystkim na aspekcie tworzenia reprezentantów skupień. Przeprowadzone eksperymenty opierające się na wykorzystaniu algorytmu DBSCAN, pozwalają na porównanie efektywności wyszukiwania, relewantnych do zadanego pytania skupień, w zależności od sposobu tworzenia reprezentantów grup. Słowa kluczowe: DBSCAN, dane złożone, grupowanie, eksploracja danych CLUSTERING COMPLEX DATA Summary. This work provides an introduction to the matter of clustering complex data and searching through such a structure. It presents related problems, focusing primarily on the aspect of creating cluster representatives. Carried out experiments based on using the DBSCAN algorithm allow to compare the efficiency of finding relevant to the given question clusters, depending on the way of cluster representatives were created. Keywords: DBSCAN, complex data, clustering, data 1. Wprowadzenie Niewątpliwie opracowane dotąd metody grupowania nie nadają sie do zastosowania do danych złożonych. Jedne są efektywne tylko i wyłącznie w zastosowaniu do danych ilościowych, inne osiągają dobre rezultaty, gdy operują na danych jakościowych [3]. Nie ma natomiast opracowanych solidnie metod grupowania danych różnych typów: zarówno opisanych atrybutami jakościowymi, jak i ilościowymi [2]. Mało tego, gdy tych danych jest wiele, zarówno cech opisujących obiekty, jak i samych obiektów, dane te możemy nazwać złożonymi i takie zbiory w niniejszym artykule będą podstawą analizy. Poprzez dane złożone rozumie
2 392 A. Nowak-Brzezińska, T. Xięski się zatem duże ilości danych różnego typu: ciągi znaków, daty, liczby całkowite i rzeczywiste, gromadzone w hurtowniach i bazach danych. Prócz opracowania efektywnych algorytmów grupowania danych złożonych powstaje problem poprawnego opisu tak powstałych grup obiektów. Grupy te mogą mieć bardzo nieregularne kształty (przykładowo mogą w pewnym stopniu nachodzić na siebie) lub mogą być podobne do siebie tylko w pewnym, niewielkim zakresie [4]. Aspekt tworzenia poprawnych i zrozumiałych reprezentantów grup jest istotny, nie tylko w kontekście właściwej analizy i interpretacji znalezionych powiązań, ale ma on również znaczący wpływ na proces przeszukiwania utworzonej struktury skupień. Celem niniejszego artykułu jest przybliżenie problematyki grupowania danych złożonych oraz przeszukiwania takiej struktury, w zależności od przyjętej konwencji tworzenia reprezentantów grup. Wszystkie kwestie poruszane w artykule zostaną omówione na przykładzie rzeczywistego problemu eksploracji danych, dotyczącego telefonii komórkowej Opis rzeczywistego problemu eksploracji danych W wyniku współpracy z jedną z firm świadczącą usługi telekomunikacyjne, autorzy weszli w posiadanie rzeczywistej bazy danych, gromadzącej informacje na temat działania i dostępności urządzeń nadawczo-odbiorczych, rozlokowanych w regionie katowickim. Celem tejże współpracy jest próba rozwiązania następującego problemu eksploracji danych: co wpływa na wysoką niedostępność urządzeń nadawczo-odbiorczych w regionie katowickim? Aby dobrze zrozumieć specyfikę i złożoność tego problemu, należy zdefiniować kilka pojęć związanych z prawidłowym funkcjonowaniem telefonii komórkowej. Systemy telefonii komórkowej od innych bezprzewodowych systemów łączności radiowej odróżniają dwie najistotniejsze cechy: komórkowa struktura sieci. Sieć składa się z wielu urządzeń nadawczo-odbiorczych (tzw. komórek), z których każda jest obsługiwana przez określoną stację bazową. Komórki te są różnych rozmiarów, w zależności od stopnia skomplikowania terenu i skupienia abonentów, ciągła aktualizacja stanu aktywnych telefonów komórkowych, znajdujących się w zasięgu określonej stacji bazowej. Aktualizacja ta ma na celu lokalizację przemieszczających się abonentów. Może być dokonywana automatycznie, na bieżąco podczas inicjowania każdego połączenia lub okresowo podczas przemieszczania się abonenta z zasięgu jednej komórki do drugiej. Dwa najważniejsze elementy biorąc pod uwagę topologię sieci telefonii komórkowej zapewniające jej działanie to wspomniana już stacja bazowa oraz kontroler takiej stacji. W skład każdej stacji bazowej (ang. base transceiver station) wchodzą następujące elementy:
3 Grupowanie danych złożonych 393 komórki (ang. cells) urządzenia nadawczo-odbiorcze, wzmacniacz sygnału (ang. power amplifier), przełącznik antenowy (ang. duplexer), łącznik sygnału (ang. combiner), system kontrolno-alarmowy (ang. alarm and control system). Należy tutaj również nadmienić, że stacja bazowa obsługuje wiele komórek oraz zapewnia bezprzewodową łączność między terminalem abonenta (telefonem) a infrastrukturą operatora telefonii komórkowej. Kolejnym istotnym urządzeniem, ściśle powiązanym ze stacjami bazowymi, jest kontroler stacji bazowych (ang. Base Station Controller), który odpowiada za logikę działania tychże stacji. Do jego zadań należy m.in.: wybór i przydzielanie odpowiednich kanałów radiowych, kontrola przekazywania obsługi telefonu komórkowego z jednej stacji bazowej do drugiej, odbiór i przetwarzanie parametrów pomiarowo-identyfikacyjnych telefonów komórkowych. Zwykle pod jednym kontrolerem pracuje od kilku do kilkuset stacji bazowych. Aby zapewnić ciągłość zasięgu minimalnym kosztem na danym obszarze geograficznym, stacje bazowe powinny być ułożone na kształt plastra miodu. Cały obszar, który należy pokryć jest więc dzielony na heksagonalne regiony, w których centrum znajduje się stacja bazowa [9]. Ilustruje to rys. 1. Rys. 1. Tworzenie obszarów komórkowych Fig. 1. Creation of cellular regions Niestety w rzeczywistych warunkach kształt ten jest daleki od idealnego. Charakter zabudowy i konfiguracji ulic, wysokość budynków czy nieregularne ukształtowanie terenu mają znaczący (często negatywny) wpływ na zasięg i jakość połączenia. Dlatego też stacje bazowe rozmieszone są dużo bliżej siebie niż pozwala na to teoria.
4 394 A. Nowak-Brzezińska, T. Xięski 1.2. Struktura zestawu danych Zestaw danych, stanowiący przedmiot analizy, agregował dane dotyczące urządzeń nadawczo-odbiorczych w regionie katowickim, pochodzące z okresu od kwietnia do listopada 2010 roku. Struktura każdego rekordu danych, wraz z przykładowymi wartościami, została przedstawiona w tabeli 1. Pomiar dostępności danej komórki dokonywany był w godzinnych interwałach czasu. Znaczenie poszczególnych atrybutów jest następujące: cellname identyfikator określonej komórki, starttime godzina i data startu pomiaru, data data dokonania pomiaru (pole pozostawione celowo w strukturze), strata bezwzględny procent niedostępności danej komórki w danej godzinie, stratawzglregionu niedostępność komórki określana względem danego regionu, stratawzglmikroregionu niedostępność komórki określana względem danego mikroregionu, czyproblem określenie czy występuje jakiś problem z daną komórką (została wyłączona celowo, ze względu na zaplanowane prace bądź też z innych powodów), czywoinn dział utrzymania sieci ma zlecenie na wykonywanie prac przy danej komórce, czywoteren inny dział niż utrzymania sieci ma zlecenie na wykonywanie prac przy danej komórce, czyworkflow zostało wystawione zlecenie na dokonanie prac przy komórce, czestosc liczba zdarzeń jakie odnotowano przez cały dzień, związanych z pracą określonej komórki, czastrwaniah czas trwania określonego zdarzenia, wyrażony w godzinach, typprbid określa typ problemu, jaki wystąpił z daną komórką związanego z zasilaniem, transmisją, sprzętowy lub inny, czyplanowane określa czy dane zdarzenie było zaplanowane, zdarzenieid identyfikator zdarzenia, technologiaid technologia nadawcza, w której pracuje komórka, kontrolerid identyfikator kontrolera, który steruje pracą danej komórki, dostawcaid identyfikator producenta danej komórki, obszarid identyfikator obszaru, na którym pracuje dana komórka. W bazie danych występuje pięć atrybutów dychotomicznych (czyproblem, czywoinn, czywoteren, czyworkflow, czyplanowane), które ze względu na swoją specyfikę znacząco utrudniają grupowanie (a konkretnie prawidłowe wyliczenie podobieństwa dwóch rekordów między sobą). Ponadto, występuje również pięć atrybutów niezmiennych dla określonej ko-
5 Grupowanie danych złożonych 395 mórki, takich jak: jej identyfikator, identyfikator kontrolera, identyfikator dostawcy i obszaru, na którym pracuje dana komórka czy używana technologia nadawcza. Już na tym etapie widać, że pierwszym problemem do rozwiązania będzie właściwe wyznaczenie stopnia podobieństwa między dwoma wpisami z zestawu danych. Szczególnie kłopotliwe wydają się być atrybuty jakościowe (wszelkie identyfikatory), dla których w tym przypadku niemożliwe jest określenie jakiejkolwiek hierarchii porządku i podobieństwa. Przykładowo kontrolery o identyfikatorach 101 i 102, mimo że numerycznie różnią się tylko o jedną wartość (co by wskazywało na ich relatywnie wysokie podobieństwo) mogą tyczyć się dwóch, zupełnie niepowiązanych ze sobą urządzeń. Biorąc ten problem pod uwagę, podejściem zastosowanym w tym artykule jest miara stopnia podobieństwa jako, liczba cech mających dokładnie te same wartości. Tabela 1 Rekord danych poddawanych analizie NAZWA ATRYBUTU WARTOŚĆ cellname 50010A1 starttime :00 data strata 0, stratawzglregionu 1,64372E-09 stratawzglmikroregio- 1,30448E-08 czyproblem 0 czywoinn 0 czywoteren 0 czyworkflow 0 czestosc 1 czastrwaniah 1 typprbid 0 czyplanowane 0 zdarzenieid technologiaid 1 kontrolerid 108 dostawcaid 4 obszarid Opis algorytmu grupującego Kolejnym problemem dotyczącym grupowania przedstawionego we wcześniejszym punkcie zbioru danych jest, co zostało również zaznaczone we wprowadzeniu, wybór właściwego algorytmu analizy skupień. Przy dużych i złożonych wolumenach danych pierwszorzędne znaczenie ma oczywiście złożoność obliczeniowa. Eliminuje to wykorzystanie algorytmów z grupy hierarchicznych, dla których z reguły ten parametr nie jest ich mocną stroną.
6 396 A. Nowak-Brzezińska, T. Xięski Proste algorytmy partycjonujące (k-means) i ich pochodne (fuzzy c-means), mimo znacznie niższej złożoności obliczeniowej, mają wiele innych wad, które dyskwalifikują je w możliwości rozwiązania przedstawionego problemu (jak: duża zależność od warunków początkowych, sztywny podział na z góry określoną liczbę grup, wrażliwość na występowanie wartości izolowanych). Dlatego też ostatecznie zdecydowano się na wykorzystanie gęstościowego algorytmu DBSCAN (ang. Density-Based Spatial Clustering of Applications with Noise). Ze względu na to, że został on szczegółowo omówiony przez autorów już we wcześniejszych publikacjach (m.in. w [1, 2, 3]), pozwolono sobie przytoczyć tutaj jedynie ogólną zasadę jego działania. Algorytm DBSCAN można przedstawić w kilku punktach: 1) dowolny wybór jednego z obiektów p podlegającego grupowaniu, 2) znalezienie wszystkich obiektów osiągalnych gęstościowo opierając się na parametrach Eps oraz MinPts: a) jeśli p jest obiektem centrum, to formowany jest klaster, b) jeśli p jest obiektem granicznym i żaden z punktów nie jest osiągalny gęstościowo z obiektu p, wtedy algorytm DBSCAN przechodzi do następnego obiektu w zbiorze danych, 3) proces jest kontynuowany do momentu przeanalizowania wszystkich elementów. Pierwszym krokiem algorytmu jest wylosowanie obiektu p oraz wyznaczenie wszystkich obiektów, które są gęstościowo osiągalne z obiektu p (przy zadanych wartościach Eps maksymalnego promienia sąsiedztwa i MinPts minimalnej liczbie obiektów, wchodzących w skład grupy). Jeżeli p jest obiektem wewnętrznym, to krok ten skutkuje powstaniem pierwszej grupy. Jeżeli p jest obiektem krańcowym, to żaden obiekt nie jest gęstościowo osiągalny z p, więc algorytm wybiera kolejny obiekt ze zbioru danych. Proces ten jest powtarzany, aż nie zostaną przeanalizowane wszystkie obiekty ze zbioru danych wejściowych. Obiekty niezaklasyfikowane do żadnego skupienia są oznaczane jako szum informacyjny [4]. Widać wyraźnie, że obiekty łączone są w grupy głównie na podstawie podobieństwa między sobą, a skupienia są to (intuicyjnie rzecz ujmując) gęsto ułożone obszary obiektów (co odpowiada naturalnie pojmowanej definicji grupowania). Pewnym problemem może być prawidłowe ustawienie parametrów startowych algorytmu Eps i MinPts. W niniejszym artykule przyjęto następującą metodę: parametry te zostały eksperymentalnie tak dobrane, by liczba grup stanowiła około 10% całego zbioru danych (jest to wartość akceptowalna, by nie utrudniała dalszej analizy wykrytych zależności) oraz by grupa obiektów izolowanych była jak najmniejsza (ponieważ zbyt duża liczba takich wpisów również mogłaby być stosunkowo trudna w dalszej analizie).
7 Grupowanie danych złożonych Koncepcje tworzenia reprezentantów grup Następną istotną kwestią przy grupowaniu danych złożonych jest (jak to zaznaczono na wstępie) sposób opisu utworzonych grup. Naturalnie każda grupa ma swojego reprezentanta i to zazwyczaj jego opis stanowi informacje o zawartości określonego skupienia. W literaturze przedmiotu ([5], [6]) wyróżnia się między innymi trzy koncepcje tworzenia reprezentantów grup: reprezentant jako uśrednienie wartości cech obiektów należących do grupy (centroid), reprezentant jako wybrany obiekt ze zbioru danych (medoid), reprezentant jako zestaw najczęściej występujących deskryptorów w obrębie grupy. W przypadku zastosowania centroidu jako reprezentanta grup, nie zawsze możliwe jest jego trywialne określenie, a także może on nie odpowiadać dobrze faktycznej zawartości danego skupienia (chociażby w przypadku, gdyby występował duży rozrzut między wartościami danej cechy obiektów, należących do tej samej grupy). Jeżeli zdecydowano by wykorzystać koncepcję medoidów do tworzenia reprezentantów, to analityk danych nadal miałby problem (analizując tylko samego reprezentanta) ustalić jakie faktycznie obiekty (o jakich wartościach cech) wchodzą w skład danej grupy. Reprezentant traktowany jako zestaw najczęściej występujących deskryptorów, z logicznego i intuicyjnego podejścia, dość dobrze reprezentuje konkretnie skupienie, natomiast problem wystąpiłby w przypadku grup mało spójnych (ponieważ tak naprawdę nie wiadomo dokładnie ile obiektów posiada w swoim opisie dany deskryptor). Biorąc pod uwagę przedstawione aspekty, postanowiono zaproponować dwie inne koncepcje tworzenia reprezentantów, oparte na operatorach sumy i iloczynie logicznym klasycznej logiki (wykorzystywane bardzo często przy formułowaniu pytań do wyszukiwarek internetowych). Wyróżniono zatem dwie koncepcje tworzenia reprezentantów grup: reprezentant jako przecięcie deskryptorów opisujących obiekty wchodzące w skład danej grupy; przykład: (obszarid, 20)AND(dostawcaId, 2)AND(kontrolerId, 171)AND(technologiaId, 2) reprezentant jako zestaw unikalnych deskryptorów wchodzących w skład opisów obiektów danej grupy; przykład: [(cellname, 50028B1)OR(cellname, 50028B2)OR(cellname, 50028B5)]AND (dostawcaid, 4) Zaletą pierwszej koncepcji jest fakt, że na pierwszy rzut oka widać dlaczego dane obiekty zostały połączone w jedną grupę oraz jakimi wartościami poszczególnych parametrów wyróżniają się na tle innych skupień. Reprezentant tego typu jest zatem relatywnie łatwy i prosty w analizie.
8 398 A. Nowak-Brzezińska, T. Xięski Druga z przedstawionych koncepcji daje pełniejszy obraz zawartości danej grupy, jednakże może być dużo trudniejsza w interpretacji, jeżeli w ramach danej grupy będzie stosunkowo dużo unikalnych deskryptorów. 3. Przeprowadzone eksperymenty Celem przeprowadzonych eksperymentów było zbadanie efektywności przeszukiwania złożonych grup obiektów pod kątem różnych pytań (różnych kryteriów), kierowanych do systemu, w zależności od metody tworzenia reprezentantów skupień. Pytanie kierowane do systemu porównywane było wyłącznie z reprezentantami skupień, natomiast stopień relewancji reprezentanta i pytania określony był jako liczba wspólnych deskryptorów. We wszystkich przeprowadzonych eksperymentach liczba utworzonych grup była stała i równa 242, a do grupowania brano pod uwagę wszystkie 19 atrybutów. Ze względu na ograniczony czas wykonania wstępnych eksperymentów ograniczono zestaw danych do 3000 rekordów. Analiza efektywności przeszukiwania utworzonej struktury złożonych grup została przeprowadzona bazując na trzech parametrach: kompletności i dokładności odpowiedzi oraz zysku czasowego. W klasycznym ujęciu (proponowanym m.in. w pracach [7, 8]) kompletnością nazywa się zdolność systemu do wyszukiwania obiektów relewantnych, a dokładnością zdolność do niewyszukiwania obiektów nierelewantnych. Obiekt uważany jest za relewantny, jeśli w swoim opisie ma co najmniej jeden deskryptor wchodzący w skład pytania. Kompletność odpowiedzi zatem rozumiana jest jako stosunek liczby relewantnych, wyszukanych obiektów, do wszystkich relewantnych do zadanego pytania obiektów. Dokładność odpowiedzi natomiast jest to stosunek liczby wyszukanych, relewantnych obiektów do wszystkich wyszukanych obiektów. Komentarza wymaga również pojęcie zysku czasowego, które zostało określone jako krotność przyspieszenia generowania przez system odpowiedzi w stosunku do zastosowania metody przeglądu zupełnego wszystkich obiektów w bazie. Wszystkie eksperymenty zostały przeprowadzone wykorzystując platformę bazodanową Microsoft SQL 2008 Enterprise Server, na podstawie której zaimplementowano wybrany algorytm grupowania Wyniki eksperymentów Pierwszy przeprowadzony eksperyment polegał na zadaniu do systemu opartego na algorytmie DBSCAN następującego pytania: Znajdź komórki sterowane przez kontroler 106, dla których nie były zaplanowane żadne prace, a które były niedostępne przez godzinę w ciągu całego dnia. W tym przypadku reprezentant tworzony był jako przecięcie wszystkich de-
9 Grupowanie danych złożonych 399 skryptorów (opisów obiektów wchodzących do grupy). Podsumowanie wyników zwróconych w odpowiedzi prezentuje tabela 1. Przy bardzo niewielkiej liczbie obiektów relewantnych (w tym przypadku równiej cztery) osiągnięto pełną dokładność oraz dość wysoki poziom kompletności. Odpowiedź na zadane pytanie osiągnięto ponad 12-krotnie szybciej, aniżeli przy zastosowaniu metody przeglądu zupełnego. Drugi przeprowadzony eksperyment polegał na zadaniu do systemu tego samego pytania, jednakże tym razem reprezentanci grup tworzeni byli jako zestaw unikalnych deskryptorów (wchodzących w skład opisu obiektów danej grupy). Wyniki zostały zaprezentowane w tabeli 2. Mimo zmiany metody tworzenia reprezentantów, wyniki przeprowadzonego eksperymentu (w porównaniu z poprzednim) są identyczne. Nie bez znaczenia jest jednak fakt, że ogólna liczba obiektów wchodzących w skład zwróconej w odpowiedzi grupy jest bardzo niska istnieje duże prawdopodobieństwo, że wszystkie obiekty zawarte w tej grupie mają niemalże identyczne opisy, przez co zmiana sposobu tworzenia reprezentanta na bardziej restrykcyjną (reprezentant tworzony z wykorzystaniem spójnika AND w ogólnym przypadku jest dużo krótszy niż ten stworzony używając spójnika OR) nie wpłynęło negatywnie na wyniki wyszukiwania. Tabela 2 Wyniki dla I przypadku testowego DBSCAN Liczba obiektów relewantnych 4 Liczba obiektów znalezionych przez system 3 Kompletność 0, Dokładność 1, Zysk czasowy w stosunku do MPZ 12,40 Tabela 3 Wyniki dla II przypadku testowego DBSCAN Liczba obiektów relewantnych 4 Liczba obiektów znalezionych przez system 3 Kompletność 0, Dokładność 1, Zysk czasowy w stosunku do MPZ 12,40 Kolejny przeprowadzony eksperyment polegał na zmianie pytania do systemu i obserwacji jego zachowania. Tym razem pytanie brzmiało: Znajdź komórki sterowane przez kontroler 107, które były niedostępne 2 godziny w ciągu całego dnia. Reprezentant znowuż tworzony był jako przecięcie wszystkich deskryptorów. Tym razem jednak wyniki są już znacznie bardziej interesujące, co ilustruje tabela 3.
10 400 A. Nowak-Brzezińska, T. Xięski Mimo iż nadal tylko mały procent ogółem obiektów w bazie był relewantny do zadanego pytania oraz system w odpowiedzi zwrócił grupę liczącą niewiele obiektów (bo tylko cztery), to żaden obiekt zwrócony przez system nie stanowił prawidłowej odpowiedzi na zadane pytanie (stąd zerowe kompletność i dokładność). Zysk czasowy w stosunku do zastosowania metody przeglądu zupełnego jest ujemny, ponieważ czas przeznaczony na przeszukiwanie struktury grup jest czasem straconym system nie zwrócił pożądanej odpowiedzi i należałoby i tak wykonać przegląd zupełny zestawu danych. Odmienną sytuacje prezentują wyniki zamieszczone w tabeli 4. Pytanie kierowane do systemu pozostało niezmienione, natomiast zmianie uległ sposób tworzenia reprezentantów jako zestaw unikalnych deskryptorów. W tym przypadku system zwrócił więcej obiektów niż oczekiwano (bo aż 28 podczas, gdy relewantnych do pytania ogółem było dziesięć), stąd niska wartość parametru dokładności. Kompletność na poziomie 0,6 jest również wartością niższą niż oczekiwano, aczkolwiek jest to (mimo wszystko) sytuacja dużo lepsza, niż zademonstrowana w poprzednim przypadku testowym. Tabela 4 Wyniki dla III przypadku testowego DBSCAN Liczba obiektów relewantnych 10 Liczba obiektów znalezionych przez system 4 Kompletność 0 Dokładność 0 Zysk czasowy w stosunku do MPZ -0,81 Tabela 5 Wyniki dla IV przypadku testowego DBSCAN Liczba obiektów relewantnych 10 Liczba obiektów znalezionych przez system 28 Kompletność 0, Dokładność 0, Zysk czasowy w stosunku do MPZ 12,40 4. Podsumowanie Celem niniejszego artykułu było krótkie przedstawienie problemów narastających przy zagadnieniu grupowania danych złożonych, na rzeczywistym zbiorze danych odnośnie telefonii komórkowej. Szczególnym przedmiotem analizy był aspekt tworzenia reprezentantów skupień oraz jego wpływ zarówno na właściwy opis elementów, jak i na proces wyszukiwania obiektów relewantnych do zadanego pytania. Przeprowadzone eksperymenty miały na celu zbadać poziom efektywności odpowiedzi systemu, mierzonej standardowymi miarami
11 Grupowanie danych złożonych 401 kompletności oraz dokładności. Wyniki jednoznacznie wskazują na to, że sposób tworzenia reprezentantów ma spore znaczenie dla wyszukania bądź nie obiektów relewantnych. Grupowanie danych złożonych rodzi wiele problemów implementacyjnych, wśród których należałoby wyróżnić: brak prostej struktury do przechowywania danych różnego typu, duże złożoności obliczeniową i pamięciową, związane z wykonywaniem operacji na tych danych, problematyczne wyliczanie podobieństwa, gdy występują zarówno dane ilościowe, jak i jakościowe. BIBLIOGRAFIA 1. Xięski T.: Zastosowanie algorytmu DBSCAN dla grupowania danych tekstowych, [w:] Wakulicz-Deja A. (red.): Systemy wspomagania decyzji. Instytut Informatyki Uniwersytetu Śląskiego, Sosnowiec Nowak-Brzezińska A., Jach T., Xięski T.: Finding a relevant document in the clusters of documents characteristics. Intelligent Information Systems, 2010, s Nowak-Brzezińska A., Jach T., Xięski T.: Wybór algorytmu grupowania a efektywność wyszukiwania dokumentów. Studia Informatica, Wyd. Pol. Śląskiej, Vol. 31, No. 2A (89), 2010, s Ester M., Ester K., Sander H.-P., Sander J., Xu X.: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. Proceedings of 2nd Conference on Knowledge Discovery and Data Mining, USA Nowak A., Wakulicz-Deja A., Bachliński S.: Optimization of Speech Recognition by Clustering of Phones. Fundamenta Informaticae, Holandia 2006, s Tan P.-N., Steinbach M., Vipin K.: Introduction to Data Mining. Addison-Wesley, USA Rijsbergen C. J.: Information retrieval. Butterworth-Heinemann, UK Wakulicz-Deja A.: Podstawy systemów wyszukiwania informacji. Analiza metod. Akademicka Oficyna Wydawnicza PLJ, Warszawa Hustecki J.: Vademecum Teleinformatyka, cz. I, praca zbiorowa. IDG Poland, Warszawa Recenzenci: Dr hab. inż. Marcin Gorawski, prof. Pol. Wrocławskiej Dr hab. inż. Adam Pelikant, prof. Pol. Łódzkiej Wpłynęło do Redakcji 15 stycznia 2011 r.
12 402 A. Nowak-Brzezińska, T. Xięski Abstract In this paper the topic of clustering complex data (using the well known density based DBSCAN algorithm) and searching though such a structure is discussed. Authors focus on comparing the efficiency of the search process based on two presented methods of creating the cluster representatives and various types of questions. The data set used in the experiments includes real life information about the functioning of transceivers of a cellular phone operator located in various parts of the Katowice region. The results of performed experiments show that domain knowledge and ways of creating cluster representatives have a huge impact on discovering inner data relationships as well as the search results. In conclusion authors also note that clustering complex data brings up many implementation problems, which may not be so obvious from the beginning. Adresy Agnieszka NOWAK-BRZEZIŃSKA: Uniwersytet Śląski, Instytut Informatyki, ul. Będzińska 39, Sosnowiec, Polska, agnieszka.nowak@us.edu.pl. Tomasz XIĘSKI: Uniwersytet Śląski, Instytut Informatyki, ul. Będzińska 39, Sosnowiec, Polska, tomasz.xieski@us.edu.pl.
WYBÓR ALGORYTMU GRUPOWANIA A EFEKTYWNOŚĆ WYSZUKIWANIA DOKUMENTÓW
STUDIA INFORMATICA 2010 Volume 31 Number 2A (89) Agnieszka NOWAK BRZEZIŃSKA, Tomasz JACH, Tomasz XIĘSKI Uniwersytet Śląski, Wydział Informatyki i Nauki o Materiałach, Instytut Informatyki WYBÓR ALGORYTMU
Michał Kozielski Łukasz Warchał. Instytut Informatyki, Politechnika Śląska
Michał Kozielski Łukasz Warchał Instytut Informatyki, Politechnika Śląska Algorytm DBSCAN Algorytm OPTICS Analiza gęstego sąsiedztwa w grafie Wstępne eksperymenty Podsumowanie Algorytm DBSCAN Analiza gęstości
Metoda List Łańcuchowych
Metoda List Łańcuchowych mgr Tomasz Xięski, Instytut Informatyki, Uniwersytet Śląski Sosnowiec, 2010 Celem metody jest utrzymanie zalet MLI (dobre czasy wyszukiwania), ale wyeliminowanie jej wad (wysoka
STUDIA INFORMATICA 2014 Volume 35 Number 2 (116)
STUDIA INFORMATICA 2014 Volume 35 Number 2 (116) Agnieszka NOWAK-BRZEZIŃSKA, Tomasz XIĘSKI Uniwersytet Śląski, Instytut Informatyki WYDOBYWANIE WIEDZY Z DANYCH ZŁOŻONYCH Streszczenie. Artykuł przedstawia
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl
Text mining w programie RapidMiner Michał Bereta www.michalbereta.pl 1. Wstęp Aby skorzystać z możliwości RapidMinera w zakresie analizy tekstu, należy zainstalować Text Mining Extension. Wybierz: 1 Po
Data Mining Wykład 9. Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster. Plan wykładu. Sformułowanie problemu
Data Mining Wykład 9 Analiza skupień (grupowanie) Grupowanie hierarchiczne O-Cluster Plan wykładu Wprowadzanie Definicja problemu Klasyfikacja metod grupowania Grupowanie hierarchiczne Sformułowanie problemu
Bazy danych TERMINOLOGIA
Bazy danych TERMINOLOGIA Dane Dane są wartościami przechowywanymi w bazie danych. Dane są statyczne w tym sensie, że zachowują swój stan aż do zmodyfikowania ich ręcznie lub przez jakiś automatyczny proces.
MATEMATYCZNY MODEL PĘTLI HISTEREZY MAGNETYCZNEJ
ELEKTRYKA 014 Zeszyt 1 (9) Rok LX Krzysztof SZTYMELSKI, Marian PASKO Politechnika Śląska w Gliwicach MATEMATYCZNY MODEL PĘTLI ISTEREZY MAGNETYCZNEJ Streszczenie. W artykule został zaprezentowany matematyczny
GĘSTOŚCIOWA METODA GRUPOWANIA I WIZUALIZACJI DANYCH ZŁOŻONYCH
STUDIA INFORMATICA 2012 Volume 33 Number 2A (105) Agnieszka NOWAK-BRZEZIŃSKA, Tomasz XIĘSKI Uniwersytet Śląski, Instytut Informatyki GĘSTOŚCIOWA METODA GRUPOWANIA I WIZUALIZACJI DANYCH ZŁOŻONYCH Streszczenie.
Analiza i projektowanie oprogramowania. Analiza i projektowanie oprogramowania 1/32
Analiza i projektowanie oprogramowania Analiza i projektowanie oprogramowania 1/32 Analiza i projektowanie oprogramowania 2/32 Cel analizy Celem fazy określania wymagań jest udzielenie odpowiedzi na pytanie:
Metoda list prostych Wykład II. Agnieszka Nowak - Brzezińska
Metoda list prostych Wykład II Agnieszka Nowak - Brzezińska Wprowadzenie Przykładowa KW Inna wersja KW Wyszukiwanie informacji Metoda I 1. Przeglądamy kolejne opisy obiektów i wybieramy te, które zawierają
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych
Automatyczne tworzenie trójwymiarowego planu pomieszczenia z zastosowaniem metod stereowizyjnych autor: Robert Drab opiekun naukowy: dr inż. Paweł Rotter 1. Wstęp Zagadnienie generowania trójwymiarowego
Hierarchiczna analiza skupień
Hierarchiczna analiza skupień Cel analizy Analiza skupień ma na celu wykrycie w zbiorze obserwacji klastrów, czyli rozłącznych podzbiorów obserwacji, wewnątrz których obserwacje są sobie w jakimś określonym
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Aproksymacja funkcji a regresja symboliczna
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(x), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(x), zwaną funkcją aproksymującą
QUERY język zapytań do tworzenia raportów w AS/400
QUERY język zapytań do tworzenia raportów w AS/400 Dariusz Bober Katedra Informatyki Politechniki Lubelskiej Streszczenie: W artykule przedstawiony został język QUERY, standardowe narzędzie pracy administratora
Metody indeksowania dokumentów tekstowych
Metody indeksowania dokumentów tekstowych Paweł Szołtysek 21maja2009 Metody indeksowania dokumentów tekstowych 1/ 19 Metody indeksowania dokumentów tekstowych 2/ 19 Czym jest wyszukiwanie informacji? Wyszukiwanie
Grupowanie Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633
Grupowanie Grupowanie 7 6 5 4 y 3 2 1 0-3 -2-1 0 1 2 3 4 5-1 -2-3 -4 x Witold Andrzejewski, Politechnika Poznańska, Wydział Informatyki 201/633 Wprowadzenie Celem procesu grupowania jest podział zbioru
XII International PhD Workshop OWD 2010, 23 26 October 2010. Metodyka pozyskiwania i analizy wyników badań symulacyjnych ścieżek klinicznych
XII International PhD Workshop OWD 2010, 23 26 October 2010 Metodyka pozyskiwania i analizy wyników badań symulacyjnych ścieżek klinicznych Methodology of Acquiring and Analyzing Results of Simulation
Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych
Interaktywne wyszukiwanie informacji w repozytoriach danych tekstowych Marcin Deptuła Julian Szymański, Henryk Krawczyk Politechnika Gdańska Wydział Elektroniki, Telekomunikacji i Informatyki Katedra Architektury
Agnieszka Nowak Brzezińska Wykład III
Agnieszka Nowak Brzezińska Wykład III Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną niezależność zmiennych niezależnych (tu naiwność) Bardziej opisowe
Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych
Temat: Data mininig i wielowymiarowa analiza danych zgromadzonych w systemach medycznych na potrzeby badań naukowych Autorzy: Tomasz Małyszko, Edyta Łukasik 1. Definicja eksploracji danych Eksploracja
BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI
14 BADANIA ZRÓŻNICOWANIA RYZYKA WYPADKÓW PRZY PRACY NA PRZYKŁADZIE ANALIZY STATYSTYKI WYPADKÓW DLA BRANŻY GÓRNICTWA I POLSKI 14.1 WSTĘP Ogólne wymagania prawne dotyczące przy pracy określają m.in. przepisy
Maciej Piotr Jankowski
Reduced Adder Graph Implementacja algorytmu RAG Maciej Piotr Jankowski 2005.12.22 Maciej Piotr Jankowski 1 Plan prezentacji 1. Wstęp 2. Implementacja 3. Usprawnienia optymalizacyjne 3.1. Tablica ekspansji
Kryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji
Kryteria stopu algorytmu grupowania reguł a efektywność systemu wspomagania decyzji Agnieszka Nowak Alicja Wakulicz-Deja Zakład Systemów Informatycznych Instytut Informatyki Uniwersytetu Śląskiego Sosnowiec,
Technologie informacyjne - wykład 12 -
Zakład Fizyki Budowli i Komputerowych Metod Projektowania Instytut Budownictwa Wydział Budownictwa Lądowego i Wodnego Politechnika Wrocławska Technologie informacyjne - wykład 12 - Prowadzący: Dmochowski
ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH
1 ALGORYTMICZNA I STATYSTYCZNA ANALIZA DANYCH WFAiS UJ, Informatyka Stosowana II stopień studiów 2 Eksploracja danych Co to znaczy eksploracja danych Klastrowanie (grupowanie) hierarchiczne Klastrowanie
Klasyfikatory: k-nn oraz naiwny Bayesa. Agnieszka Nowak Brzezińska Wykład IV
Klasyfikatory: k-nn oraz naiwny Bayesa Agnieszka Nowak Brzezińska Wykład IV Naiwny klasyfikator Bayesa Naiwny klasyfikator bayesowski jest prostym probabilistycznym klasyfikatorem. Zakłada się wzajemną
Efektywność algorytmów
Efektywność algorytmów Algorytmika Algorytmika to dział informatyki zajmujący się poszukiwaniem, konstruowaniem i badaniem własności algorytmów, w kontekście ich przydatności do rozwiązywania problemów
STEROWANIA RUCHEM KOLEJOWYM Z WYKORZYSTANIEM METOD SYMULACYJNYCH
PRACE NAUKOWE POLITECHNIKI WARSZAWSKIEJ z. 113 Transport 2016 Uniwersytet Technologiczno-Humanistyczny w Radomiu STEROWANIA RUCHEM KOLEJOWYM Z WYKORZYSTANIEM METOD SYMULACYJNYCH : marzec 2016 Streszczenie:
Krytyczne czynniki sukcesu w zarządzaniu projektami
Seweryn SPAŁEK Krytyczne czynniki sukcesu w zarządzaniu projektami MONOGRAFIA Wydawnictwo Politechniki Śląskiej Gliwice 2004 SPIS TREŚCI WPROWADZENIE 5 1. ZARZĄDZANIE PROJEKTAMI W ORGANIZACJI 13 1.1. Zarządzanie
w analizie wyników badań eksperymentalnych, w problemach modelowania zjawisk fizycznych, w analizie obserwacji statystycznych.
Aproksymacja funkcji a regresja symboliczna Problem aproksymacji funkcji polega na tym, że funkcję F(), znaną lub określoną tablicą wartości, należy zastąpić inną funkcją, f(), zwaną funkcją aproksymującą
CHARAKTERYSTYKA I ZASTOSOWANIA ALGORYTMÓW OPTYMALIZACJI ROZMYTEJ. E. ZIÓŁKOWSKI 1 Wydział Odlewnictwa AGH, ul. Reymonta 23, Kraków
36/3 Archives of Foundry, Year 004, Volume 4, 3 Archiwum Odlewnictwa, Rok 004, Rocznik 4, Nr 3 PAN Katowice PL ISSN 64-5308 CHARAKTERYSTYKA I ZASTOSOWANIA ALGORYTMÓW OPTYMALIZACJI ROZMYTEJ E. ZIÓŁKOWSKI
Bazy danych. Zachodniopomorski Uniwersytet Technologiczny w Szczecinie. Wykład 3: Model związków encji.
Zachodniopomorski Uniwersytet Technologiczny w Szczecinie Bazy danych Wykład 3: Model związków encji. dr inż. Magdalena Krakowiak makrakowiak@wi.zut.edu.pl Co to jest model związków encji? Model związków
4.3 Grupowanie według podobieństwa
4.3 Grupowanie według podobieństwa Przykłady obiektów to coś więcej niż wektory wartości atrybutów. Reprezentują one poszczególne rasy psów. Ważnym pytaniem, jakie można sobie zadać, jest to jak dobrymi
Alicja Marszałek Różne rodzaje baz danych
Alicja Marszałek Różne rodzaje baz danych Rodzaje baz danych Bazy danych można podzielić wg struktur organizacji danych, których używają. Można podzielić je na: Bazy proste Bazy złożone Bazy proste Bazy
Podstawy informatyki. Elektrotechnika I rok. Język C++ Operacje na danych - wskaźniki Instrukcja do ćwiczenia
Podstawy informatyki Elektrotechnika I rok Język C++ Operacje na danych - wskaźniki Instrukcja do ćwiczenia Katedra Energoelektroniki i Automatyki Systemów Przetwarzania Energii AGH Kraków 2017 Tematyka
Baza danych. Modele danych
Rola baz danych Systemy informatyczne stosowane w obsłudze działalności gospodarczej pełnią funkcję polegającą na gromadzeniu i przetwarzaniu danych. Typowe operacje wykonywane na danych w systemach ewidencyjno-sprawozdawczych
ZARZĄDZANIE PROCESAMI I PROJEKTAMI. Zakres projektu. dr inż. ADAM KOLIŃSKI ZARZĄDZANIE PROCESAMI I PROJEKTAMI. Zakres projektu. dr inż.
1 ZARZĄDZANIE PROCESAMI I PROJEKTAMI 2 ZAKRES PROJEKTU 1. Ogólna specyfika procesów zachodzących w przedsiębiorstwie 2. Opracowanie ogólnego schematu procesów zachodzących w przedsiębiorstwie za pomocą
W poszukiwaniu sensu w świecie widzialnym
W poszukiwaniu sensu w świecie widzialnym Andrzej Śluzek Nanyang Technological University Singapore Uniwersytet Mikołaja Kopernika Toruń AGH, Kraków, 28 maja 2010 1 Podziękowania Przedstawione wyniki powstały
1 Wprowadzenie do algorytmiki
Teoretyczne podstawy informatyki - ćwiczenia: Prowadzący: dr inż. Dariusz W Brzeziński 1 Wprowadzenie do algorytmiki 1.1 Algorytm 1. Skończony, uporządkowany ciąg precyzyjnie i zrozumiale opisanych czynności
Wykład I. Wprowadzenie do baz danych
Wykład I Wprowadzenie do baz danych Trochę historii Pierwsze znane użycie terminu baza danych miało miejsce w listopadzie w 1963 roku. W latach sześcdziesątych XX wieku został opracowany przez Charles
Automatyczny dobór parametrów algorytmu genetycznego
Automatyczny dobór parametrów algorytmu genetycznego Remigiusz Modrzejewski 22 grudnia 2008 Plan prezentacji Wstęp Atrakcyjność Pułapki Klasyfikacja Wstęp Atrakcyjność Pułapki Klasyfikacja Konstrukcja
Kryteria wyboru operatorów usług telefonicznych przez abonentów w Polsce
Roman Nierebiński Opisano czynniki, wpływające na wybór operatora usług telefonii stacjonarnej i komórkowej. Wskazano najczęściej wybieranych operatorów telefonicznych oraz podano motywy wyboru. telekomunikacja,
Propozycja nowej usługi w sieci ISDN kierowanie połączeń do abonenta o zmiennej lokalizacji
Paweł Kaniewski Miłosz Śliwka Propozycja nowej usługi w sieci ISDN kierowanie połączeń do abonenta o zmiennej lokalizacji 1 Wstęp ISDN jest powszechnie wykorzystywanym standardem zarówno w systemach telefonii
Pojęcie systemu informacyjnego i informatycznego
BAZY DANYCH Pojęcie systemu informacyjnego i informatycznego DANE wszelkie liczby, fakty, pojęcia zarejestrowane w celu uzyskania wiedzy o realnym świecie. INFORMACJA - znaczenie przypisywane danym. SYSTEM
(12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP (96) Data i numer zgłoszenia patentu europejskiego:
RZECZPOSPOLITA POLSKA (12) TŁUMACZENIE PATENTU EUROPEJSKIEGO (19) PL (11) PL/EP 2003466 (96) Data i numer zgłoszenia patentu europejskiego: 12.06.2008 08460024.6 (13) (51) T3 Int.Cl. G01S 5/02 (2010.01)
Przestrzenne bazy danych Podstawy języka SQL
Przestrzenne bazy danych Podstawy języka SQL Stanisława Porzycka-Strzelczyk porzycka@agh.edu.pl home.agh.edu.pl/~porzycka Konsultacje: wtorek godzina 16-17, p. 350 A (budynek A0) 1 SQL Język SQL (ang.structured
Diagramy obiegu dokumentów a UML w modelowaniu procesów biznesowych. Stanisław Niepostyn, Ilona Bluemke Instytut Informatyki, Politechnika Warszawska
Diagramy obiegu dokumentów a UML w modelowaniu procesów biznesowych Stanisław Niepostyn, Ilona Bluemke Instytut Informatyki, Politechnika Warszawska Wprowadzenie Modelowanie biznesowe jest stykiem między
Akademia Morska w Szczecinie. Wydział Mechaniczny
Akademia Morska w Szczecinie Wydział Mechaniczny ROZPRAWA DOKTORSKA mgr inż. Marcin Kołodziejski Analiza metody obsługiwania zarządzanego niezawodnością pędników azymutalnych platformy pływającej Promotor:
Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów
Eksploracja danych Piotr Lipiński Informacje ogólne Informacje i materiały dotyczące wykładu będą publikowane na stronie internetowej wykładowcy, m.in. prezentacje z wykładów UWAGA: prezentacja to nie
Algorytm genetyczny (genetic algorithm)-
Optymalizacja W praktyce inżynierskiej często zachodzi potrzeba znalezienia parametrów, dla których system/urządzenie będzie działać w sposób optymalny. Klasyczne podejście do optymalizacji: sformułowanie
Za pierwszy niebanalny algorytm uważa się algorytm Euklidesa wyszukiwanie NWD dwóch liczb (400 a 300 rok przed narodzeniem Chrystusa).
Algorytmy definicja, cechy, złożoność. Algorytmy napotykamy wszędzie, gdziekolwiek się zwrócimy. Rządzą one wieloma codziennymi czynnościami, jak np. wymiana przedziurawionej dętki, montowanie szafy z
OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) Algorytmy i Struktury Danych PIŁA
OSTASZEWSKI Paweł (55566) PAWLICKI Piotr (55567) 20.11.2002 Algorytmy i Struktury Danych PIŁA ZŁOŻONE STRUKTURY DANYCH C za s tw or ze nia s tr uk tur y (m s ) TWORZENIE ZŁOŻONYCH STRUKTUR DANYCH: 00 0
SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD
Dr inż. Jacek WARCHULSKI Dr inż. Marcin WARCHULSKI Mgr inż. Witold BUŻANTOWICZ Wojskowa Akademia Techniczna SPOSOBY POMIARU KĄTÓW W PROGRAMIE AutoCAD Streszczenie: W referacie przedstawiono możliwości
Proces informacyjny. Janusz Górczyński
Proces informacyjny Janusz Górczyński 1 Proces informacyjny, definicja (1) Pod pojęciem procesu informacyjnego rozumiemy taki proces semiotyczny, ekonomiczny i technologiczny, który realizuje co najmniej
Wydobywanie wiedzy z danych złożonych
Uniwersytet Śląski w Katowicach Wydział Informatyki i Nauki o Materiałach Informatyka Rozprawa doktorska Wydobywanie wiedzy z danych złożonych mgr Tomasz Xięski Promotor: prof. dr hab. inż. Alicja Wakulicz-Deja
Formularz recenzji magazynu. Journal of Corporate Responsibility and Leadership Review Form
Formularz recenzji magazynu Review Form Identyfikator magazynu/ Journal identification number: Tytuł artykułu/ Paper title: Recenzent/ Reviewer: (imię i nazwisko, stopień naukowy/name and surname, academic
Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem. dr Jakub Boratyński. pok. A38
Podstawowe pakiety komputerowe wykorzystywane w zarządzaniu przedsiębiorstwem zajęcia 1 dr Jakub Boratyński pok. A38 Program zajęć Bazy danych jako podstawowy element systemów informatycznych wykorzystywanych
ARCHITEKTURA GSM. Wykonali: Alan Zieliński, Maciej Żulewski, Alex Hoddle- Wojnarowski.
1 ARCHITEKTURA GSM Wykonali: Alan Zieliński, Maciej Żulewski, Alex Hoddle- Wojnarowski. SIEĆ KOMÓRKOWA Sieć komórkowa to sieć radiokomunikacyjna składająca się z wielu obszarów (komórek), z których każdy
2017/2018 WGGiOS AGH. LibreOffice Base
1. Baza danych LibreOffice Base Jest to zbiór danych zapisanych zgodnie z określonymi regułami. W węższym znaczeniu obejmuje dane cyfrowe gromadzone zgodnie z zasadami przyjętymi dla danego programu komputerowego,
Bazy Danych. Bazy Danych i SQL Podstawowe informacje o bazach danych. Krzysztof Regulski WIMiIP, KISiM,
Bazy Danych Bazy Danych i SQL Podstawowe informacje o bazach danych Krzysztof Regulski WIMiIP, KISiM, regulski@metal.agh.edu.pl Oczekiwania? 2 3 Bazy danych Jak przechowywać informacje? Jak opisać rzeczywistość?
Koncepcja wnioskowania w hierarchicznej bazie wiedzy
Koncepcja wnioskowania w hierarchicznej bazie wiedzy Agnieszka Nowak Alicja Wakulicz-Deja Instytut Informatyki, Uniwersytet Śląski, ul. Będzinska 39, Sosnowiec, Polska Tel (32) 2 918 381, Fax (32) 2 918
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa
Metody eksploracji danych w odkrywaniu wiedzy (MED) projekt, dokumentacja końcowa Konrad Miziński 14 stycznia 2015 1 Temat projektu Grupowanie hierarchiczne na podstawie algorytmu k-średnich. 2 Dokumenty
77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego.
77. Modelowanie bazy danych rodzaje połączeń relacyjnych, pojęcie klucza obcego. Przy modelowaniu bazy danych możemy wyróżnić następujące typy połączeń relacyjnych: jeden do wielu, jeden do jednego, wiele
Przykładowe sprawozdanie. Jan Pustelnik
Przykładowe sprawozdanie Jan Pustelnik 30 marca 2007 Rozdział 1 Sformułowanie problemu Tematem pracy jest porównanie wydajności trzech tradycyjnych metod sortowania: InsertionSort, SelectionSort i BubbleSort.
Adrian Jakowiuk, Bronisław Machaj, Jan Pieńkos, Edward Świstowski
BEZPRZEWODOWE SIECI MONITORINGU Z RADIOIZOTOPOWYMI CZUJNIKAMI ZAPYLENIA POWIETRZA AMIZ 2004G Adrian Jakowiuk, Bronisław Machaj, Jan Pieńkos, Edward Świstowski Instytut Chemii i Techniki Jądrowej a_jakowiuk@ichtj.waw.pl
Recenzja rozprawy doktorskiej mgr Bartosza Rymkiewicza pt. Społeczna odpowiedzialność biznesu a dokonania przedsiębiorstwa
Prof. dr hab. Edward Nowak Uniwersytet Ekonomiczny we Wrocławiu Katedra Rachunku Kosztów, Rachunkowości Zarządczej i Controllingu Recenzja rozprawy doktorskiej mgr Bartosza Rymkiewicza pt. Społeczna odpowiedzialność
BAZY DANYCH. Co to jest baza danych. Przykłady baz danych. Z czego składa się baza danych. Rodzaje baz danych
BAZY DANYCH Co to jest baza danych Przykłady baz danych Z czego składa się baza danych Rodzaje baz danych CO TO JEST BAZA DANYCH Komputerowe bazy danych już od wielu lat ułatwiają człowiekowi pracę. Są
Definicje. Algorytm to:
Algorytmy Definicje Algorytm to: skończony ciąg operacji na obiektach, ze ściśle ustalonym porządkiem wykonania, dający możliwość realizacji zadania określonej klasy pewien ciąg czynności, który prowadzi
Modelowanie hierarchicznych struktur w relacyjnych bazach danych
Modelowanie hierarchicznych struktur w relacyjnych bazach danych Wiktor Warmus (wiktorwarmus@gmail.com) Kamil Witecki (kamil@witecki.net.pl) 5 maja 2010 Motywacje Teoria relacyjnych baz danych Do czego
Inteligencja obliczeniowa
Ćwiczenie nr 1 Zbiory rozmyte logika rozmyta Tworzenie: termów zmiennej lingwistycznej o różnych kształtach, modyfikatorów, zmiennych o wielu termach; operacje przecięcia, połączenia i dopełnienia 1. Wprowadzenie
Analiza skupień. Analiza Skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania
Analiza skupień W sztucznej inteligencji istotną rolę ogrywają algorytmy grupowania Analiza Skupień Elementy składowe procesu grupowania obiekt Ekstrakcja cech Sprzężenie zwrotne Grupowanie klastry Reprezentacja
Import danych z plików Excel. (pracownicy, limity urlopowe i inne)
Import danych z plików Excel (pracownicy, limity urlopowe i inne) 1. Wstęp BeeOffice umożliwia import z plików Excel kilku rodzajów danych, najczęściej wykorzystywanych podczas tworzenia nowego systemu
Uproszczenie mechanizmów przekazywania pakietów w ruterach
LISTA ŻYCZEŃ I ZARZUTÓW DO IP Uproszczenie mechanizmów przekazywania pakietów w ruterach Mechanizmy ułatwiające zapewnienie jakości obsługi Może być stosowany do równoważenia obciążenia sieci, sterowanie
Metody eksploracji danych. Reguły asocjacyjne
Metody eksploracji danych Reguły asocjacyjne Analiza podobieństw i koszyka sklepowego Analiza podobieństw jest badaniem atrybutów lub cech, które są powiązane ze sobą. Metody analizy podobieństw, znane
Systemy GIS Tworzenie zapytań w bazach danych
Systemy GIS Tworzenie zapytań w bazach danych Wykład nr 6 Analizy danych w systemach GIS Jak pytać bazę danych, żeby otrzymać sensowną odpowiedź......czyli podstawy języka SQL INSERT, SELECT, DROP, UPDATE
Zasady transformacji modelu DOZ do projektu tabel bazy danych
Zasady transformacji modelu DOZ do projektu tabel bazy danych A. Obiekty proste B. Obiekty z podtypami C. Związki rozłączne GHJ 1 A. Projektowanie - obiekty proste TRASA # * numer POZYCJA o planowana godzina
WYKORZYSTANIE WYBRANYCH MODELI ANALIZY FINANSOWEJ DLA OCENY MOŻLIWOŚCI AKTYWIZOWANIA SIĘ ORGANIZACJI POZARZĄDOWYCH W SEKTORZE TRANSPORTU
Mirosław rajewski Uniwersytet Gdański WYORZYSTANIE WYBRANYCH MODELI ANALIZY FINANSOWEJ DLA OCENY MOŻLIWOŚCI ATYWIZOWANIA SIĘ ORGANIZACJI POZARZĄDOWYCH W SETORZE TRANSPORTU Wprowadzenie Problemy związane
Agnieszka Nowak Brzezińska
Agnieszka Nowak Brzezińska jeden z algorytmów regresji nieparametrycznej używanych w statystyce do prognozowania wartości pewnej zmiennej losowej. Może również byd używany do klasyfikacji. - Założenia
Przykładowa baza danych BIBLIOTEKA
Przykładowa baza danych BIBLIOTEKA 1. Opis problemu W ramach zajęć zostanie przedstawiony przykład prezentujący prosty system biblioteczny. System zawiera informację o czytelnikach oraz książkach dostępnych
Wprowadzenie w tematykę zarządzania projektami/przedsięwzięciami
Wprowadzenie w tematykę zarządzania projektami/przedsięwzięciami punkt 2 planu zajęć dr inż. Agata Klaus-Rosińska 1 DEFINICJA PROJEKTU Zbiór działań podejmowanych dla zrealizowania określonego celu i uzyskania
Podstawowe zagadnienia z zakresu baz danych
Podstawowe zagadnienia z zakresu baz danych Jednym z najważniejszych współczesnych zastosowań komputerów we wszelkich dziedzinach życia jest gromadzenie, wyszukiwanie i udostępnianie informacji. Specjalizowane
Systemy baz danych w zarządzaniu przedsiębiorstwem. W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi
Systemy baz danych w zarządzaniu przedsiębiorstwem W poszukiwaniu rozwiązania problemu, najbardziej pomocna jest znajomość odpowiedzi Proces zarządzania danymi Zarządzanie danymi obejmuje czynności: gromadzenie
wykład Organizacja plików Opracował: dr inż. Janusz DUDCZYK
wykład Organizacja plików Opracował: dr inż. Janusz DUDCZYK 1 2 3 Pamięć zewnętrzna Pamięć zewnętrzna organizacja plikowa. Pamięć operacyjna organizacja blokowa. 4 Bufory bazy danych. STRUKTURA PROSTA
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji
Konkurs z przedmiotu eksploracja i analiza danych: problem regresji i klasyfikacji Michał Witczak Data Mining 20 maja 2012 r. 1. Wstęp Dostarczone zostały nam 4 pliki, z których dwa stanowiły zbiory uczące
Elementy modelowania matematycznego
Elementy modelowania matematycznego Modelowanie algorytmów klasyfikujących. Podejście probabilistyczne. Naiwny klasyfikator bayesowski. Modelowanie danych metodą najbliższych sąsiadów. Jakub Wróblewski
Automatyczna klasyfikacja zespołów QRS
Przetwarzanie sygnałów w systemach diagnostycznych Informatyka Stosowana V Automatyczna klasyfikacja zespołów QRS Anna Mleko Tomasz Kotliński AGH EAIiE 9 . Opis zadania Tematem projektu było zaprojektowanie
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH
INDUKOWANE REGUŁY DECYZYJNE ALORYTM APRIORI JAROSŁAW FIBICH 1. Czym jest eksploracja danych Eksploracja danych definiowana jest jako zbiór technik odkrywania nietrywialnych zależności i schematów w dużych
Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle
Badania operacyjne: Wykład Zastosowanie kolorowania grafów w planowaniu produkcji typu no-idle Paweł Szołtysek 12 czerwca 2008 Streszczenie Planowanie produkcji jest jednym z problemów optymalizacji dyskretnej,
Inteligentna analiza danych
Numer indeksu 150946 Michał Moroz Imię i nazwisko Numer indeksu 150875 Grzegorz Graczyk Imię i nazwisko kierunek: Informatyka rok akademicki: 2010/2011 Inteligentna analiza danych Ćwiczenie I Wskaźniki
Tomasz Grześ. Systemy zarządzania treścią
Tomasz Grześ Systemy zarządzania treścią Co to jest CMS? CMS (ang. Content Management System System Zarządzania Treścią) CMS definicje TREŚĆ Dowolny rodzaj informacji cyfrowej. Może to być np. tekst, obraz,
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska
Metody tworzenia efektywnych komitetów klasyfikatorów jednoklasowych Bartosz Krawczyk Katedra Systemów i Sieci Komputerowych Politechnika Wrocławska e-mail: bartosz.krawczyk@pwr.wroc.pl Czym jest klasyfikacja
WNIOSKOWANIE W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ INFERENCE PROCESSES IN DECISION SUPORT SYSTEMS WITH INCOMPLETE KNOWLEDGE
STUDIA INFORMATICA 2011 Volume 32 Number 2A (96) Agnieszka NOWAK-BRZEZIŃSKA, Tomasz JACH Uniwersytet Śląski, Instytut Informatyki WNIOSKOWANIE W SYSTEMACH Z WIEDZĄ NIEPEŁNĄ Streszczenie. Autorzy niniejszego
Wprowadzenie do baz danych
Wprowadzenie do baz danych Dr inż. Szczepan Paszkiel szczepanpaszkiel@o2.pl Katedra Inżynierii Biomedycznej Politechnika Opolska Wprowadzenie DBMS Database Managment System, System za pomocą którego można
PROBLEM ROZMIESZCZENIA MASZYN LICZĄCYCH W DUŻYCH SYSTEMACH PRZEMYSŁOWYCH AUTOMATYCZNIE STEROWANYCH
CZESŁAW KULIK PROBLEM ROZMIESZCZENIA MASZYN LICZĄCYCH W DUŻYCH SYSTEMACH PRZEMYSŁOWYCH AUTOMATYCZNIE STEROWANYCH Duże systemy przemysłowe, jak kopalnie, kombinaty metalurgiczne, chemiczne itp., mają złożoną
Analiza skupień. Idea
Idea Analiza skupień Analiza skupień jest narzędziem analizy danych służącym do grupowania n obiektów, opisanych za pomocą wektora p-cech, w K niepustych, rozłącznych i możliwie jednorodnych grup skupień.
AUTO-STROJENIE REGULATORA TYPU PID Z WYKORZYSTANIEM LOGIKI ROZMYTEJ
POZNAN UNIVE RSITY OF TE CHNOLOGY ACADE MIC JOURNALS No 75 Electrical Engineering 2013 Łukasz NIEWIARA* Krzysztof ZAWIRSKI* AUTO-STROJENIE REGULATORA TYPU PID Z WYKORZYSTANIEM LOGIKI ROZMYTEJ Zagadnienia
MODELOWANIE POŁĄCZEŃ TYPU SWORZEŃ OTWÓR ZA POMOCĄ MES BEZ UŻYCIA ANALIZY KONTAKTOWEJ
Jarosław MAŃKOWSKI * Andrzej ŻABICKI * Piotr ŻACH * MODELOWANIE POŁĄCZEŃ TYPU SWORZEŃ OTWÓR ZA POMOCĄ MES BEZ UŻYCIA ANALIZY KONTAKTOWEJ 1. WSTĘP W analizach MES dużych konstrukcji wykonywanych na skalę
Algorytmy genetyczne
9 listopada 2010 y ewolucyjne - zbiór metod optymalizacji inspirowanych analogiami biologicznymi (ewolucja naturalna). Pojęcia odwzorowujące naturalne zjawiska: Osobnik Populacja Genotyp Fenotyp Gen Chromosom