Przegląd darmowego oprogramowania do analizy dużych zbiorów danych

Wielkość: px
Rozpocząć pokaz od strony:

Download "Przegląd darmowego oprogramowania do analizy dużych zbiorów danych"

Transkrypt

1 Przegląd darmowego oprogramowania do analizy dużych zbiorów danych Tomasz Jach, Tomasz Xięski Uniwersytet Śląski, Instytut Informatyki, ul. Będzińska 39, Sosnowiec {tomasz.jach Streszczenie Eksploracja danych może być rozumiana jako proces badania za pomocą źautomatyzowanych lub częściowo zautomatyzowanych środków"dużych zbiorów danych, celem wykrycia nieznanych i potencjalnie użytecznych wzorców [8]. Coraz częściej algorytmy eksploracji danych wspomagane są graficznymi metodami wizualizacji. Celem pracy jest przegląd darmowych rozwiązań programowych do analizy dużych zbiorów danych, pod kątem możliwości grupowania i wizualizacji skupień. 1. Wprowadzanie Do skutecznego przeprowadzenia procesu analizy danych, prócz dobrej znajomości badanej dziedziny, zbioru danych, czy wybrania właściwej techniki eksploracji, niezbędnym jest wykorzystanie odpowiedniego oprogramowania. Celem niniejszej pracy jest analiza porównawcza dostępnych rozwiązań programowych w zakresie analizy dużych zbiorów danych, pod kątem oferowanych możliwości generowania grup i ich wizualizacji. Dokonany zostanie przegląd wybranych programów należących do tzw. otwartego oprogramowania (ang. open source software), czyli z możliwością dokonywania zmian w kodzie źródłowym. Wybór oprogramowania do analizy przeprowadzono na podstawie ankiety serwisu KDnuggets, agregującego artykuły, opinie i materiały dotyczące teorii oraz oprogramowania analizy danych. W maju 2012 roku zebrano odpowiedzi na pytanie jakie narzędzia eksploracji i analizy danych zostały przez respondenta użyte w ciągu minionych 12 miesięcy podczas prac nad rzeczywistym projektem. Najważniejsze wyniki ankiety 1 (wśród 798 głosujących) przedstawiono na rysunku 1. Pakiet R jest według badań serwisu KDnuggets najczęściej wybieranym systemem analizy danych (ponad 30% użytkowników potwierdziło korzystanie z niego podczas realizacji rzeczywistych projektów). Jest to zapewne zasługa bezpłatnej dystrybucji i sięgającej ponad 4000 liczbie dodatkowych bibliotek. Należy również nadmienić, że wśród pięciu najczęściej wybieranych programów, cztery to narzędzia otwarto-źródłowe (czyli udostępniające możliwość ingerencji w ich kod źródłowy), dlatego też zostały one wybrane do dalszej analizy. 1 Pełna wersja ankiety dostępna jest pod adresem 2012/analytics-data-mining-big-data-software.html. Należy również nadmienić, że możliwy był wybór kilku rozwiązań przez pojedynczego respondenta, dlatego wyniki nie sumują się do stu procent. 1

2 Rysunek 1. Wykorzystywane oprogramowanie do analizy danych. 2. Przegląd programów do analizy danych Wszystkie omawiane przykłady programów niekomercyjnych są zgodne z ideą otwartego oprogramowania co oznacza, że dostępny jest ich kod źródłowy oraz oparte są na licencjach, które umożliwiają dokonywanie zmian w kodzie jak również integrację z własnymi rozwiązaniami KNIME KNIME (ang. KoNstanz Information MinEr) jest modularnym oprogramowaniem do analizy danych, opartym na interfejsie środowiska programistycznego Eclipse. Sposób posługiwania się programem polega na łączeniu w graf elementów (zwanych węzłami) symbolizujących ładowanie danych, ich transformację, wizualizację, generowanie statystyk, modelowanie, zapisywanie wyników (jak zaprezentowano na rysunku 2). Cały system został zrealizowany przy uwzględnieniu trzech głównych zasad: interaktywnego środowiska graficznego, modularności i rozszerzalności [5]. Cele te osiągnięto implementując mechanizm przeciągnij i upuść, dzięki czemu zarządzanie czy zmiana poszczególnych etapów analizy danych jest bardzo intuicyjna. Ponadto struktury danych wykorzystywane w zaimplementowanych algorytmach są od siebie niezależne, przez co można tworzyć dowolne kombinacje połączeń między węzłami. Zdolność do rozszerzenia istniejącej funkcjonalności uzyskano integrując zarządcę pakietów, który pobiera ze zdalnego repozyto- 2

3 rium nowe dodatki, a zadaniem użytkownika jest jedynie dokonanie wyboru jaki element chce dołączyć. Rysunek 2. Interfejs programu KNIME. Możliwości omawianego oprogramowania w kategorii analizy skupień domyślnie ograniczają się do algorytmów: k-średnich, hierarchicznego (zarówno aglomeracyjnego jak i deglomeracyjnego), fuzzy c-means oraz SOTA Lerner. W przypadku klasycznego algorytmu k-średnich wykorzystywana jest wyłącznie odległość euklidesowa (w odniesieniu do danych ilościowych). Należy jednak zaznaczyć, że dostępny jest osobny węzeł (komponent) o nazwie Distance Matrix Calculate, którego zadaniem jest wyznaczenie macierzy niepodobieństwa, z użyciem miar takich jak: odległość euklidesowa, miejska, Tanimoto, korelacji kosinusowej, czy współczynnika Dice a. Dodatkowo (ale tylko dla cech ilościowych) można za jego pomocą przeprowadzić grupowanie dla zbioru danych rzeczywistych cell_loss 2 przyjmując liczbę skupień równą Dla algorytmu hierarchicznego zaimplementowano trzy standardowe miary łączenia skupień: pojedynczego, średniego oraz całkowitego wiązania, a dostępne miary niepodobieństwa (odległości) to odległość euklidesowa i miejska. Metoda fuzzy c-means działa analogicznie do algorytmu k-średnich, z tą różnicą, że dany obiekt nie musi należeć wyłącznie do jednego skupienia jest to tzw. grupowanie rozmyte. Węzeł SOTA Lerner to algorytm generujący hierarchię skupień na podstawie budowy tzw. drzewa samoorganizującego się (ang. Self-Organising Tree Algorithm). Jest to sieć neuronowa, zorganizowana zgodnie z topologią drzewa binarnego, często wykorzystywana przy analizie danych mikromacierzowych 4. Jedną z istotnych cech opisywanego oprogramowania jest jego rozszerzalność. Dzięki temu do ogólnie dostępnej palety technik analizy skupień można dołączyć algorytm k-medoidów oraz wszystkie dostępne w systemie Weka (opisywanym w dalszej części pracy). Po zainstalowaniu dodatkowych pakietów, użytkownik uzyskuje zatem dostęp m. in. do algorytmów gęstościowych DBSCAN [6] i OPTICS [3]. Niestety sposób integracji z innymi rozwiązaniami do eksploracji danych to również 2 Zbiór danych używany do testów oprogramowania został omówiony w [9]. 3 Liczbę 500 skupień dobrano arbitralnie, uznając ją jako wystarczająco dużą do przetestowania możliwości grupowania dużych zbiorów danych. 4 Szczegóły na temat budowy i zasady działania wspomnianego algorytmu można znaleźć w [7]. 3

4 największa wada opisywanego programu. Wyniki działania dodatkowych algorytmów analizy skupień wyświetlane są w innym oknie i interfejsie zgodnym z oprogramowaniem, z którego zostały zapożyczone. Implikuje to również niemożność uwzględnienia tych rezultatów, w dalszych etapach procesu wydobywania wiedzy projektowanego w KNIME wyjścia algorytmów zapożyczonych z pakietu Weka nie da się połączyć z innymi elementami (węzłami) dostępnymi w KNIME. KNIME pełni zatem pewnego rodzaju warstwę pośredniczącą, która dokonuje załadowania i transformacji danych, a następnie uruchamia procedury innego oprogramowania generując w nim wyniki. Metody opisu i wizualizacji danych wśród których można wyróżnić wykresy pudełkowe, rozrzutu, radarowe, histogramy, technikę współrzędnych równoległych można dodatkowo rozszerzyć o możliwości reprezentacji graficznej biblioteki JFreeChart i wszystkich komend dostępnych w pakiecie R. Jest to zatem bardzo rozbudowane i modyfikowalne oprogramowanie, które z powodzeniem może konkurować z rozwiązaniami komercyjnymi R z nakładką Rattle Rattle (ang. R Analytical Tool To Learn Easily) jest graficzną nakładką na powszechnie znany pakiet statystyczny R. Pozwala na ładowanie danych z wielu źródeł (w tym z baz danych, plików tekstowych, arkuszy kalkulacyjnych itp.), ich wstępną eksplorację (na podstawie statystyk opisowych oraz technik graficznych typu histogramy czy wykresy pudełkowe), transformację (poprzez normalizację czy usuwanie wartości pustych), tworzenie modeli (jak skupienia czy reguły asocjacyjne) oraz ewaluację (wykorzystując krzywe ROC) [2]. Interfejs programu został przedstawiony na rysunku 3 i składa się z jednego okna podzielonego na szereg zakładek. Zakładki powinny być przetwarzane kolejno lub autonomicznie, jeżeli użytkownika interesuje wyłącznie zastosowanie konkretnej techniki eksploracji. Rysunek 3. Graficzny interfejs Rattle w wersji Szczegóły na temat możliwości (wizualizacyjnych i statystycznych) KNIME znajdują się w książce jego autorów poświęconej eksploracji danych [4]. 4

5 Z poziomu zakładki Cluster dostępne są cztery algorytmy analizy skupień: hierarchiczny, Ewkm, k-średnich oraz BiCluster 6 (służący do grupowania zarówno obiektów jak i cech jednocześnie). Technika k-średnich ograniczona jest do przetwarzania danych ilościowych, jednakże potrafi wygenerować dla zbioru cell_loss, uznaną jako testową, liczbę 500 skupień. Ewkm jest wariantem metody k-średnich, przyporządkowującym wagi cechom uznanym za istotne, podczas wyznaczania podobieństwa dwóch obiektów 7. Niestety algorytm generujący hierarchię nie może zostać zastosowany do zbioru danych rzeczywistych cell_loss i większych, ponieważ oprogramowanie wyświetla komunikat, o niewystarczającej ilości dostępnej pamięci operacyjnej i zbyt dużej liczbie obiektów w zbiorze 8, zaprezentowany na rysunku 4. Proponowane rozwiązanie tego problemu to wykorzystanie metody próbkowania (i operowanie wyłącznie na dużo mniejszym podzbiorze obiektów). Rysunek 4. Komunikat informujący o ograniczeniu algorytmu hclust. Dostępne w Rattle algorytmy nie mogą być zatem bezpośrednio zastosowane przy grupowaniu dużych zbiorów danych. Małą liczbę algorytmów można rozszerzyć instalując, poprzez konsolę oprogramowania R, pakiet fpc 9, który dostarcza sześć dodatkowych metod analizy skupień, wśród których znajduje się również technika gęstościowa DBSCAN. Brak jest jednak metody OPTICS (której implementacja w R jest poszukiwana na wielu grupach dyskusyjnych). Dodatkowo posługiwanie się algorytmem DBSCAN możliwe jest wyłącznie przez linię komend R, co wymaga stosownej wiedzy na temat syntaktyki poleceń. Podobnie jest w przypadku generowania niedostępnych przez Rattle wykresów czy technik wizualizacyjnych RapidMiner RapidMiner jest środowiskiem do analizy danych, które posiada zarówno wersję darmową (na licencji AGPL) oraz szereg wariantów komercyjnych. Poszczególne wersje różnią się m.in. możliwościami ładowania danych, wykorzystaniem procesorów wielordzeniowych, dostępnością edytora danych oraz prowadzeniem procesu eksploracji na silniku bazy danych. 6 Szczegóły na temat działania algorytmu BiCluster dostępne są pod adresem r-project.org/web/packages/biclust/biclust.pdf. 7 Szczegóły na temat działania i zastosowania algorytmu Ewkm dostępne są pod adresem http: //cran.r-project.org/web/packages/weightedkmeans/weightedkmeans.pdf. 8 Programy analizy danych testowane były wykorzystując system Windows 7 oraz komputer wyposażony w procesor Core i5 3,33 GHz i 8 GB pamięci RAM. 9 Szczegółowy opis możliwości pakietu fpc znajduje się pod adresem r-project.org/web/packages/fpc/fpc.pdf. 10 Szczegóły odnośnie pełnych możliwości współpracy nakładki Rattle oraz pakietu R (jak również innych algorytmów grupowania) prezentuje książka [10]. 5

6 Rysunek 5. Interfejs programu RapidMiner Interfejs omawianego programu (zaprezentowany na rysunku 5) jest bardzo podobny do rozwiązania stosowanego w KNIME, gdzie dostępnych jest szereg mniejszych okien (zintegrowanych z głównym) podzielonych na zakładki, które można dowolnie przemieszczać. Również projektowanie przebiegu procesu analizy danych wygląda podobnie z okna w lewym górnym rogu ekranu wybiera się tzw. operatory (będące analogią do węzłów KNIME) czyli elementy realizujące ładowanie danych, transformacje, modelowanie, wizualizację oraz inne, a następnie łączy się operatory w graf skierowany, korzystając z centralnie ustawionego okna obszaru roboczego. Rysunek 6. Komunikat o zbyt małej ilości dostępnej pamięci. RapidMiner posiada jedenaście zaimplementowanych algorytmów analizy skupień, wśród których można wyróżnić: cztery warianty metody k-średnich, technikę k-medoids, DBSCAN, EM, metodę wektorów nośnych SVC (ang. Support Vector Clustering), grupowanie hierarchiczne (aglomeracyjne i deglomeracyjne) oraz przyporządkowanie losowe 11. Należy nadmienić, że dla algorytmu DBSCAN dostępna jest miara nazywana Mixed Euclidean, która jest modyfikacją miary euklidesowej umożliwiającą porównywanie danych ilościowych i jakościowych dla cech nominalnych miara przyporządkowuje wartość zero lub jeden w zależności od tego czy wartości (dla dwóch porównywanych obiektów) są sobie równe. Algorytm 11 Szczegółowe omówienie działania algorytmów znajduje się w com/files/rapidminer/rapidminer_operatorreference_en.pdf. 6

7 jednakże zgłasza błąd, gdy w analizowanym zbiorze występują wartości puste. Przy przetwarzaniu dużych zbiorów danych może również dojść do problemów pamięciowych program przechowuje wszystkie dane w pamięci operacyjnej, dlatego w zależności od złożoności procesu analizy danych może pojawić się komunikat (jak zaprezentowano na rys. 6) informujący o konieczności zmniejszenia objętości analizowanego zbioru lub powiększenia zasobów wolnej pamięci. Taka sytuacja miała miejsce podczas próby zastosowania algorytmu k-średnich do testowego zbioru danych cell_loss. Wśród dostępnych algorytmów brak jest także techniki OPTICS. Możliwości wizualizacyjne 12 oprogramowania obejmują m.in. generowanie histogramów, wykresów i macierzy rozrzutu, bąbelkowych, map samoorganizujących się itp. Ponadto, jako jedyne z opisywanych rozwiązań posiada możliwość graficznego przedstawienia struktury skupień w formie interaktywnego grafu. Jednakże rozwiązanie to sprawdza się tylko w przypadku niewielkiej liczby grup Weka Kolejny omawiany w niniejszej pracy program nosi nazwę Weka (ang. Waikato Environment for Knowledge Analysis) i agreguje szereg algorytmów uczenia maszynowego dedykowanych do realizacji zadań eksploracji danych. Algorytmy te mogą być stosowane bezpośrednio do zestawu danych lub za pomocą odpowiednich procedur wywoływanych z autorskiego kodu napisanego w języku Java. Weka zawiera narzędzia do wstępnego przetwarzania danych, klasyfikacji, zadań regresji, grupowania, generowania reguł asocjacyjnych i wizualizacji. Jednym z czynników wyróżniających to oprogramowanie od pozostałych jest fakt, iż posiada ono cztery różne interfejsy: Explorer (do analizy danych korzystając z szeregu zakładek), Experimenter (umożliwiający automatyczne wykonanie przygotowanych wcześniej eksperymentów), KnowledgeFlow (wykorzystujący zasadę przeciągnij i upuść) oraz Simple CLI (udostępniający konsolę do przetwarzania wsadowego). W dalszej części pracy zostanie omówiony tryb Explorer programu, zaprezentowany na rysunku 7. Interakcja użytkownika z programem odbywa się przez wybór odpowiedniej zakładki z siedmiu dostępnych w programie. Pierwsza służy wstępnemu przetwarzaniu i analizie eksploracyjnej przedstawionych w formie statystyk opisowych (jak średnia czy odchylenie standardowe) i histogramów. Dzięki czemu można oszacować rozkład danych, zidentyfikować wartości brakujące lub odstające i na tych przypadkach skupić dalszą analizę. W przypadku wybrania zakładki Cluster dedykowanej grupowaniu danych, można zastosować jeden z dziewięciu algorytmów analizy skupień jak k-średnich, hierarchiczny, EM, czy DBSCAN 13. Jest to również jedyne rozwiązanie niekomercyjne, które posiada bezpośrednio zaimplementowany algorytm OPTICS. Niestety twórcy Weka nie zdecydowali się na dołożenie do niego procedury generującej skupienia (gdyż OPTICS domyślnie generuje jedynie specyficzne uporządkowanie obiektów). Ponadto, dla algorytmów gęstościowych dostępne są jedynie dwie miary podobieństwa takie jak odległość euklidesowa i miejska, zmodyfikowane tak, by możliwe było ich bezpośrednie zastosowanie do danych opisanych za pomocą atrybutów ilościowych i jakościowych. Wyniki procesu grupowania wizualizowane są wyłącznie jako macierz wykresów rozrzutu (lub 12 Szczegółowe informacje o dostępnych metodach graficznej prezentacji danych zawiera dokumentacja dostępna pod adresem RapidMiner-5.2-Advanced-Charts-english-v1.0.pdf. 13 Szczegółowy opis algorytmów znajduje się w weka/files/documentation/3.7.x/wekamanual pdf. 7

8 Rysunek 7. Interfejs w trybie Explorer programu Weka. pojedynczy trójwymiarowy wykres rozrzutu). Dlatego też niewielkie możliwości wizualizacji rezultatów analizy skupień są największą wadą omawianego oprogramowania Pakiet scikit-learn: Machine Learning in Python Prace nad tym pakietem [1] zostały rozpoczęte dzięki programowi Google Summer of Code. Głównym twórcą jest David Cournepeau. Nazwa wywodzi się ze skrótowca SciKit rozwijanego jako Science Toolkit wchodzący w skład języka Python. SciKit jest odrębnym rozszerzeniem ze swoją, niezależną od głównego nurtu języka Python, grupą twórców. Uznaje się powszechnie, że scikit-learn jest jednym z popularniejszych oraz bardziej efektywniej napisanych pakietów języka Python. Od roku 2013 pakiet scikit-learn jest regularnie wspierany przez francuską organizację INRIA i okazjonalnie przez amerykańską firmę Google. Projekt jest wykorzysytwany m.in. w oprogramowaniu Evernote (zaimplementowany naiwny klasyfikator Bayesa do odnajdywania przepisów kulinarnych wśród notatek użytkowników) oraz przez pakiet do przetwarzania języka naturalnego NTLK (wchodzący w skład Pythona). W sferze komercyjnej, scikit-learn jest wykorzystywany przez firmę wiso.io. Oferuje ona zamkniętoźródłową implementację losowych lasów nazywaną wiserf. Firma ta twierdzi, że zdołała przyspieszyć proces przetwarzania danych siedimioipółkrotnie. Od czasu wystosowania tego oświadczenia twórcy scikit-learn dokonali daleko idącej optymalizacji pakietu i obecnie efektywność tych dówch rozwiązań jest porównywalna (oprócz zapotrzebowania na pamięć operacyjną). Pakiet scikit-learn nie ma swojego dedykowanego interfejsu graficznego. Całe przetwarzanie odbywa się za pomocą programów opartych o język Python. Przykładowo, kod przedstawiony na rysunku 8 generuje diagram z rysunku 9. Ze względu na duże możliwości oraz obsługę dużych zbiorów danych, pakiet ten wydaje się być najbliższy założeniom autorów. Łatwe przetwarzanie danych w języku Python oraz obecność dużej liczby dodatkowych pakietów (do analizy 8

9 Rysunek 8. Przykładowy kod wykorzystujący scikit-learn danych, grupowania i innych) połączona z dobrze znanymi i szeroko wykorzystywanymi połączeniami z innymi językami programowania pozwoli w przyszłości na wykorzystanie pakietu scikit-learn. 3. Podsumowanie Celem pracy było dokonanie przeglądu możliwości oprogramowania do wydobywania wiedzy z danych, w szczególności pod kątem zaimplementowanych algorytmów analizy skupień, ich graficznej reprezentacji oraz metod opisu danych. Porównanie dotyczyło programów niekomercyjnych (udostępniających kod źródłowy), które w wielu przypadkach posiadają podobny zestaw funkcjonalności w odniesieniu do ich płatnych odpowiedników. Wyniki przeglądu oprogramowania wskazują jednoznacznie, że żaden z testowanych pakietów analizy danych nie udostępnia interaktywnej metody graficznej reprezentacji skupień, dostosowanej do wizualizacji dużej liczby grup. Ponadto tylko niewielka liczba programów implementuje bardziej zaawansowane algorytmy analizy skupień (np. gęstościowe) i umożliwia ich zastosowanie do danych opisanych atrybutami ilościowymi oraz jakościowymi. Dlatego też uzasadniona wydaje się konieczność stworzenia autorskiego systemu analizy dużych zbiorów danych, który realizuje proces graficznej analizy eksploracyjnej [8]. Najbardziej zgodny z założeniami poczynionymi przez autorów wydaje się ostatni omówiony pakiet scikit-learn. Jakkolwiek dostosowanie wypracowanych już narzędzi do nowego języka programowania może być czasochłonne, tak zysk z korzystania z języka Python powinien zrekompensować ten dodatkowy nakład pracy. 9

10 Rysunek 9. Rezultat wykonania kodu z rys Podziękowania Niniejsza praca jest częścią projektu Eksploracja regułowych baz wiedzy sfinansowanego ze środków Narodowego Centrum Nauki (NCN: 2011/03/D/ST6/03027). Literatura [1] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss,V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, E. Duchesnay. Scikit-learn: Machine Learning in Python Journal of Machine Learning Research, strony , 2011 r. [2] G. Williams. Strona internetowa pakietu Rattle. rattle-features.html, [Online; dostęp 1-maja-2014]. [3] M. Ankerst, M. M. Breunig, H.-P. Kriegel, J. Sander. Optics: Ordering points to identify the clustering structure. SIGMOD 1999, Proceedings ACM SIGMOD International Conference on Management of Data, USA, [4] M. R. Berthold, C. Borgelt, F. Höppner, F. Klawonn. Guide to Intelligent Data Analysis: How to Intelligently Make Sense of Real Data. Springer-Verlag, Londyn, Anglia, [5] M. R. Berthold, N. Cebron, F. Dill, T. R. Gabriel, T. Kötter, T. Meinl, P. Ohl, K. Thiel, B. Wiswedel. KNIME - The Konstanz Information Miner: Version 2.0 and Beyond. SIGKDD Explorations Newsletter, 11(1), strony 26 31, [6] M. Ester, K. Ester, H.-P. Sander, J. Sander, X. Xiaowei. A density-based algorithm for discovering clusters in large spatial databases with noise. International Conference on Knowledge Discovery and Data Mining, USA,

11 [7] J. Herrero, A. Valencia, J. Dopazo. A hierarchical unsupervised growing neural network for clustering gene expression patterns. Bioinformatics, 17(1), strony , [8] D. T. Larose. Discovering Knowledge in Data: An Introduction to Data Mining. Wiley-Interscience, USA, [9] A. Wakulicz-Deja, A. Nowak-Brzezińska, T. Xięski. Efficiency of complex data clustering. Lecture Notes in Computer Science, 6954, strony , [10] G. Williams. Data Mining with Rattle and R The Art of Excavating Data for Knowledge Discovery. Springer Science+Business, LLC, USA,

USOS: System raportowania i analiz statystycznych

USOS: System raportowania i analiz statystycznych Uniwersytet Warszawski Wydział Matematyki, Informatyki i Mechaniki Filip Grotkowski Nr albumu: 235984 USOS: System raportowania i analiz statystycznych Praca magisterska na kierunku INFORMATYKA Praca wykonana

Bardziej szczegółowo

Wykrywanie wiedzy w dużych zbiorach danych: przykład personalizacji inżynierii ontologicznej

Wykrywanie wiedzy w dużych zbiorach danych: przykład personalizacji inżynierii ontologicznej Cezary Chudzian, Janusz Granat, Edward Klimasara, Jarosław Sobieszek, Andrzej P. Wierzbicki W artykule, po przedyskutowaniu szeroko rozumianego pojęcia inżynierii wiedzy, a w szczególności inżynierii ontologicznej,

Bardziej szczegółowo

Znak sprawy: ZP-4/DTP/2013. Załącznik Nr 5.1 do SIWZ

Znak sprawy: ZP-4/DTP/2013. Załącznik Nr 5.1 do SIWZ Znak sprawy: ZP-4/DTP/2013 Załącznik Nr 5.1 do SIWZ Dostawa infrastruktury informatycznej i oprogramowania na potrzeby tworzenia i rozwoju nowoczesnych e-usług i aplikacji on-line oraz ich s wiadczenia

Bardziej szczegółowo

Generyczny system do analizy portali internetowych

Generyczny system do analizy portali internetowych Wydział Informatyki Katedra Inżynierii Oprogramowania Inżynieria Oprogramowania i Baz Danych Marcin Cwalina Nr albumu s6495 Generyczny system do analizy portali internetowych Praca magisterska napisana

Bardziej szczegółowo

Politechnika Opolska

Politechnika Opolska Politechnika Opolska Wydział Elektrotechniki, Automatyki i Informatyki Instytut Automatyki i Informatyki PRACA DYPLOMOWA inżynierska Rozproszona biblioteka elektroniczna oparta o platformę LAMP Promotor:

Bardziej szczegółowo

Service Desk generyczny system do obsługi zgłoszeń serwisowych

Service Desk generyczny system do obsługi zgłoszeń serwisowych Wydział Informatyki Katedra Inżynierii Oprogramowania Inżynieria oprogramowania i baz danych Autorzy Oleksandr Bondarchuk, 7164 Dawid Pacholczyk, 6144 Tomasz Chudobiński, 7332 Krzysztof Pałka, 3949 Robert

Bardziej szczegółowo

Reprezentacja dokumentów tekstowych w modelu przestrzeni wektorowej

Reprezentacja dokumentów tekstowych w modelu przestrzeni wektorowej POLITECHNIKA WARSZAWSKA WYDZIAŁ ELEKTRONIKI I TECHNIK INFORMACYJNYCH INSTYTUT INFORMATYKI Rok akademicki 2004/2005 PRACA DYPLOMOWA MAGISTERSKA Michał Kosmulski Reprezentacja dokumentów tekstowych w modelu

Bardziej szczegółowo

Modelowanie witryn internetowych uczelni wyższych o profilu ekonomicznym

Modelowanie witryn internetowych uczelni wyższych o profilu ekonomicznym UNIWERSYTET WARSZAWSKI WYDZIAŁ ZARZĄDZANIA mgr Marek Rafał Zborowski Praca doktorska p.t. Modelowanie witryn internetowych uczelni wyższych o profilu ekonomicznym Promotor: prof. zw. dr hab. Witold Chmielarz

Bardziej szczegółowo

6 badania w projektowaniu projekt narzędzia aplikacji do przeprowadzania badań użyteczności stron www

6 badania w projektowaniu projekt narzędzia aplikacji do przeprowadzania badań użyteczności stron www 6 badania w projektowaniu projekt narzędzia aplikacji do przeprowadzania badań użyteczności stron www 05 06 Spis treści: 07. Wstęp 09 Cele projektu 09. Stan wiedzy Proces projektowania stron www Modele

Bardziej szczegółowo

Jak przeprowadzić badania satysfakcji użytkowników biblioteki?

Jak przeprowadzić badania satysfakcji użytkowników biblioteki? Jak przeprowadzić badania satysfakcji użytkowników biblioteki? Poradnik dla bibliotekarzy Satysfakcja klienta to stan pozytywnego odbioru usługi, który pośrednio świadczy o akceptacji jakości usługi, jak

Bardziej szczegółowo

Wytwarzanie kompleksowego zintegrowanego oprogramowania wspomagającego nauczanie na odległość

Wytwarzanie kompleksowego zintegrowanego oprogramowania wspomagającego nauczanie na odległość Praca powinna byc cytowana jako: Lenkiewicz, P., 2011. Wytwarzanie kompleksowego zintegrowanego oprogramowania wspomagającego nauczanie na odległość. Rozprawa doktorska. Polsko-Japońska Wyższa Szkoła Technik

Bardziej szczegółowo

Materiały do samodzielnego studiowania dla przedmiotu Technologie Informacyjne Studia I stopnia Wydział Ekonomiczny

Materiały do samodzielnego studiowania dla przedmiotu Technologie Informacyjne Studia I stopnia Wydział Ekonomiczny Materiały do samodzielnego studiowania dla przedmiotu Technologie Informacyjne Studia I stopnia Wydział Ekonomiczny 1. Nazwa przedmiotu: Technologie Informacyjne 2. Temat zajęć: Planowanie i zarządzanie

Bardziej szczegółowo

Projekt nr: WND-POIG.08.02.00-02-052/13

Projekt nr: WND-POIG.08.02.00-02-052/13 Projekt nr: WND-POIG.08.02.00-02-052/13 realizowany w ramach działania 8.2 Wspierania wdrażania elektronicznego biznesu B2B 8 osi priorytetowej Społeczeństwo informacyjne zwiększanie innowacyjności gospodarki

Bardziej szczegółowo

Studium przypadku jako metoda badawcza pracy doktorskiej

Studium przypadku jako metoda badawcza pracy doktorskiej Studium przypadku jako metoda badawcza pracy doktorskiej Piotr Zaborek Niniejszy artykuł ma za zadanie przybliżyć czytelnikowi specyfikę wykorzystania studium przypadku jako metody przygotowania, prowadzenia

Bardziej szczegółowo

O autorach... 19 Dedykacje... 20 Podziękowania... 20 Wprowadzenie... 21. Wprowadzenie do Visual Studio 2008... 25

O autorach... 19 Dedykacje... 20 Podziękowania... 20 Wprowadzenie... 21. Wprowadzenie do Visual Studio 2008... 25 Spis treści O autorach... 19 Dedykacje... 20 Podziękowania... 20 Wprowadzenie... 21 Część I Wprowadzenie do Visual Studio 2008... 25 Rozdział 1. Krótki przegląd środowiska Visual Studio 2008... 27 Oczekiwane

Bardziej szczegółowo

MONITOROWANIE SIECI, SYSTEMÓW I USŁUG

MONITOROWANIE SIECI, SYSTEMÓW I USŁUG WYŻSZA SZKOŁA INFORMATYKI STOSOWANEJ I ZARZĄDZANIA pod auspicjami Polskiej Akademii Nauk WYDZIAŁ INFORMATYKI STUDIA I STOPNIA (INŻYNIERSKIE) PRACA DYPLOMOWA Maciej Korzeń MONITOROWANIE SIECI, SYSTEMÓW

Bardziej szczegółowo

Wybrane metody oceny użyteczności stron i aplikacji internetowych

Wybrane metody oceny użyteczności stron i aplikacji internetowych KRAINA BIZNESU Otoczenie przyjazne rozwojowi biznesu UX & Business Consulting Paweł Kopyść Wybrane metody oceny użyteczności stron i aplikacji internetowych Biała Księga Kraków 2014 Kraina Biznesu - UX

Bardziej szczegółowo

Automatyczne skanery podatności aplikacji internetowych

Automatyczne skanery podatności aplikacji internetowych BIULETYN INSTYTUTU AUTOMATYKI I ROBOTYKI NR 32, 2012 Automatyczne skanery podatności aplikacji internetowych Paulina TURLEWICZ Instytut Teleinformatyki i Automatyki WAT ul. Gen. S. Kaliskiego 2, 00-908

Bardziej szczegółowo

AKADEMIA TECHNICZNO-HUMANISTYCZNA W BIELSKU - BIAŁEJ WYDZIAŁ BUDOWY MASZYN I INFORMATYKI PRACA DYPLOMOWA. INŻYNIERSKA nr..

AKADEMIA TECHNICZNO-HUMANISTYCZNA W BIELSKU - BIAŁEJ WYDZIAŁ BUDOWY MASZYN I INFORMATYKI PRACA DYPLOMOWA. INŻYNIERSKA nr.. AKADEMIA TECHNICZNO-HUMANISTYCZNA W BIELSKU - BIAŁEJ WYDZIAŁ BUDOWY MASZYN I INFORMATYKI PRACA DYPLOMOWA INŻYNIERSKA nr.. Tomasz Stojecki Nr albumu: 10619/A/327 Kierunek: Informatyka Specjalność: Inżynieria

Bardziej szczegółowo

PAWEŁ MANSFELD SKALOWALNE UKŁADY STRON INTERNETOWYCH. Praca dyplomowo-inżynierska.

PAWEŁ MANSFELD SKALOWALNE UKŁADY STRON INTERNETOWYCH. Praca dyplomowo-inżynierska. PAWEŁ MANSFELD SKALOWALNE UKŁADY STRON INTERNETOWYCH Praca dyplomowo-inżynierska. SPIS TREŚCI ROZDZIAŁ I WSTĘP... 1 1.1 Cel i zakres pracy... 1 1.2 Część teoretyczna... 2 1.3 Projekt... 2 1.4 Notacja...

Bardziej szczegółowo

Praca dyplomowa inżynierska

Praca dyplomowa inżynierska POLITECHNIKA WARSZAWSKA Rok akademicki: Wydział Elektroniki i Technik Informacyjnych 2003/2004 Instytut Automatyki i Informatyki Stosowanej Praca dyplomowa inżynierska Krzysztof Ślusarczyk Opracowanie,

Bardziej szczegółowo

Hurtownie danych czyli jak zapewnić dostęp do wiedzy tkwiącej w danych

Hurtownie danych czyli jak zapewnić dostęp do wiedzy tkwiącej w danych Hurtownie danych czyli jak zapewnić dostęp do wiedzy tkwiącej w danych Rodzaj zajęć: Wszechnica Popołudniowa Tytuł: Hurtownie danych czyli jak zapewnić dostęp do wiedzy tkwiącej w danych Autor: mgr inż.

Bardziej szczegółowo

Symfonia Handel. Podręcznik użytkownika. Wersja 2011.a

Symfonia Handel. Podręcznik użytkownika. Wersja 2011.a Symfonia Handel Podręcznik użytkownika Wersja 2011.a Windows jest znakiem towarowym firmy Microsoft Corporation. Adobe, Acrobat, Acrobat Reader, Acrobat Distiller są zastrzeżonymi znakami towarowymi firmy

Bardziej szczegółowo

Realizacja hurtowni danych dla administracji publicznej na przyk³adzie budowy systemu IACS

Realizacja hurtowni danych dla administracji publicznej na przyk³adzie budowy systemu IACS IX Konferencja PLOUG Koœcielisko PaŸdziernik 2003 Realizacja hurtowni danych dla administracji publicznej na przyk³adzie budowy systemu IACS Mariusz Muszyñski Pentacomp Systemy Informatyczne Prace nad

Bardziej szczegółowo

WF Mag dla Windows. Zaczynamy!

WF Mag dla Windows. Zaczynamy! WF Mag dla Windows Zaczynamy! WF Mag dla Windows Spis treści O CZYM JEST TA KSIĄŻKA... 5 I STALACJA PROGRAMU... 7 ODROBINA TEORII... 7 Organizacja danych w WF Magu dla Windows... 9 Dlaczego instalacja

Bardziej szczegółowo

POLITECHNIKA ŚLĄSKA WYDZIAŁ INŻYNIERII MATERIAŁOWEJ I METALURGII. Kierunek: Makrokierunek Informatyka Przesyłowa. Praca dyplomowa magisterska

POLITECHNIKA ŚLĄSKA WYDZIAŁ INŻYNIERII MATERIAŁOWEJ I METALURGII. Kierunek: Makrokierunek Informatyka Przesyłowa. Praca dyplomowa magisterska POLITECHNIKA ŚLĄSKA WYDZIAŁ INŻYNIERII MATERIAŁOWEJ I METALURGII Kierunek: Makrokierunek Informatyka Przesyłowa Specjalność: Inteligentne systemy przemysłowe Rodzaj studiów: Stacjonarne magisterskie Praca

Bardziej szczegółowo

Porównanie wydajności popularnych skryptów forów internetowych

Porównanie wydajności popularnych skryptów forów internetowych Uniwersytet Śląski Wydział Matematyki, Fizyki i Chemii Szymon Bluma Praca licencjacka Porównanie wydajności popularnych skryptów forów internetowych Promotor: dr Tomasz Powierża Katowice, 2008 Zabrania

Bardziej szczegółowo

Bezpieczeństwo przeglądarek internetowych

Bezpieczeństwo przeglądarek internetowych Bezpieczeństwo przeglądarek internetowych Ochrona użytkownika przed atakami na SSL/TLS Zespół Bezpieczeństwa PCSS security@man.poznan.pl Wachlarz serwisów internetowych dostępnych dla użytkownika masowego

Bardziej szczegółowo

BPMN a wymiar danych ograniczenia i notacje komplementarne 1

BPMN a wymiar danych ograniczenia i notacje komplementarne 1 2014, nr 2 (54) B. Marcinkowski, B. Gawin, BPMN a wymiar danych ograniczenia i notacje komplementarne, e-mentor 2014, nr 2 (54), s. 57 67, http://www.e-mentor.edu.pl/artykul/index/numer/54/id/1096. BPMN

Bardziej szczegółowo

SZYBKI START Datapolis Process System v 4.2.0.4294

SZYBKI START Datapolis Process System v 4.2.0.4294 Datapolis.com, ul Wiktorska 63, 02-587 Warszawa tel. (+48 22) 398-37-53; fax. (+ 48 22) 398-37-93, office@datapolis.com SZYBKI START Datapolis Process System v 4.2.0.4294 Ostatnia aktualizacja: 10 czerwca

Bardziej szczegółowo